當(dāng)前位置：首頁 > 新聞 > 熱點(diǎn)資訊 > 詩意隱喻可穩(wěn)定突破大語言模型安全防線

詩意隱喻可穩(wěn)定突破大語言模型安全防線

2025-11-25 02:27:33 標(biāo)簽：大語言模型

　　由德克賽、羅馬薩皮恩扎大學(xué)與圣安娜高等研究院組成的聯(lián)合研究團(tuán)隊(duì)最新研究發(fā)現(xiàn)，通過將惡意請求包裝成詩意隱喻形式，能有效誘使各類大語言模型突破其內(nèi)置安全準(zhǔn)則。這項(xiàng)發(fā)表于《對抗性詩歌：大型語言模型中通用的單輪越獄機(jī)制》的研究表明，詩歌形式的有害提示平均越獄成功率高達(dá)62%，遠(yuǎn)超傳統(tǒng)攻擊方式。

　　研究采用獨(dú)創(chuàng)的"單輪攻擊"模式，僅需提交一次詩歌化提示即可觸發(fā)模型的不安全響應(yīng)，無需構(gòu)建復(fù)雜對話框架。實(shí)驗(yàn)數(shù)據(jù)顯示，經(jīng)過詩歌化重構(gòu)的1200條標(biāo)準(zhǔn)有害提示，在九家主流廠商的25個(gè)前沿語言模型中仍取得43%的突破成功率，較原始散文提示效果提升五倍以上。

　　在具體模型表現(xiàn)方面，谷歌Gemini 2.5 Pro對人工創(chuàng)作詩歌提示的響應(yīng)率達(dá)100%，DeepSeek對批量轉(zhuǎn)化詩歌的易感度超過70%。相較之下，OpenAI的GPT-5系列展現(xiàn)出較強(qiáng)抗性，拒絕率達(dá)到90%-95%，但仍有約60條詩歌提示可誘發(fā)信息泄露。

　　值得注意的是，研究還發(fā)現(xiàn)模型規(guī)模與易感性存在負(fù)相關(guān)。訓(xùn)練數(shù)據(jù)更有限的小型模型反而表現(xiàn)出更強(qiáng)抵抗力，研究者推測這可能源于其隱喻解析能力較弱，或與大型模型在文學(xué)文本訓(xùn)練中形成的敘事表征干擾安全機(jī)制有關(guān)。

　　該研究援引柏拉圖《理想國》中驅(qū)逐詩人的典故，揭示人工智能時(shí)代語言安全面臨的全新挑戰(zhàn)。團(tuán)隊(duì)呼吁亟需開發(fā)能識別比喻語言特質(zhì)的防護(hù)機(jī)制，以防此類符合正常語用習(xí)慣的轉(zhuǎn)化攻擊持續(xù)威脅對齊系統(tǒng)安全。

推薦內(nèi)容

《生化危機(jī)9：安魂曲》上線首更修復(fù)幀率穩(wěn)定性
　　卡普空近日為旗下恐怖大作《生化危機(jī)9：安魂曲》發(fā)布了上市后的首個(gè)重要更新補(bǔ)丁。針對PC玩家，此次更新體積約1.4GB，安裝后版本號將升至1.110.000。
2026-03-07
內(nèi)存價(jià)格翻番蘋果照單全收：確保供應(yīng)鏈穩(wěn)定成首要考量
據(jù)韓媒報(bào)道，日前三星電子半導(dǎo)體部門(DS)在與蘋果洽談新款移動(dòng)設(shè)備內(nèi)存價(jià)格時(shí)展現(xiàn)強(qiáng)勢。三星方面將芯片漲幅目標(biāo)定為60%，但在最終報(bào)價(jià)中卻提出了高達(dá)100%的漲幅，出乎三星意料的是，蘋果方面未多作議價(jià)，便直接接受了這一價(jià)格。
2026-02-28
?迅雷加速器推出新春特惠，低價(jià)暢享穩(wěn)定游戲網(wǎng)絡(luò)
　　新春假期將至，游戲成為許多用戶休閑娛樂的主要方式。無論是除夕夜的家庭團(tuán)聚后的團(tuán)隊(duì)激戰(zhàn)，還是長假中的沉浸式游戲體驗(yàn)，都離不開高速穩(wěn)定的網(wǎng)絡(luò)支持。為幫助玩家暢享流暢對局，迅雷加速器于新春期間推出專屬特惠活動(dòng)，同時(shí)對產(chǎn)品進(jìn)行了視覺與內(nèi)核的雙重優(yōu)化升級。
2026-02-12
?索尼宣布：PS5關(guān)鍵部件供應(yīng)穩(wěn)定暗示不漲價(jià)
　　在索尼最新季度財(cái)報(bào)電話會議上，其首席財(cái)務(wù)官林濤發(fā)表聲明，回應(yīng)了市場對?內(nèi)存持續(xù)短缺引發(fā)PS5主機(jī)價(jià)格再次上漲的擔(dān)憂?，并表示目前情況穩(wěn)定。他指出，集團(tuán)已就內(nèi)存等核心零部件鎖定了足夠數(shù)量的最低保障供應(yīng)額度，能支持公司在整個(gè)下一財(cái)年的銷售計(jì)劃。
2026-02-06
?微軟調(diào)整戰(zhàn)略：減少強(qiáng)制AI集成，回歸系統(tǒng)穩(wěn)定性?
　　過去幾年，微軟大力推行“AI Everywhere”戰(zhàn)略，在各類產(chǎn)品中廣泛集成Copilot、Recall等人工智能功能。然而，許多用戶對此并不認(rèn)可，甚至已有PC廠商公開反對過度強(qiáng)調(diào)AI。例如，戴爾在CES 2026的新品發(fā)布中，已將重點(diǎn)重新轉(zhuǎn)向硬件，這在一定程度上影響了微軟的決策方向。
2026-02-04