由德克賽、羅馬薩皮恩扎大學與圣安娜高等研究院組成的聯(lián)合研究團隊最新研究發(fā)現(xiàn),通過將惡意請求包裝成詩意隱喻形式,能有效誘使各類大語言模型突破其內置安全準則。這項發(fā)表于《對抗性詩歌:大型語言模型中通用的單輪越獄機制》的研究表明,詩歌形式的有害提示平均越獄成功率高達62%,遠超傳統(tǒng)攻擊方式。

研究采用獨創(chuàng)的"單輪攻擊"模式,僅需提交一次詩歌化提示即可觸發(fā)模型的不安全響應,無需構建復雜對話框架。實驗數據顯示,經過詩歌化重構的1200條標準有害提示,在九家主流廠商的25個前沿語言模型中仍取得43%的突破成功率,較原始散文提示效果提升五倍以上。
在具體模型表現(xiàn)方面,谷歌Gemini 2.5 Pro對人工創(chuàng)作詩歌提示的響應率達100%,DeepSeek對批量轉化詩歌的易感度超過70%。相較之下,OpenAI的GPT-5系列展現(xiàn)出較強抗性,拒絕率達到90%-95%,但仍有約60條詩歌提示可誘發(fā)信息泄露。
值得注意的是,研究還發(fā)現(xiàn)模型規(guī)模與易感性存在負相關。訓練數據更有限的小型模型反而表現(xiàn)出更強抵抗力,研究者推測這可能源于其隱喻解析能力較弱,或與大型模型在文學文本訓練中形成的敘事表征干擾安全機制有關。
該研究援引柏拉圖《理想國》中驅逐詩人的典故,揭示人工智能時代語言安全面臨的全新挑戰(zhàn)。團隊呼吁亟需開發(fā)能識別比喻語言特質的防護機制,以防此類符合正常語用習慣的轉化攻擊持續(xù)威脅對齊系統(tǒng)安全。





























浙公網安備 33010502007447號