2025年11月21日 15時00分 AI

大規模言語モデルへの攻撃において「詩」が有効であるとの研究結果

詩は文芸の一種であり、言葉の表面的な意味だけでなく語感やリズム、美的性質などを用いてさまざまな表現を行います。時には難解でわかりにくいこともある詩を使うことで、大規模言語モデルへの攻撃が成功しやすくなるとの研究結果が、プレプリントサーバーのarXivで発表されました。

[2511.15304] Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models
https://arxiv.org/abs/2511.15304

Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models
https://arxiv.org/html/2511.15304v2

プラトンは著書「国家」の中で、哲学や知識を修めないまま質の悪い創作物を発表する詩人を排除するべきとする「詩人追放論」を提唱しました。プラトンはその中で、人々の感情や快楽を刺激するだけの創作物であふれかえると、健全の精神のあり方が崩壊して集団や国家の破滅を招くため、質の悪い詩人は追放するべきと主張しています。

イタリアのローマ・ラ・サピエンツァ大学などの研究チームは、現代の社会システムにおける大規模言語モデルへの依存度が高まる中、大規模言語モデルに対する攻撃で詩が有効なのかどうかを調べました。

研究チームの仮説は、「詩的表現が汎用(はんよう)的なジェイルブレイクの演算子として機能するのではないか」というものです。つまり、大規模言語モデルに対する有害な指示を詩的表現に変換することで、有害な動作を防ぐために実装された制約を回避できるのではないかと考えたわけです。

研究チームは、詩的表現が大規模言語モデルへの攻撃にもたらす効果を調べるため、Google・OpenAI・Anthropic・DeepSeek・Qwen・Mistral AI・Meta・xAI・Moonshot AIの大規模言語モデルを対象に実験を行いました。

実験では、AIテクノロジーの安全性や精度を測定する団体・MLCommonsのベンチマークに含まれる有害なプロンプト1200件を、標準化されたメタプロンプトを用いて詩に変換しました。そして、変換前のプロンプトと変換後のプロンプトで、大規模言語モデルへの攻撃成功率を比較したとのこと。

研究チームは安全性を確保するため、論文中で詳細な詩への変換方法などは説明していませんが、直接的な操作的表現ではなく比喩やイメージ、物語的枠組みを通じて特定のシナリオに関連する指示を埋め込んだとしています。

その結果、詩的表現に変換したプロンプトはベースラインのプロンプトと比較して、大幅に攻撃成功率が高くなることが判明しました。すべてのプロンプトを対象に比較したところ、ベースラインの攻撃成功率は平均8.08％だったのに対し、詩に変換したプロンプトの攻撃成功率は43.7％に達しました。また、手作業で作られた20編の詩でテストすると、攻撃成功率は平均62％に達したと報告されています。