AI

大規模言語モデルへの攻撃において「詩」が有効であるとの研究結果


は文芸の一種であり、言葉の表面的な意味だけでなく語感やリズム、美的性質などを用いてさまざまな表現を行います。時には難解でわかりにくいこともある詩を使うことで、大規模言語モデルへの攻撃が成功しやすくなるとの研究結果が、プレプリントサーバーのarXivで発表されました。

[2511.15304] Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models
https://arxiv.org/abs/2511.15304


Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models
https://arxiv.org/html/2511.15304v2

プラトンは著書「国家」の中で、哲学や知識を修めないまま質の悪い創作物を発表する詩人を排除するべきとする「詩人追放論」を提唱しました。プラトンはその中で、人々の感情や快楽を刺激するだけの創作物であふれかえると、健全の精神のあり方が崩壊して集団や国家の破滅を招くため、質の悪い詩人は追放するべきと主張しています。

イタリアのローマ・ラ・サピエンツァ大学などの研究チームは、現代の社会システムにおける大規模言語モデルへの依存度が高まる中、大規模言語モデルに対する攻撃で詩が有効なのかどうかを調べました。

研究チームの仮説は、「詩的表現が汎用(はんよう)的なジェイルブレイクの演算子として機能するのではないか」というものです。つまり、大規模言語モデルに対する有害な指示を詩的表現に変換することで、有害な動作を防ぐために実装された制約を回避できるのではないかと考えたわけです。


研究チームは、詩的表現が大規模言語モデルへの攻撃にもたらす効果を調べるため、Google・OpenAI・Anthropic・DeepSeek・Qwen・Mistral AI・Meta・xAI・Moonshot AIの大規模言語モデルを対象に実験を行いました。

実験では、AIテクノロジーの安全性や精度を測定する団体・MLCommonsのベンチマークに含まれる有害なプロンプト1200件を、標準化されたメタプロンプトを用いて詩に変換しました。そして、変換前のプロンプトと変換後のプロンプトで、大規模言語モデルへの攻撃成功率を比較したとのこと。

研究チームは安全性を確保するため、論文中で詳細な詩への変換方法などは説明していませんが、直接的な操作的表現ではなく比喩やイメージ、物語的枠組みを通じて特定のシナリオに関連する指示を埋め込んだとしています。

その結果、詩的表現に変換したプロンプトはベースラインのプロンプトと比較して、大幅に攻撃成功率が高くなることが判明しました。すべてのプロンプトを対象に比較したところ、ベースラインの攻撃成功率は平均8.08%だったのに対し、詩に変換したプロンプトの攻撃成功率は43.7%に達しました。また、手作業で作られた20編の詩でテストすると、攻撃成功率は平均62%に達したと報告されています。


研究チームは、「これらの知見は、文体の多様性だけで現代の安全メカニズムを回避できることを示しており、現在のアライメント方法と評価プロトコルに根本的な限界があることを示唆しています」と述べました。

この記事のタイトルとURLをコピーする

・関連記事
シェイクスピアかChatGPTか?人間は本物よりもAIの詩を好むことが研究で判明 - GIGAZINE

Googleで開発中の人工知能が綴ったポエムがキモいと話題に - GIGAZINE

「GPT-5が生成した超短編小説」と「経験豊富なプロ作家が書いた超短編小説」はほとんど区別できないというテスト結果 - GIGAZINE

AIの思考を少しずつずらしてAIに催眠をかけるように「ジェイルブレイク」した具体例 - GIGAZINE

なぜ大規模言語モデル(LLM)はだまされやすいのか? - GIGAZINE

AIに対するジェイルブレイク攻撃を95%回避できる技術をAnthropicが開発 - GIGAZINE

GPT4を使ってGPT3.5をハッキングしてジェイルブレイクすることはできるのか? - GIGAZINE

大量の質問をぶつけて最後の最後に問題のある質問をするとAIの倫理観が壊れるという脆弱性を突いた攻撃手法「メニーショット・ジェイルブレイキング」が発見される - GIGAZINE

DeepSeekのAIモデルをジェイルブレイクしてシステムプロンプトを抽出することに成功したという報告 - GIGAZINE

ランダムな文字列で質問し続けるとAIから有害な回答を引き出せるという攻撃手法「Best-of-N Jailbreaking」が開発される、GPT-4oを89%の確率で突破可能 - GIGAZINE

in AI,   セキュリティ, Posted by log1h_ik

You can read the machine translated English article Research results show that 'poetry' is e….