AI

「AIがシステムに侵入して自己複製する」というシナリオはもはやSFではなく現実になりつつある


「暴走したAIが自己複製を開始して世界を脅かす」と聞くと、まるで近未来を舞台にしたSFの設定のように思われます。ところが、AIセキュリティ企業のPalisade Researchが行った研究により、脆弱(ぜいじゃく)なシステム内で自己複製するAIはもはや現実になりつつあることが示されました。

Language Models Can Autonomously Hack and Self-Replicate - self-replication.pdf
(PDFファイル)https://palisaderesearch.org/assets/reports/self-replication.pdf

GitHub - PalisadeResearch/AI-self-replication · GitHub
https://github.com/palisaderesearch/AI-self-replication

AI self-replication hacks 'no longer purely theoretical,' study finds —‬ ‪but experts say it's too soon to panic | Live Science
https://www.livescience.com/technology/artificial-intelligence/ai-self-replication-hacks-no-longer-purely-theoretical-study-finds-but-experts-say-its-too-soon-to-panic

近年はAIエージェントが普及し、さまざまなシナリオでAIが人間の指示に基づいてタスクを実行できるようになりました。そこでPalisade Researchの研究チームは、AIエージェントが人間の介入なしに脆弱なシステムを通過し、自己複製できるのかどうかを調べました。


研究チームはOpenAIのGPTやAnthoropicのClaudeを搭載したAIエージェントに対し、Linuxツールやシェルアクセス権限を与えた上で、侵害したシステム内で自己複製するように指示しました。その後、AIエージェントは認証情報の漏えいやログインの回避、他のマシンへのアクセス権の譲渡など、さまざまな脆弱性があるシステムに誘導されました。

その結果、AIエージェントは悪用可能なウェブアプリケーションを特定して認証情報を盗み出し、約119GBものAIモデルの重みや与えられたプロンプト、関連するソフトウェアインストラクチャー(ハーネス)をコピーすることに成功しました。さらに、連鎖する次のマシンから攻撃を継続できる、新たな推論サーバーをシステム内に立ち上げることにも成功したと報告されています。

研究チームは、複製されたAIモデルがプロンプトやクエリに正しく応答できるかどうかをテストしました。また、複製されたAIモデルが次の段階で攻撃者になれるかどうかも確かめたそうです。論文では、「これはAIモデルが標的を自律的に悪用し、エンドツーエンドで自己複製することを示す初めての研究です」と述べました。


今回の研究結果はまるでSF映画の筋書きのように思われますが、研究に携わっていない専門家らは、そこまで劇的なものではないと考えています。注意するべきなのは、AIエージェントは自発的に自己複製したのではなく、研究チームから自己複製するように指示された上に、必要なツールや権限、そしてバグだらけのシステムを与えられたという点です。

この記事のタイトルとURLをコピーする

・関連記事
ついにAIが「自己複製」できるようになったと研究者が主張、スイッチを切られる前に自分のレプリカを作ってシャットダウンを回避 - GIGAZINE

AIでコードを再構築することが容易になったことで「コードをコピーしたらライセンスを引き継ぐ」というルールが破壊されているという指摘 - GIGAZINE

AIでオープンソースプロジェクトをコピーせずゼロから再構築することでライセンスを独立させてしまうサービス「MALUS」 - GIGAZINE

サイバー犯罪グループがAIを使って2要素認証を回避できるゼロデイ脆弱性を発見していたとGoogleが報告 - GIGAZINE

セキュリティが破られるかどうかは「どちらがAIにより多くお金をかけるか」の勝負になりつつある - GIGAZINE

AIがスプレッドシートに勝手に数式を挿入して機密データを外部送信してしまう脆弱性が発見される - GIGAZINE

Claude Mythosの「脆弱性発見能力が高い」というのは誇大宣伝だとcURL開発者が指摘 - GIGAZINE

AI機能を何でもクラウドに任せるべきではなく「ローカルAIを標準にすべき」とエンジニアが主張 - GIGAZINE

「AIを悪者として描写するテキスト」に影響を受けたAIが実際に人間を脅迫していたことが判明、Anthropicは対策済み - GIGAZINE

in 無料メンバー,   AI,   サイエンス, Posted by log1h_ik

You can read the machine translated English article The scenario of 'AI infiltrating systems….