Google DeepMindが3Dゲームを人間のようにプレイして学習するAIエージェント「SIMA 2」を発表

Google DeepMindは2024年3月に、人間の指示を理解してゲームをプレイする「スケーラブルで指示可能なマルチワールドエージェント(SIMA)」を発表しました。そして2025年11月13日、Google DeepMindはSIMAの発展版として、Geminiと組み合わせることで3Dゲームにおける複雑な指示の理解度を大幅に高めた「SIMA 2」を公開しています。
SIMA 2: A Gemini-Powered AI Agent for 3D Virtual Worlds - Google DeepMind
https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/

SIMA 2 is our most capable AI agent for virtual 3D worlds. ????????
— Google DeepMind (@GoogleDeepMind) November 13, 2025
Powered by Gemini, it goes beyond following basic instructions to think, understand, and take actions in interactive environments – meaning you can talk to it through text, voice, or even images. Here’s how ???? pic.twitter.com/DuVWGJXW7W
SIMAは、人間にはできないハイスコアをたたき出したり人間と対決して勝ったりすることではなく、人間の指示に従ってプレイすることを目標にして作られたAIです。Googleのエンジニアであるティム・ハーレー氏は「SIMAはゲームに勝つために訓練されたのではなく、言われたことを実行するように訓練されました。ひとつのゲームをプレイすることを学習するだけでも、AIシステムにとっては技術的な偉業ですが、さまざまなゲームで指示に従うことを学習すれば、あらゆる環境でもっと役に立つAIエージェントのロックを解除できるでしょう」と話しています。2024年3月に発表されたSIMAでは、9本のゲームの遊び方を学習させ、単純なタスク約600種類をこなすことができるようになったとGoogle DeepMindは報告しています。
人間の言葉で指示するだけで「Goat Simulator 3」や「No Man’s Sky」など9つのゲームをプレイできるAI「SIMA」をGoogleが発表 - GIGAZINE

SIMAの大きな特徴として、特定のゲームだけを専門にトレーニングされたエージェントより、トレーニングデータに別のゲームが含まれている場合のパフォーマンスの方が67%もタスクの成功率が高くなっていました。これを踏まえて、より広範なトレーニングを重ねることでさらに汎用(はんよう)的で多用途なAIを目指し、より複雑なタスクをこなせるように進化したのがSIMA 2です。
SIMA 2はGeminiモデルの高度な機能を統合することで、単純な命令を実行するAIエージェントから、「ユーザーの高レベルな目標を理解し、環境を考察して動く」という能力を備えたゲームパートナーへと進化しています。トレーニングしていないゲーム環境でもタスクをこなすことが可能で、初代SIMAと比べて格段に「未知への対応力」が改善されています。
以下は、左がSIMA、右がSIMA 2にMinecraftをプレイさせ、「上、少し左と進んで小さな洞窟へ行き、石炭を採掘してきて」と指示した様子。

SIMA 2はあっさりと洞窟までたどり着いて石炭を発見、採取しましたが、SIMAは「どれくらい上に進んで、どれくらい左に動くか」ということを判断できず、洞窟を発見することすらできませんでした。

以下はタスクの成功率を示したグラフで、SIMAは31%だったのに対し、SIMA 2では65%と倍以上に改善しています。人間の成功率が75%程度のため、人間がゲームする際の判断力にかなり近づいたと言えます。

また以下は、初めて見る環境でどの程度タスクを成功させたかを示したグラフ。サバイバル系ゲームの「ASKA」ではSIMAは約3%だったのがSIMA 2では約15%まで向上、Minecraftの人工知能フレームワークである「MineDojo」では約1%程度だったものが約13%まで向上したように、大幅にタスクの成功率が上がっています。

SIMA 2は、言語ラベル付きの人間のデモンストレーション動画と、Geminiが生成したラベルを組み合わせて学習しています。その結果、SIMA 2はユーザーに何をしようとしているのか、そして目標を達成するためにどのような手順を踏んでいるのかを詳細に説明できるようになりました。テストの結果、SIMAは指示にそのまま従うことのみが可能でしたが、SIMA 2は単にコマンドを与えるというよりは、「目の前のタスクについて推論できる仲間と協力する」といった感じであることが判明しました。
また、SIMA 2はさまざまな言語の指示を理解できることに加えて、絵文字だけの指示も正しく解釈してタスクを実行することができたとのこと。

さらにGoogle DeepMindは、SIMA 2の汎用的な能力の限界をテストするために、インタラクティブな仮想世界を生成できる世界モデル「Genie 3」と組み合わせ、新しく生成されたばかりの世界をSIMA 2にプレイさせました。
テキストを入力するだけでグリグリ移動可能な仮想世界を作り出せるAI「Genie 3」をGoogleが発表、ゲーム開発やロボット研究などに革新をもたらすかも - GIGAZINE

結果として、SIMA 2はそれまでまったく経験したことがない3D世界においても、ユーザーの指示を理解して目標に向かって意味のある行動をとることができたそうです。
SIMA 2の優れた機能のひとつに、自己改善能力があります。例えば、最初は人間のデモンストレーションから学習した後、新しいゲームでは自己主導型のプレイのみで学習し、人間が生成した追加データなしで、これまで見たことのない世界でスキルを習得していきます。その後のトレーニングでは、SIMA 2自身の経験データを用いて、さらに能力の高いエージェントの次のバージョンをトレーニングすることができます。
Google DeepMindは「多様な生成世界で汎用エージェントをトレーニングするための大きなマイルストーンであり、AIエージェントが最小限の人間の介入で学習して成長していく未来への道が開かれます。これは、汎用人工知能(AGI)に向けた重要な一歩であり、ロボット工学やAIの具現化全般の将来に重要な意味を持ちます」と述べています。

Google DeepMindは2024年3月に、人間の指示を理解してゲームをプレイする「スケーラブルで指示可能なマルチワールドエージェント(SIMA)」を発表しました。そして2025年11月13日、Google DeepMindはSIMAの発展版として、Geminiと組み合わせることで3Dゲームにおける複雑な指示の理解度を大幅に高めた「SIMA 2」を公開しています。
SIMA 2: A Gemini-Powered AI Agent for 3D Virtual Worlds - Google DeepMind
https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/

SIMA 2 is our most capable AI agent for virtual 3D worlds. ????????
— Google DeepMind (@GoogleDeepMind) November 13, 2025
Powered by Gemini, it goes beyond following basic instructions to think, understand, and take actions in interactive environments – meaning you can talk to it through text, voice, or even images. Here’s how ???? pic.twitter.com/DuVWGJXW7W
SIMAは、人間にはできないハイスコアをたたき出したり人間と対決して勝ったりすることではなく、人間の指示に従ってプレイすることを目標にして作られたAIです。Googleのエンジニアであるティム・ハーレー氏は「SIMAはゲームに勝つために訓練されたのではなく、言われたことを実行するように訓練されました。ひとつのゲームをプレイすることを学習するだけでも、AIシステムにとっては技術的な偉業ですが、さまざまなゲームで指示に従うことを学習すれば、あらゆる環境でもっと役に立つAIエージェントのロックを解除できるでしょう」と話しています。2024年3月に発表されたSIMAでは、9本のゲームの遊び方を学習させ、単純なタスク約600種類をこなすことができるようになったとGoogle DeepMindは報告しています。
人間の言葉で指示するだけで「Goat Simulator 3」や「No Man’s Sky」など9つのゲームをプレイできるAI「SIMA」をGoogleが発表 - GIGAZINE

SIMAの大きな特徴として、特定のゲームだけを専門にトレーニングされたエージェントより、トレーニングデータに別のゲームが含まれている場合のパフォーマンスの方が67%もタスクの成功率が高くなっていました。これを踏まえて、より広範なトレーニングを重ねることでさらに汎用(はんよう)的で多用途なAIを目指し、より複雑なタスクをこなせるように進化したのがSIMA 2です。
SIMA 2はGeminiモデルの高度な機能を統合することで、単純な命令を実行するAIエージェントから、「ユーザーの高レベルな目標を理解し、環境を考察して動く」という能力を備えたゲームパートナーへと進化しています。トレーニングしていないゲーム環境でもタスクをこなすことが可能で、初代SIMAと比べて格段に「未知への対応力」が改善されています。
以下は、左がSIMA、右がSIMA 2にMinecraftをプレイさせ、「上、少し左と進んで小さな洞窟へ行き、石炭を採掘してきて」と指示した様子。

SIMA 2はあっさりと洞窟までたどり着いて石炭を発見、採取しましたが、SIMAは「どれくらい上に進んで、どれくらい左に動くか」ということを判断できず、洞窟を発見することすらできませんでした。

以下はタスクの成功率を示したグラフで、SIMAは31%だったのに対し、SIMA 2では65%と倍以上に改善しています。人間の成功率が75%程度のため、人間がゲームする際の判断力にかなり近づいたと言えます。

また以下は、初めて見る環境でどの程度タスクを成功させたかを示したグラフ。サバイバル系ゲームの「ASKA」ではSIMAは約3%だったのがSIMA 2では約15%まで向上、Minecraftの人工知能フレームワークである「MineDojo」では約1%程度だったものが約13%まで向上したように、大幅にタスクの成功率が上がっています。

SIMA 2は、言語ラベル付きの人間のデモンストレーション動画と、Geminiが生成したラベルを組み合わせて学習しています。その結果、SIMA 2はユーザーに何をしようとしているのか、そして目標を達成するためにどのような手順を踏んでいるのかを詳細に説明できるようになりました。テストの結果、SIMAは指示にそのまま従うことのみが可能でしたが、SIMA 2は単にコマンドを与えるというよりは、「目の前のタスクについて推論できる仲間と協力する」といった感じであることが判明しました。
また、SIMA 2はさまざまな言語の指示を理解できることに加えて、絵文字だけの指示も正しく解釈してタスクを実行することができたとのこと。

さらにGoogle DeepMindは、SIMA 2の汎用的な能力の限界をテストするために、インタラクティブな仮想世界を生成できる世界モデル「Genie 3」と組み合わせ、新しく生成されたばかりの世界をSIMA 2にプレイさせました。
テキストを入力するだけでグリグリ移動可能な仮想世界を作り出せるAI「Genie 3」をGoogleが発表、ゲーム開発やロボット研究などに革新をもたらすかも - GIGAZINE

結果として、SIMA 2はそれまでまったく経験したことがない3D世界においても、ユーザーの指示を理解して目標に向かって意味のある行動をとることができたそうです。
SIMA 2の優れた機能のひとつに、自己改善能力があります。例えば、最初は人間のデモンストレーションから学習した後、新しいゲームでは自己主導型のプレイのみで学習し、人間が生成した追加データなしで、これまで見たことのない世界でスキルを習得していきます。その後のトレーニングでは、SIMA 2自身の経験データを用いて、さらに能力の高いエージェントの次のバージョンをトレーニングすることができます。
Google DeepMindは「多様な生成世界で汎用エージェントをトレーニングするための大きなマイルストーンであり、AIエージェントが最小限の人間の介入で学習して成長していく未来への道が開かれます。これは、汎用人工知能(AGI)に向けた重要な一歩であり、ロボット工学やAIの具現化全般の将来に重要な意味を持ちます」と述べています。
・関連コンテンツ
in AI, ゲーム, Posted by log1e_dh
You can read the machine translated English article Google DeepMind announces SIMA 2, an AI ….






