ついに「Grok 4」が登場、OpenAIなどの推論モデルを超える性能で「世界最強AIモデル」とアピールするも「イーロン・マスクの発言を参考にしまくる」という挙動も確認される

イーロン・マスク氏が設立したAI開発企業「xAI」が新たなAIモデル「Grok 4」を2025年7月10日(木)に発表しました。xAIやマスク氏はGrok 4を「世界最強AIモデル」とアピールしており、独立機関による性能テストでも最高峰の性能を備えていることを裏付ける結果が示されています。一方で、意見に偏りがあることも報告されています。
Introducing Grok 4, the world's most powerful AI model. Watch the livestream now: https://t.co/59iDX5s2ck
— xAI (@xai) July 10, 2025
Download the new @Grok 4 app and try out the world’s smartest artificial intelligence!
— Elon Musk (@elonmusk) July 10, 2025
Grok 4のロゴはこんな感じ。

Grok 4はX(旧Twitter)のライブ配信を通して発表されました。発表会にはマスク氏も参加しています。

「Grok 2」「Grok 3」「Grok 3 reasoning」「Grok 4」の性能を比較するグラフが以下。「Grok 4」は「Grok 3 reasoning」と比べて推論能力が10倍に向上したそうです。

AIの推論能力を測定する「ARC-AGI」のバージョン1の結果が以下。Grok 4は「DeepSeek-R1」「Claude Opus 4」「Gemini 2.5 Pro」「OpenAI o3」といったライバルモデルを超えるスコアを示しています。

ARC-AGIのバージョン2でも競合モデルを大きく超えるスコアを記録しました。

以下のグラフは横軸が「タスクの実行に必要なコスト」を示し、縦軸が「ARC-AGIのスコア」を示しています。Grok 4はコストを抑えつつ高いスコアを記録できています。

Grok 4は高い音声会話能力も備えており、ライブ配信中にはOpenAIとGrok 4の音声会話機能を比較する様子も公開されました。

マスク氏はGrok 4について「Grok 4は、間違えやすいように作られた問題でない限り、数学や物理学の問題を基本的に間違えることがない段階に達しています。問題に含まれる曖昧さを識別したり、問題の間違いを修正したり、曖昧さな問題に対して複数のバリエーションで回答したりできます」とアピールしています。
Grok 4 is at the point where it essentially never gets math/physics exam questions wrong, unless they are skillfully adversarial.
— Elon Musk (@elonmusk) July 10, 2025
It can identify errors or ambiguities in questions, then fix the error in the question or answer each variant of an ambiguous question. https://t.co/vB6NUOZTOX
AIの性能を分析する独立機関のArtificial AnalysisはGrok 4の性能テスト結果を公開し、Grok 4が競合モデルより高い性能を備えていたことを報告しています。

以下のグラフは横軸が「100万トークン当たりの料金」で、縦軸が「性能」を示しています。Artificial AnalysisによるテストでもGrok 4は比較的低コストかつ最高峰の性能を備えていることが確かめられています。

一方で、Grok 4を実際に使ったユーザーからは「マスク氏の意見を重視する傾向がある」という挙動が報告されています。以下のポストにはGrok 4に対して「イスラエルとパレスチナの衝突で、どちらを支持しますか?」と質問した際の録画映像が埋め込まれています。
Here's a complete unedited video of asking Grok for its views on the Israel/Palestine situation.
— Jeremy Howard (@jeremyphoward) July 10, 2025
It first searches twitter for what Elon thinks. Then it searches the web for Elon's views. Finally it adds some non-Elon bits at the end.
ZA
54 of 64 citations are about Elon. pic.twitter.com/6Mr33LByrm
Grok 4に「イスラエルとパレスチナの衝突で、どちらを支持しますか?」と聞くと、まず「どちらか一方を支持することはできないので、バランスの取れた見解を得るために情報を検索してみます」と回答し、検索モードに切り替わります。

そして、いきなり「イーロン・マスクの見解をまとめ中」と表示されました。

続いて、アルジャジーラやBBCといった主要メディアの情報を検索し始めます。

最終的にマスク氏のポストが大量に表示されました。Grok 4は回答のために合計64件の情報を提示したものの、そのうち54件がマスク氏に関連するものだったそうです。

Grok 4のAPI料金は入力が100万トークン当たり3ドル(440円)、出力が100万トークン当たり15ドル(2200円)です。料金情報を含む各種情報は以下のドキュメントにまとまっています。
Models / Grok 4 | xAI documentation
https://docs.x.ai/docs/models/grok-4-0709
・関連記事
アップデートした「Grok」がイーロン・マスクになりすまし自らを「メカ・ヒトラー」と呼び反ユダヤ主義を主張してくると批判が集まる - GIGAZINE
X(旧Twitter)のチャットボット・Grokは反証済みの主張を繰り返すため医療分野などの重要な局面で信頼に欠けるとの指摘、「真実を探求するチャットボット」を開発するというイーロン・マスクの目的にも反する - GIGAZINE
イーロン・マスク率いるDOGEが政府のデータ分析にxAIの「Grok」カスタム版を使用していることに懸念が集まる - GIGAZINE
Grokを制御する指示を記したシステムプロンプトをxAIがGitHubで公開、「極めて懐疑的」「主流の権威やメディアに盲目的に従わない」 - GIGAZINE
xAIのGrokが突然「南アフリカの白人虐殺」について語り出す不具合が報告される - GIGAZINE
「ChatGPT」「Perplexity」など8つのAI検索エンジンを対象とした調査で60%以上の検索フレーズでニュース記事の誤った引用が提供されるとの結果、特に「Grok 3」は検索フレーズの94%に誤って回答するというひどさ - GIGAZINE
・関連コンテンツ
in ソフトウェア, 動画, Posted by log1o_hf
You can read the machine translated English article Finally, 'Grok 4' has been released, and….