OpenAIの「実験的推論モデル」が数学オリンピックで金メダル相当のスコアを達成、GPT-5は近日中にリリース予定で「実験的推論モデル」はまだ先

OpenAIが自社の開発する「実験的推論モデル(experimental reasoning LLM)」を用いて国際数学オリンピックに挑戦し、金メダル相当のスコアを達成したことを発表しました。同時に、GPT-5を近日中にリリース予定であることも明言されています。
1/N I’m excited to share that our latest @OpenAI experimental reasoning LLM has achieved a longstanding grand challenge in AI: gold medal-level performance on the world’s most prestigious math competition—the International Math Olympiad (IMO). pic.twitter.com/SG3k6EknaC
— Alexander Wei (@alexwei_) July 19, 2025
国際数学オリンピックでは、4時間30分の制限時間以内に6問の問題を解くことを求められ、上位8%の参加者に金メダルが授与されます。OpenAIの実験的推論モデルは人間と同じルールで競技に参加し、他のツールやインターネット上の情報に頼ることなく解答を生成しました。また、AIモデルへ問題を入力する際に「AI用の特別な言語への変換処理」は行われず、自然言語で入力されました。
2/N We evaluated our models on the 2025 IMO problems under the same rules as human contestants: two 4.5 hour exam sessions, no tools or internet, reading the official problem statements, and writing natural language proofs. pic.twitter.com/eCehaJeYgi
— Alexander Wei (@alexwei_) July 19, 2025
実験的推論モデルは6問中5問の解答を生成し、3人の国際数学オリンピックメダリストによる採点の結果、金メダル相当の35ポイントを獲得することに成功しました。実験的推論モデルによる解答の全文は以下のリンク先で公開されています。
GitHub - aw31/openai-imo-2025-proofs
https://github.com/aw31/openai-imo-2025-proofs/

OpenAIのサム・アルトマンCEOは実験的推論モデルが数学に特化しているわけではないことを強調し、「これは、私たちの汎用人工知能(AGI)に向けた推進力の一部です」とコメントしています。また、アルトマンCEOは「今回の実験的推論モデルは将来のモデルで使用する新たな技術を組み込んだ実験的モデルです。私たちは近日中のGPT-5をリリース予定ですが、国際数学オリンピック金メダル相当の能力を持つモデルは、数カ月の間はリリースされません」と述べ、実験的推論モデルがリリースが数カ月以上先になることを明言しています。
we achieved gold medal level performance on the 2025 IMO competition with a general-purpose reasoning system! to emphasize, this is an LLM doing math and not a specific formal math system; it is part of our main push towards general intelligence.
— Sam Altman (@sama) July 19, 2025
when we first started openai,… https://t.co/X46rspI4l6
なお、Googleも「強化版Gemini Deep Think」を用いて国際数学オリンピックに挑戦し、金メダル相当のスコアを達成しています。「強化版Gemini Deep Think」については、テスト期間を経てGoogle AI Ultraの加入者向けに提供される予定です。
Googleの強化版Geminiが数学オリンピックで金メダルを取る性能に到達、自然言語で動作し人間と同じ制限時間で解答を導き出す - GIGAZINE

・関連記事
OpenAIがオープンモデルのリリースを無期限延期、「さらなる安全性を検証するため」 - GIGAZINE
Google Geminiが40年以上前のゲーム機とのチェス対決を放棄して不戦敗、ChatGPTの敗北を知ったため - GIGAZINE
DeepSeekが数学的推論に特化した「DeepSeek-Prover-V2」をひっそりとリリース、複雑な定理の形式証明に対応 - GIGAZINE
OpenAIのo3モデルが数学の超難問データセット「FrontierMath」で25.2%のスコアを獲得した衝撃を数学者が語る - GIGAZINE
GPT-4.1超えの中国製AIモデル「Kimi K2」が無料公開される、複数のテストでGPT-4.1やClaude 4 Opusを打ち負かしエージェントタスクもこなす - GIGAZINE
ついに「Grok 4」が登場、OpenAIなどの推論モデルを超える性能で「世界最強AIモデル」とアピールするも「イーロン・マスクの発言を参考にしまくる」という挙動も確認される - GIGAZINE
多言語・長文コンテキスト推論AI「SmolLM3」をHugging Faceがリリース、パラメータの少ない小規模言語モデルでありながらより大規模な言語モデルの性能に匹敵 - GIGAZINE
・関連コンテンツ
in ソフトウェア, Posted by log1o_hf
You can read the machine translated English article OpenAI's 'experimental inference mod….