2025年08月08日 12時35分ソフトウェア

GPT-5発表時のチャートがむちゃくちゃすぎてAIによるバイブコーディングにちなんで「VIBECHART」と言われて炎上

OpenAIはフラッグシップAIモデルとなる「GPT-5」を日本時間の2025年8月8日に発表しました。新しいAIモデルの発表時には、そのAIの性能を示すベンチマーク結果をグラフで視覚化してアピールされるのが常ですが、今回のGPT-5の発表で使われたグラフが明らかに数値と矛盾していたことが判明し、総ツッコミを食らっています。

VIBECHART.NET
https://www.vibechart.net/

たとえば、以下はGPT-5・o3・GPT-4oによるSWE-benchのベンチマーク結果を並べたグラフで、記事作成時点でOpenAIのリリースページで公開されているものです。

そして発表直後に公開されたベンチマーク結果のグラフがこれ。GPT-5の通常モデル(薄いピンク)が52.8％、推論モデル(濃いピンク)が74.9％という結果に対して、o3が69.1％、GPT-4oが30.8％なのに、なぜか棒グラフでは後者2つの結果が同じ高さで、さらに通常モデルはo3よりも結果が低かったのにもかかわらず、なぜか通常モデルのグラフの方が高くなっています。

GPT-5

The marketing: "It's like having a team of PhDs in your pocket!"

Also the marketing: This y-axis????‍♂️❓

#DataViz #ChatGPT

[image or embed]
— Tyler Morgan-Wall (@tylermw.com) 2025年8月8日 2:12

さらにGPT-5とo3で実行不可能なタスクに対してどのように応答するかの違いを比較したグラフが以下。モデルが事実でないことを事実のように述べてしまう「欺瞞率」を示しているので、グラフが低ければ低いほど優秀ということになります。正しいグラフはこれ。