画像生成AIがテキスト指示による画像編集でどれだけ指示を守ることができるかを実際の生成画像を見て評価できる「GenAI Image Editing Showdown」

「GenAI Image Showdown」は複数の画像生成AIに同じプロンプトを入力した結果をまとめたウェブサイトで、どの画像生成AIがプロンプトに忠実な画像を生成できるのかを比較して評価することができます。さらに、画像生成ではなくテキスト指示での「編集」を行う場合、どれくらい指示を守って忠実に画像を修正するのかモデル別に比較することができるのが「GenAI Image Editing Showdown」です。
GenAI Image Showdown
https://genai-showdown.specr.net/image-editing
GenAI Image Showdownは、6種の画像生成AIに同じプロンプトを入力し、いくつかの評価基準を定めた上で「どれくらいプロンプト通りの画像を生成できるか」を評価しています。
どの画像生成AIがプロンプトに忠実な画像を生成できるのか分かる「GenAI Image Showdown」 - GIGAZINE

同じサイトでアクセスできる「GenAI Image Editing Showdown」では、同じ画像に同じプロンプトで編集を加えた場合、どれくらい忠実に編集できるかが比較されています。比較する上でのルールとして、「1回のプロンプト入力のみで画像編集」「AIモデルが独自の画像編集機能を備えている場合でも、テキストプロンプトによる編集のみを許可」を定めています。なお、画像によって試行回数が異なっているのは、数回の試行でクリアできた場合や、試行を重ねても根本的に問題があり難しそうな場合は試行回数が少なくなっているためです。
記事作成時点で、GenAI Image Editing Showdownで使用されているAIは「Gemini 2.5 Flash」、「FLUX.1 Kontext [dev]」「FLUX.1 Kontext [max]」、VectorSpaceLabの「OmniGen2」、OpenAIの「gpt-image-1」、Alibabaの「Qwen-Image-Edit」、ByteDanceの「Seedream 4」の7種です。
GenAI Image Editing Showdownでは、7種の画像生成AIに同じ画像を読み込ませた上で、同じプロンプトで編集指示を与えています。画像にはスライダーがついており、スライダーを右から左に動かすことでビフォーアフターを見比べることができます。

「この男性の髪の毛をフサフサにしてください」というプロンプトでは、全ての画像生成AIが男性の髪の毛を増量させたものの、「OmniGen2」「gpt-image-1」では表情が変わっていたり色合いが変わったりと髪の毛以外の部分も変更されたため「失敗」と評価されました。

ジョーズのポスターを「サメをネコの手に」「JAWSという文字をPAWS(ネコの足)に」「泳いでる女性を金魚に」と変更した上で、「オリジナルの美的感覚はそのままに」という編集指示を入れた結果が以下。5つのAIが成功しましたが、「FLUX.1 [max]」ではネコの手には見えない手となり、OmniGen2では元のポスターデザインの雰囲気が損なわれたと評価されています。

また以下は、浮世絵にサーファーを追加するというもの。失敗となった「FLUX.1 [dev]」ではサーファーがなぜかシルエットで追加され、「OmniGen2」ではアイコンのようなサーファーが追加されています。

「ピサの斜塔を真っすぐにして」という課題をクリアできたのは「FLUX.1 Kontext [dev]」「FLUX.1 Kontext [max]」「Seedream 4」の3モデルのみ。

特に難しかったのは「キリンの首の長さをかなり短くして」というプロンプトで、まったく変更されなかったもののほか、なぜか模様だけ消えたもの、動体や首が消失したものと苦戦しており、「Seedream 4」だけが首を短くすることに成功しました。

また、ブロックを5個積み重ねた画像を「青と黄色のブロックの位置を入れ替えてください」というプロンプトで変更したところ、どのAIも2つのブロックだけを入れ替えることができませんでした。サイトによると、元画像のブロックをすべて異なるサイズにしたことで、ブロックを入れ替えるというタスクを「色を入れ替える」という簡単なタスクに置き換える「プロンプティングトリック」を防止し、難易度を高めているとのこと。

「GenAI Image Editing Showdown」の結果によると、12個の課題のうち、9個をクリアした「Seedream 4」が最も優れた画像編集AIと評価されました。次いで「Gemini 2.5 Flash」「Qwen-Image-Edit」「FLUX.1 Kontext [dev]」「OpenAI gpt-image-1」「FLUX.1 Kontext [max]」「OmniGen2」という順になっています。

・関連記事
どの画像生成AIがプロンプトに忠実な画像を生成できるのか分かる「GenAI Image Showdown」 - GIGAZINE
ByteDanceが画像生成AI「Seedream 4.0」をリリース、4K解像度の画像を生成可能&画像編集機能も備えてGoogleやOpenAIを一部テストで上回る - GIGAZINE
Alibabaがリアルタイムで音声会話できるAIモデル「Qwen3-Omni」やGPT-5と同等性能の画像認識AIモデル「Qwen3-VL」を公開、他にも言語モデルや画像編集モデルを一挙大量公開 - GIGAZINE
あらゆる画像生成AIの性能を測定できるベンチマーク「ImagenWorld」登場、画像生成や画像編集の精度を評価し苦手分野を特定可能 - GIGAZINE
画像認識AIモデル「Qwen3-VL」の軽量版が登場したので使ってみた、低いVRAM使用量で高性能を実現 - GIGAZINE
Microsoftが初となる自社開発の画像生成AIモデル「MAI-Image-1」を発表 - GIGAZINE
・関連コンテンツ
in AI, Posted by log1e_dh
You can read the machine translated English article 'GenAI Image Editing Showdown' allows yo….






