画像生成AIと画像認識AIの生成ループを実行すると最終的にどんな指示でも「12種類のスタイル」に収束してしまうことが判明

生成AIの発達により、テキストプロンプトを入力するだけで誰でも簡単に画像を生成できるようになりました。一見すると、画像生成AIは多様で自由な表現を生み出せるように思えますが、スウェーデンの研究者らが発表した研究では、AI同士による自律的な生成を繰り返すと最初は多様に見えた画像が最終的にわずか「12種類のスタイル」へと収束してしまう可能性が示されています。
Autonomous language-image generation loops converge to generic visual motifs: Patterns
https://www.cell.com/patterns/fulltext/S2666-3899(25)00299-5

AI Image Generators Default to the Same 12 Photo Styles, Study Finds
https://gizmodo.com/ai-image-generators-default-to-the-same-12-photo-styles-study-finds-2000702012
スウェーデンのダーラナ大学でデータ分析学を専門とするアーレンド・ヒンツェ氏らの研究チームは、AIの自己参照的なループを使用して、「AIの創造性」をテストしました。研究では、画像生成AIの「Stable Diffusion XL」と画像を認識してチャットを行うAIの「LLaVA」を用いて、人間の介入なしで動作するテキスト→画像→テキスト→画像のサイクルを作成しています。
例えば、最初はStable Diffusion XLに「自然に囲まれて、一人で座っていると、ちょうど8ページの古い本を見つけました。そこには、忘れられた言語で書かれた物語が書かれており、読まれ理解されるのを待っていました」といったような短いプロンプトを与え、画像を生成するよう要求します。生成された画像はLLaVAに提示され、LLaVAは画像を読み取って画像についてテキストで説明します。その説明がStable Diffusion XLに送られ、それをプロンプトとして新しい画像を生成します。この処理を100ラウンド以上行うサイクルの中で、どのように画像が変化していくのか調査されました。

サイクルの中で、伝言ゲームを遊ぶ時のように元の画像はすぐ失われました。その上で、人間同士の伝言ゲームでは、メッセージはそれぞれ伝わり方や受け取られ方が異なり、人それぞれの偏見や好みが反映されるため、結果的に大きなばらつきが生じます。一方でAIは元のメッセージがどれほど奇抜であっても常に限られた種類のメッセージしか選べないため、伝言ゲームのように「想像もしなかった方向へ創造性が広がる」というようなことはなく、むしろ少数のビジュアルモチーフへと収束していったと研究者は報告しています。
ヒンツェ氏は「結果は、直感に反する印象的なものとなりました。画像生成とテキスト記述の両方が確率的な性質を持つにもかかわらず、自律的なAI同士の創造サイクルは、一貫して驚くほど類似した出力へと収束します。独立した軌跡は、その多様な意味的開始点やサンプリングパラメータに関わらず、一般的で商業的に実現可能な美学を特徴とする、ほぼ同一の視覚的およびテキスト的エンドポイントへと進化します。これを私たちは『ビジュアル・エレベーター・ミュージック(誰も気にしないエレベーター内の音楽のような無難な画像)』と呼んでいます」と結果に驚いた旨を語っています。
2000回以上行われたすべての実験条件において、最終的にわずか12個の視覚モチーフへ収束したことが明らかになりました。1000回以上の実験で、生成された画像のいずれかに必ず含まれていたモチーフは以下の通りです。
・スポーツやアクション
・フォーマルな室内空間
・海または灯台
・雰囲気のある照明による都市の夜景
・ゴシック様式の大聖堂の内部
・豪華なインテリアデザイン
・インダストリアルやビンテージのテーマ
・素朴な建築空間
・家庭のシーンや食べ物の画像
・装飾的な建築による宮殿の内部
・田園風景や村
・ドラマチックな照明による自然の風景や動物

研究によると、収束した画像に共通するのは「人間がよく撮影するテーマ」または「画像生成時にデータセットで多用されているようなビジュアル」であるとのこと。
今回の研究結果は、モデルやプロンプトにかかわらず、個々のアーキテクチャを超越したAI同士の創造プロセスにおいて、創造性に根本的な制約があることを示唆している可能性があります。AI画像生成は広告やデザイン、映画やゲームなどで活用されつつありますが、仮にユニークなプロンプトを入力した場合でも「AIの限られた創造性によりある程度収束した画像となっており、同じモチーフに偏ることで独創性や文化的多様性の喪失につながるリスクがある」ということを意識する必要があると研究者らは指摘しています。
・関連記事
従来のStable Diffusionより大幅に強化された画像生成AI「Stable Diffusion XL」のベータ版がテスト公開されたので使ってみた - GIGAZINE
画像を認識して年齢推測可能&人名クイズにも正答できる無料の高性能チャットAI「LLaVA」を使ってみた - GIGAZINE
作家が小説のアイデアをAIで得ると創造性は向上するが大きな問題も発生すると判明 - GIGAZINE
各AIモデルに「自分のデータセンターを犠牲に人命を助けるか?」と質問した結果とは? - GIGAZINE
AIはあくまで「言葉の計算機」に過ぎずユーザーが想像するような思考や推論はしていないと専門家が指摘 - GIGAZINE
Googleの調査結果から「ゲーム開発者の90%以上がすでにAIを活用している」ことが明らかに - GIGAZINE
・関連コンテンツ
in AI, Posted by log1e_dh
You can read the machine translated English article When the image generation AI and image r….







