AI

FLUXのBlack Forest Labsが高効率&高精度で画像・動画・音声を生成するマルチモーダルAIの学習手法「Self-Flow」を発表


画像生成AIのFLUXシリーズで知られるBlack Forest Labsが、生成AIをトレーニングするための新たなアプローチ「Self-Supervised Flow Matching(Self-Flow)」を発表しました。Self-Flowは生成モデルを自己教師あり学習で効率的にトレーニングするための仕組みで、学習効率の大幅な向上や画像生成時のテキスト描画の向上などを実現しています。

Black Forest Labs - Frontier AI Lab
https://bfl.ai/research/self-flow


Black Forest Labs' new Self-Flow technique makes training multimodal AI models 2.8x more efficient | VentureBeat
https://venturebeat.com/technology/black-forest-labs-new-self-flow-technique-makes-training-multimodal-ai

Self-Flowは、画像・動画・音声を生成するAIモデルにおいて、表現と生成を統合的にモデル化することで、外部モデルや教師データを用いることなく一貫して既存の生成AI学習手法を上回る性能を発揮する自己教師ありフローマッチングフレームワークです。以下は画像の中の特徴を合わせる従来手法であるREPA(青)とSelf-Flow(オレンジ)を比較したグラフで、横軸がトレーニングステップ数、縦軸が生成AIによる生成物がいかに本物らしいかの評価を表しています。生成物がいかに本物らしいかの評価は「0に近い(低い)ほど本物に近い」ため、同じステップ数だとSelf-Flowの方がより本物らしい画像・動画・音声を生成可能で、同レベルのクオリティを生成するために必要なステップ数はSelf-Flowの方が大きく抑えられることがグラフから読み取れます。


以下は、生成AIに「暗い雰囲気の森の背景に、金色とローズゴールドの文字で『From the Black Forest with love』と書かれたエレガントなタイポグラフィ」と指示を入力した結果で、左が従来の学習手法を用いたAI、右がSelf-Flowにより学習したAIの生成結果。Self-Flowは人間の顔や手といった構造的一貫性のほか、テキストレンダリングの精度において大幅な改善をもたらすとのこと。


また、ビデオサンプルでは人間の動作や表情、動物の動き、液体の流れ方などを、従来のトレーニング手法より大幅にトレーニングステップを抑えながらより自然な生成を実現していることが示されています。


Self-Flowの特徴の1つである自己教師あり学習は、AIが外部からトレーニングデータのラベルを与えられなくても、データ内の構造や関係性を自ら学び取ることができる手法です。Stable DiffusionやFLUXなどの生成AIは「拡散モデル」で、主にノイズ除去を目的とした学習を行うため、意味的な理解を十分に内部表現として育てにくいと指摘されることがありました。自己教師あり学習を用いることで、学習効率の向上やコストの削減が期待されます。

またSelf-Flowでは、同じデータに異なるノイズレベルを与えた「教師(EMAモデル)」と「生徒」を用意し、生徒がよりクリーンな内部表現を予測する「自己蒸留構造」を採用しています。このアプローチにより、モデルは内部の意味理解を深めるように強制され、効果的に生成方法を学びながら世界を認識する方法を学習します。


Self-Flowを導入した結果、モダリティ全体で学習がより早く安定状態に到達するまでの効率性が最大2.8倍まで上昇したとのこと。また、動画における時間的一貫性の向上や、テキスト描画およびタイポグラフィの鮮明化といった効果も報告されています。

Black Forest Labsは今後の課題として、世界モデルについて言及しています。生成AIのためのトレーニング手法であるSelf-Flowは、AIが単に見た目をマネするだけではなく、物理法則や物体の関係性を「知覚的根拠」をもって理解するための道筋を提供できる可能性があります。実際に、Self-Flowの6億7500万パラメータバージョンを微調整することで、複雑な複数ステップのタスクにおいて大幅に高い成功率を達成したことが報告されています。


Self-Flowの技術的詳細はGitHubで公開されています。記事作成時点でSelf-Flowは研究プレビュー段階ですが、今後商用APIやオープンウェイト製品に組み込まれる可能性が高いと考えられています。

GitHub - black-forest-labs/Self-Flow: Code and website for Self-Flow: Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis · GitHub
https://github.com/black-forest-labs/Self-Flow/

この記事のタイトルとURLをコピーする

・関連記事
「ノートPCで5分でAIをトレーニングする」という条件で最も高性能なAIを作る方法 - GIGAZINE

OpenAIはAIの進化の頭打ちで戦略の転換を余儀なくされている、高品質なデータ枯渇の問題が急激に顕在化 - GIGAZINE

AIのトレーニングデータを汚染して意図しない動作を引き起こさせるデータポイズニング攻撃はモデルのサイズやデータ量と無関係に250件ほどの悪意ある文書があれば実行可能 - GIGAZINE

AIのトレーニングに必要なデータ量を1万分の1に減らす画期的な方法をGoogleが発表 - GIGAZINE

1秒未満の爆速画像生成AI「FLUX.2[klein]」が登場、VRAM13GBで家庭用PCでも動作可能 - GIGAZINE

画像生成AI「FLUX.2 [max]」が登場、GPT Image 1.5やNano Banana Proに近い性能で低コスト - GIGAZINE

in AI, Posted by log1e_dh

You can read the machine translated English article FLUX's Black Forest Labs Announces '….