ついに画像生成AI「FLUX.2」が登場、家のPCでローカル実行可能

ドイツのAIスタートアップであるBlack Forest Labsが、画像生成AIモデルファミリー「FLUX.2」を2025年11月25日にリリースしました。これは以前のモデルであるFLUX.1の成功を受け、さらに機能を拡張したもので、デモや遊びだけでなく実用的なクリエイティブワークフローでの利用を想定して設計されています。
FLUX.2: Frontier Visual Intelligence | Black Forest Labs
https://bfl.ai/blog/flux-2
FLUX.2 Image Generation Models Now Released | NVIDIA Blog
https://blogs.nvidia.com/blog/rtx-ai-garage-flux.2-comfyui/?linkId=100000393945960
FLUX.2の最大の特徴は、その高い描写能力と制御性にあります。具体的には、最大10枚までの参照画像を同時に読み込み、それらの特徴を反映させながら一貫したキャラクターやスタイルを維持するマルチリファレンス機能が搭載されました。また、4メガピクセルまでの高解像度出力に対応しており、ポスターやインフォグラフィックに含まれる複雑な文字情報も崩れることなく正確に描写可能です。
技術的な仕組みとしては、Mistral-3という240億パラメータを持つ視覚言語モデル(VLM)とTransformer技術を組み合わせた構造を採用しています。これにより、現実世界の物理法則や空間的な関係性をより深く理解した生成が可能になり、照明や材質の表現がよりリアルになりました。
FLUX.2には記事作成時点で4モデルが用意されています。
FLUX.2 [pro]は、クローズドソースの最上位モデルに匹敵する最高峰の画質を提供するモデルです。プロンプトの忠実度や視覚的な再現性において他のモデルと同等の性能を持ちながら、より高速かつ低コストで画像を生成できる点が特徴です。速度と品質の妥協を排除した設計となっています。
FLUX.2 [flex]は、開発者が生成ステップ数やガイダンススケールなどのパラメータを細かく制御できるモデル。これにより、品質、プロンプトの忠実度、処理速度のバランスを自由に調整することが可能です。特にテキストのレンダリングや細部の描写に優れています。以下は左からステップ数を6ステップ・20ステップ・50ステップに設定して生成した画像を並べたもので、ステップ数が増えるごとにテキストレンダリングの精度や画像のディデールが向上していることがわかります。

FLUX.2 [dev]は、FLUX.2のベースモデルから派生した320億パラメータを持つオープンウェイトモデルです。テキストからの画像生成と、複数の入力画像を用いた編集機能を単一のチェックポイントで実現しており、現在利用可能なオープンウェイトの画像生成・編集モデルとしては最も強力な性能を誇ります。FLUX.2 [dev]のモデルデータはHugging Faceで公開されています。
black-forest-labs/FLUX.2-dev · Hugging Face
https://huggingface.co/black-forest-labs/FLUX.2-dev

FLUX.2 [klein]は近日公開予定のモデルで、FLUX.2ベースモデルを蒸留によってサイズ縮小したものです。Apache 2.0ライセンスの下でオープンソースとして提供される予定で、同規模のゼロからトレーニングされたモデルと比較して、より強力かつ開発者が扱いやすい仕様となっています。
FLUX.2は非常に高性能である反面、動作には高い計算能力が求められます。320億パラメータを持つこのモデルを完全にロードするには通常90GBものVRAMが必要となりますが、NVIDIAとの協力により「FP8量子化」という技術を用いて最適化が行われました。これにより、画質を維持したままメモリ使用量を40%削減することに成功し、GeForce RTXのような一般的な消費者向けGPUでも動作させることが可能になっています。
ベンチマーク結果については、コスト対品質のバランスと、他社モデルとの勝率比較において詳細なデータが公開されています。まず品質とコストの関係を示すELOスコアのグラフを見ると、最上位モデルであるFLUX.2 [pro]は非常に高いスコアを記録しており、競合となる「Nano Banana 2」などと比較しても、より低いコストで高品質な画像を生成できる位置にいます。また、オープンウェイトモデルであるFLUX.2 [dev]も、非常に低いコストでありながら高い品質スコアを維持しており、コストパフォーマンスに優れていることが示されています。

競合モデルとの勝率(Win Rate)比較では、FLUX.2 [dev]が圧倒的な強さを見せています。テキストから画像を生成するタスクにおいて、FLUX.2 [dev]は66.6%の勝率を記録し、Qwen-Imageの51.3%やHunyuan Imageの48.1%を大きく上回りました。単一の画像を参照して編集を行うタスクでは、FLUX.2 [dev]が50.8%、Qwen-Imageが49.3%と接戦ですが、以前のFLUX.1 Kontextの41.2%からは確実な進歩を遂げています。さらに特筆すべきは複数の画像を参照する高度なタスクで、FLUX.2 [dev]は63.6%という高い勝率を記録し、Qwen-Imageの36.4%を大きく引き離しました。これらの結果は、FLUX.2が複雑な指示や複数の要素を組み合わせる生成において、他社モデルよりも優れた性能を発揮することを示しています。

Black Forest Labsは「私たちは、世界の見方や理解の仕方を変革するテクノロジー、すなわちビジュアルインテリジェンスの基盤となるインフラストラクチャを構築しています。FLUX.2は、知覚、生成、記憶、そして推論をオープンかつ透明性の高い方法で統合するマルチモーダルモデルへの一歩となります」と述べました。
・関連記事
Googleの画像生成AI「Gemini 3 Pro Image(Nano Banana Pro)」が登場、Geminiの推論機能を応用して言語対応や情報整理能力が強化 - GIGAZINE
ついにPhotoshop内でGoogle製画像生成AI「Nano Banana」とBlack Forest Labsの「FLUX.1 Kontext [pro]」が使用可能に - GIGAZINE
AIっぽさから脱却した実写のような美麗画像をテキストから生成できる画像生成AI「FLUX.1 Krea [dev]」が登場 - GIGAZINE
VRAM容量の少ない安めのグラボでも画像生成AI「FLUX.1 Kontext [dev]」を動かせる省メモリ高速版をNVIDIAが開発、VRAM使用量を24GBから7GBまで削減し2.1倍高速動作 - GIGAZINE
高品質な画像編集AI「FLUX.1 Kontext [dev]」が登場、元の画像を保ったまま指示通りに加工できるオープンモデル - GIGAZINE
高品質かつ高速な画像生成AI「FLUX.1 Kontext」が登場したので使ってみた、テキストと画像の入力に対応しアニメ風も実写風も生成可能 - GIGAZINE
・関連コンテンツ
in AI, デザイン, 創作, Posted by log1i_yk
You can read the machine translated English article Finally, image generation AI 'FLUX.2' ha….







