ソフトウェア

Alibabaがリアルタイムで音声会話できるAIモデル「Qwen3-Omni」やGPT-5と同等性能の画像認識AIモデル「Qwen3-VL」を公開、他にも言語モデルや画像編集モデルを一挙大量公開


中国に拠点を置く大手テクノロジー企業「Alibaba」のAI研究チーム「Qwen」が、自然言語でリアルタイム応答できるAIモデル「Qwen3-Omni」を2025年9月22日に発表しました。さらに、9月22日~24日の短期間に「Qwen3-VL」「Qwen3-TTS」「Qwen-Image-Edit-2509」「Qwen3-VL」「Qwen3-LiveTranslate-Flash」「Qwen3-Max」といったAIモデルが続々と発表されています。

Qwen
https://qwen.ai/home

◆Qwen3-Omni
Qwen3-Omniはテキスト・画像・音声・動画を処理してリアルタイムで応答できるAIモデルです。テキストと音声での応答に対応しているほか、119言語のテキスト理解、19言語の音声理解、10言語の音声生成が可能な多言語性能の高さも特徴です。

Qwen3-Omni: Natively Omni-Modal Foundation Models!
https://qwen.ai/blog?id=fdfbaf2907a36b7659a470c77fb135e381302028&from=research.research-list


ユーザーは「スマートフォンのカメラに写っているものについて、Qwen3-Omniと会話する」といったことが可能。Qwen3-Omniの動作例は以下の動画で確認できます。

Qwen3-Omni: Natively Omni-Modal Foundation Models! - YouTube


QwenチームはQwen3-Omni-FlashとQwen3-Omni-30B-A3Bのベンチマーク結果を公開しています。Qwen3-Omni-FlashはGPT-4oやGemini-2.5-Flashと同等以上のスコアを記録しています。


そして、Qwen3-Omni-30B-A3BはGPT-4oとQwen3-Omni-30B-A3Bのスコアをほとんどテストで上回っています。


Qwen3-Omniの各モデルは以下のリンク先で公開されています。

Qwen3-Omni - a Qwen Collection
https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe

◆Qwen3-VL
Qwen3-VLは高度な画像認識性能を備えたビジュアル言語モデルで、写真やアプリのスクリーンショットなどの内容を理解することが可能。また、32言語のOCRもサポートしています。

Qwen3-VL: Sharper Vision, Deeper Thought, Broader Action
https://qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535ab6d8afef&from=research.latest-advancements-list


Qwen3-VL-235B-A22B-Instructのベンチマーク結果は以下の通り。オープンモデルながら、多くのテストでGemini-2.5-ProやGPT-5のスコアを上回っています。


推論モデルのQwen3-VL-235B-A22B-ThinkingもGemini-2.5-ProやGPT-5を超える性能を示しました。


Qwenチームは動作例として「鬼滅の刃のキャラクター名を正確に認識する様子」を提示しています。


Qwen3-VLのモデルデータは以下のリンク先で公開されています。

Qwen3-VL - a Qwen Collection
https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe

◆Qwen3-TTS
Qwen3-TTSは日本語を含む10言語に対応した音声生成モデルです。Qwen3-TTSでは入力された音声を感情表現を維持したまま他の言語に翻訳することが可能です。日本語への翻訳を含む動作例は以下の動画で確認できます。

Qwen3-TTS: Multi-timbre & Multi-lingual & Multi-dialect Speech Synthesis. - YouTube
https://www.youtube.com/watch?v=MC6s4TLwX0A

◆Qwen-Image-Edit-2509
Qwen-Image-Edit-2509は画像編集AIモデル「Qwen-Image-Edit」のアップデート版で、顔や製品の一貫性を維持する能力が向上しています。Qwen-Image-Edit-2509を用いた編集例は以下のリンク先で確認できます。

Qwen-Image-Edit-2509: Multi-Image Support, Improved Consistency
https://qwen.ai/blog?id=1675c295dc29dd31073e5b3f72876e9d684e41c6&from=research.research-list


◆Qwen3-LiveTranslate-Flash
Qwen3-LiveTranslateは日本語を含む18言語に対応したリアルタイム音声通訳モデルです。音声だけでなく「唇の動き」や「ジェスチャー」といった視覚的な要素も入力可能で、音声認識精度を向上させられます。

Qwen3‑LiveTranslate: Real‑Time Multimodal Interpretation — See It, Hear It, Speak It!
https://qwen.ai/blog?id=b2de6ae8555599bf3b87eec55a285cdf496b78e4&from=research.latest-advancements-list


Qwenチームが実施したベンチマークテストでは、Qwen3-LiveTranslate-FlashはGemini-2.5-FlashやGPT-4o-Audio-Previewより高いスコアを記録しました。


◆Qwen3-Max
Qwen3-Maxは推論モデル「Qwen3シリーズ」の中で最上位のモデルです。

Qwen3-Max: Just Scale it
https://qwen.ai/blog?id=241398b9cd6353de490b0f82806c7848c5d2777d&from=research.latest-advancements-list


AIモデルの正体を伏せた状態で人間にテキスト生成性能を評価させる「Text Arena」では、Qwen3-MaxがGPT-5-Chatを抑えて3位にランクインしました。Qwen3-Maxは記事作成時点ではQwen Chatで利用可能となっており、近い内に一般公開される予定です。

この記事のタイトルとURLをコピーする

・関連記事
コスパの高いAIモデル「Qwen3-Next」登場、従来より10倍高速で同等以上の性能を実現 - GIGAZINE

ByteDanceが画像生成AI「Seedream 4.0」をリリース、4K解像度の画像を生成可能&画像編集機能も備えてGoogleやOpenAIを一部テストで上回る - GIGAZINE

NVIDIAがTransformerとMambaを組み合わせたハイブリッド推論モデル「Nemotron Nano 2」をリリース - GIGAZINE

AMDが独自開発の推論モデル「Instella-Math」を公開 - GIGAZINE

Xiaomiが音声理解能力に優れたAIモデル「MiDashengLM」をオープンソースで公開、Xiaomi製EVなどで使われている音声認識技術を基盤に開発された高品質モデル - GIGAZINE

in ソフトウェア,   動画, Posted by log1o_hf

You can read the machine translated English article Alibaba releases 'Qwen3-Omni,' an AI mod….