Alibabaの視覚言語AIモデル「Qwen3-VL」は2時間ある映像に挿入されたフレームを99.5%の精度で特定可能

中国のIT大手・Alibaba(阿里巴巴:アリババ)が、AIモデル「Qwen」シリーズで最も高性能な視覚言語モデルである「Qwen3-VL」の技術レポートを公開しました。様々なベンチマークを行った結果、Qwen3-VLは「視覚的な数学タスク」を得意とするほか、言語網羅率もQwen2.5のほぼ4倍の39言語に増加し、そのうち32の言語でOCR精度が70%超えとなっていることが報告されています。
[2511.21631] Qwen3-VL Technical Report
https://arxiv.org/abs/2511.21631
Qwen3-VL can scan two-hour videos and pinpoint nearly every detail
https://the-decoder.com/qwen3-vl-can-scan-two-hour-videos-and-pinpoint-nearly-every-detail/

Alibaba's Qwen3-VL Can Find a Single Frame in Two Hours of Video. The Catch? It Still Can't Outthink GPT-5.
https://www.implicator.ai/alibabas-qwen3-vl-can-find-a-single-frame-in-two-hours-of-video-the-catch-it-still-cant-outthink-gpt-5/

Alibaba Releases Qwen3-VL Technical Report Detailing Two-Hour Video Analysis – Unite.AI
https://www.unite.ai/alibaba-releases-qwen3-vl-technical-report-detailing-two-hour-video-analysis/
実施されたテストの1つは、「映像の中に、意味的に重要なフレームをランダムに紛れ込ませて検出できるかどうか」を調べる「needle-in-a-haystack」テストです。フラッグシップモデルにあたる2350億パラメーターのQwen3-VL-235B-A22Bの場合、約25万6000トークンに相当する30分の映像であれば100%の精度で混入したフレームを検出することができました。映像が約10万トークンに相当する2時間でも、精度は99.5%と非常に高い値を維持しました。
先行する他の視覚言語モデルは、長時間にわたって一貫した分析を行うことに苦労してきましたが、「Qwen3-VLは長尺動画の理解で重要な進歩を遂げた」とAI情報ニュースサイトのUnite.AIは述べています。
Qwen3-VLは、視覚的数学的推論能力を測るベンチマークのMathVistaで85.5%というスコアを獲得し、GPT-5の81.3%を上回りました。また、同じくMathVisionでは74.6%のスコアで、Gemini 2.5 Pro(73.3%)やGPT-5(65.8%)をリードしました。
文書処理能力も高く、文書の理解力を測るDocVQAで96.5%、OCRBenchで875点と、いずれも高いスコアを記録しました。テキスト認識は前世代モデルにあたるQwen2.5-VLの約4倍となる39言語をサポートしていて、対応言語のうち32言語のOCRタスクで70%以上の精度を達成しています。
ただし、すべての能力で既存のAIモデルを上回っているかというとそんなことはなく、マルチモーダルLLM向けテストであるMMMU-Proでは69.3%と、GPT-5の78.4%に大きく差をつけられました。
また、動画コンテンツの理解を問う一般的な動画質問応答ベンチマークでもライバルよりスコアが低く、Unite.AIはQwen3-VLを「汎用的なリーダーではなく、視覚的数学と文書分析の専門家として優れていることを示唆する」と評しています。
得意と不得意がはっきりしている点について、AI系ニュースサイトのImplicator.AIは「弱点ではなく、デザインの選択で、トレーニングリソースを均一なパフォーマンスではなく特定機能に向けたもの」と述べています。
つまり、視覚的数学などの専門的タスクでは、オープンソースモデルであるQwen3-VLがプロプライエタリモデルに匹敵する、あるいは凌駕しうることを実証するものだというわけです。
ちなみに、フラッグシップのQwen3-VL-235Bモデルは約471GBのストレージ容量と十分なGPUメモリを要求されるため、市販レベルのPCを使うユーザーには向いておらず、一般的ユーザーのハードウェアでも動作するQwen3-VL-8Bモデルが200万ダウンロードされるなど人気を集めています。
・関連記事
画像認識AIモデル「Qwen3-VL」の軽量版が登場したので使ってみた、低いVRAM使用量で高性能を実現 - GIGAZINE
Alibabaがリアルタイムで音声会話できるAIモデル「Qwen3-Omni」やGPT-5と同等性能の画像認識AIモデル「Qwen3-VL」を公開、他にも言語モデルや画像編集モデルを一挙大量公開 - GIGAZINE
コスパの高いAIモデル「Qwen3-Next」登場、従来より10倍高速で同等以上の性能を実現 - GIGAZINE
日本語を含む11言語に対応する高精度な自動文字起こしAIモデル「Qwen3-ASR-Flash」をAlibabaの開発チームが発表 - GIGAZINE
キャラクターを維持したまま別のシチュエーションに描き直せる画像編集AI「Qwen-Image-Edit」が登場、文字の描き直しや「被写体の回転」も可能 - GIGAZINE
オープンソースのAIモデル「Qwen3-235B-A22B-Thinking-2507」が公開され主要ベンチマークでOpenAIやGoogleのAIモデルを上回るパフォーマンスを叩き出す - GIGAZINE
Claude Sonnet 4に匹敵するコーディング特化のオープンモデル「Qwen3-Coder」をAlibabaが発表 - GIGAZINE
GPT-4oやo1より高性能な推論モデル「Qwen3」をAlibabaが発表、フラグシップモデルの「Qwen3-235B-A22B」はパラメーター数2350億&アクティブパラメーター数220億 - GIGAZINE
Alibabaが自社AIのQwenを搭載したAIグラス「Quark AI Glasses」を発表 - GIGAZINE
・関連コンテンツ
in AI, Posted by logc_nt
You can read the machine translated English article Alibaba's visual language AI model '….







