画像認識AIモデル「Qwen3-VL」の軽量版が登場したので使ってみた、低いVRAM使用量で高性能を実現

Qwen3-VLの軽量版であるQwen3-VL-4BおよびQwen3-VL-8Bが公開されました。これらのモデルは、Qwen3-VLの全機能が保持されており、従来のモデルに比べて大幅にVRAM使用量を削減しつつ、Qwen2.5-VL-72Bに匹敵する性能を発揮するとのことで試しにローカルPCにインストールして使ってみました。
Qwen
https://qwen.ai/home
Introducing the compact, dense versions of Qwen3-VL — now available in 4B and 8B pairs, each with both Instruct and Thinking variants.
— Qwen (@Alibaba_Qwen) October 14, 2025
✅ Lower VRAM usage
✅ Full Qwen3-VL capabilities retained
✅ Strong performance across the board
Despite their size, they outperform models… pic.twitter.com/Gjy7ibvbaA
Qwen3-VL: Sharper Vision, Deeper Thought, Broader Action
https://qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535ab6d8afef
STEM、VQA、OCR、ビデオ理解、エージェントタスクなど、さまざまなベンチマークでGemini 2.5 Flash LiteやGPT-5 Nanoなどのモデルを上回るスコアを記録しています。

Qwen3-VL-8B-ThinkingをローカルPCで試します。Nexa SDKからSDKをダウンロードし、インストールします。Nexa SDKはWindows、Linux、MacOSに対応しています。

ログインが必要なのでログインします。

アクセストークンを取得します。

アクセストークンが表示されるので、これをコピーしておきます。

PowerShellを起動し、以下のコマンドでNexa SDKにアクセストークンを設定します。
nexa config set license '<your_token_here>'続いて、以下のコマンドでQwen3-VL-4B-Thinkingモデルを指定して起動します。
nexa infer NexaAI/Qwen3-VL-4B-Thinking-GGUFモデルのダウンロードが終わると、プロンプトが表示されます。

こちらのピザの画像を入力として与え、画像認識能力を試してみます。

プロンプトにファイルの場所と指示を与えます。
describe this image 'c:\temp\test01.jpg'(この画像の内容を日本語で説明してください)以下の出力結果からピザのトッピングの内容まで正確に認識できていることが分かります。
白い皿の上に、切り分けられていないピザが置かれています。金褐色の生地が美しいピザで、溶けたチーズの上にハム、コーン、緑のピーマン、ハーブがトッピングされています。背景には木製のテーブルがあり、メニューの紙やダークなボトル、スプーンが挿さったボウルが見えます。温かみのある照明が、レストランらしい居心地の良い雰囲気を醸し出しています。
— 29.6 tok/s • 1889 tok • 0.0 s first token -
画像に少しだけ写っているメニューの紙やボトルも認識しています。残念ながらスプーンではなく串なのですが、細かい部分まで認識できていることが分かります。
日本語や数字の認識も試してみます。

describe this image 'c:\temp\test02.jpg'(この画像の内容を日本語で説明してください)こちらも非常に正確に認識できていることが分かります。
手に持ってある黄色い領収書が写っています。上部には「領収書」と記され、ご利用日付は「2022年11月30日」、時刻は「10時34分」、取引内容は「チャージ 金 3000円」、伝票番号は「22771」と明記されています。カード番号はぼかされており、下部には「この領収書は大切に保管してください。毎度ありがとうございます。」と書かれています。発行元は「JR東海」と記載され、背景には青い表面が見えます。領収書全体は金色の模様
このように、Qwen3-VL-4Bおよび8Bは非常に高い画像認識能力を持っており、ローカルPCで手軽に試せる点が魅力です。Nexa SDKを利用することで、簡単にQwen3-VLモデルを活用したアプリケーションを開発できます。
今回テストした機材は以下の通りです。4Bモデルであれば快適に動作しました。
・CPU:Intel(R) Core(TM) Ultra 5 125U
・メモリ:64GB
・GPU:NVIDIA GeForce RTX 2060 SUPER 8GB
関連記事
Alibabaがリアルタイムで音声会話できるAIモデル「Qwen3-Omni」やGPT-5と同等性能の画像認識AIモデル「Qwen3-VL」を公開、他にも言語モデルや画像編集モデルを一挙大量公開 - GIGAZINE
コスパの高いAIモデル「Qwen3-Next」登場、従来より10倍高速で同等以上の性能を実現 - GIGAZINE
キャラクターを維持したまま別のシチュエーションに描き直せる画像編集AI「Qwen-Image-Edit」が登場、文字の描き直しや「被写体の回転」も可能 - GIGAZINE
オープンソースのAIモデル「Qwen3-235B-A22B-Thinking-2507」が公開され主要ベンチマークでOpenAIやGoogleのAIモデルを上回るパフォーマンスを叩き出す - GIGAZINE
Claude Sonnet 4に匹敵するコーディング特化のオープンモデル「Qwen3-Coder」をAlibabaが発表 - GIGAZINE
GPT-4oやo1より高性能な推論モデル「Qwen3」をAlibabaが発表、フラグシップモデルの「Qwen3-235B-A22B」はパラメーター数2350億&アクティブパラメーター数220億 - GIGAZINE
・関連コンテンツ
in AI, レビュー, Posted by darkhorse_logmk
You can read the machine translated English article A lightweight version of the image recog….







