手書きの筆記体も認識してテキストに変換可能なOCRモデル「Mistral OCR 3」が登場

AI開発企業のMistral AIが、スキャンしたドキュメントや手書き文字を認識してテキストデータに変換できるAIモデル「Mistral OCR 3」を発表しました。Mistral OCR 3の精度はエンタープライズ向けの文書処理ソリューションやAIを用いたOCRソリューションを上回り、読みにくい筆記体も認識できるとのことです。
Introducing Mistral OCR 3 | Mistral AI
https://mistral.ai/news/mistral-ocr-3

Mistral OCR 3は、前モデルの「Mistral OCR 2」を大幅にアップグレードしたモデルで、筆記体や活字の上に注釈として書き込まれた手書きのコンテンツも正確に読み取ることが可能。また、密集したレイアウトや入力フォームなどの検出能力も改善され、さまざまな契約文書の読み取りにも適しているとのこと。さらに、低品質なスキャンによる文字の圧縮やゆがみ、低解像度、バックグラウンドのノイズに対しても堅固になっています。
HTMLベースの表構造を組み込んだマークダウン出力をサポートし、下流のシステムがドキュメントの内容だけでなく構造も理解できるようになっているとのこと。以下の動画を見ると、Mistral OCR 3がスキャンデータの表構造を維持したまま、文字や数字を正確に読み取っていることがわかります。
Mistral 3 OCR Demo in AI Studio - YouTube

以下のグラフは、各種ベンチマークで計測したMistral OCR 3(オレンジ色)のパフォーマンスを、MicrosotのAzureやGoogleのDocument AI、DeepSeek OCRといった競合製品と比較したもの。Mistral OCR 3は中国語・東アジア言語・東ヨーロッパ言語・英語・西ヨーロッパ言語のいずれでも、競合製品を上回るパフォーマンスを発揮しています。

Amazon Textractを加えて、入力用紙・手書き文字・請求書・複雑な表・歴史的文書のスキャンデータといった書式ごとの性能を比較したものが以下。やはりMistral OCR 3のパフォーマンスが、競合製品よりも優れていることがわかります。

各言語で、前モデルのMistral OCR 2と性能を比較したものが以下。いずれの言語でもMistral OCR 3の精度が上回っており、全体的にはMistral OCR 3が74%の勝率を達成しています。

Mistral OCR 3には、Mistral AI Studio内のAPIまたはDocument AI Playgroundインターフェースを通じてアクセスできます。多くの競合ソリューションよりも小型なモデルであるため、業界をリードする1000ページあたり2ドル(約312円)という価格で利用可能で、Batch-API割引を利用すると1000ページあたり1ドル(約156円)で利用できるとのことです。
・関連記事
高速かつ高精度な文字認識AIモデル「Mistral OCR」が登場、LaTeXで書かれた数式や図表入りPDFのレイアウトを崩さずマークダウン形式で出力できてJSONへのデータ抽出も簡単に - GIGAZINE
Mistral AIが文字起こし可能な音声認識オープンモデル「Voxtral」をリリース - GIGAZINE
AIのOCR能力を競わせて評価する「OCR Arena」 - GIGAZINE
AIくずし字認識アプリ「みを(miwo)」を使ってみた - GIGAZINE
Googleが古文書解読AI「Aeneas」を発表、古代ローマの碑文の欠損部分を読み解き年代推定や地域推定も可能 - GIGAZINE
AIは古文書を読むのが得意、古文書の写真を見せるだけで内容の読み取りが可能&専門家でも気付きにくい細かなポイントにも対応可能 - GIGAZINE
汚すぎる医師の字を解読するのに特化したAIをGoogleが開発中 - GIGAZINE
DeepMindの碑文解読AI「Ithaca」で失われた碑文を72%の精度で復元することに成功 - GIGAZINE
・関連コンテンツ
in AI, Posted by log1h_ik
You can read the machine translated English article Introducing the OCR model 'Mistral OCR 3….







