Mistral AIが、新たなドキュメント読み取りモデル「Mistral OCR 3」をリリースしました。このモデルは、手書きのメモから複雑な表までを高い精度でテキストに変換する能力を持ち、OCR (光学文字認識) の主要なベンチマークで最高評価を獲得したと発表されています。
Mistral OCR 3は、多様な文書タイプに対応できる点が大きな特徴です。読みにくい筆記体や低品質なスキャンデータ、密度の高いレイアウトの文書でも高い性能を発揮します。単にテキストを抽出するだけでなく、ヘッダーや段落、表といった文書構造を保持したまま Markdown形式で出力できるため、出力したデータを受け渡すシステムが内容を構造的に理解する上で役立ちます。また、数千の言語を処理できる多言語対応能力も備えています。
性能面では、前バージョンから全体で 74% の向上を達成しました。内部ベンチマークでは約 94.9% という精度を記録し、Google Document AI (83.4%) や Microsoft Azure OCR (89.5%) といった主要な競合サービスを上回る結果を示しています。処理速度も高く、単一の GPU ノードで 1 分あたり最大 2,000 ページの処理が可能です。
このモデルは API を通じて利用でき、Mistral AI Studio 内の「Document AI Playground」では、ファイルをドラッグ&ドロップするだけで手軽に性能を試せます。価格設定も競争力があり、1,000 ページあたり 2 ドル (約 314 円)、バッチ API を利用した場合は 50% 割引の 1 ドル (約 157 円) で提供されます。機密情報を扱う企業向けに、オンプレミスでの展開オプションも用意されています。
請求書処理や企業アーカイブのデジタル化、RAG (検索拡張生成) システムとの連携など、幅広いユースケースが期待される Mistral OCR 3は、その高い精度と機能性、手頃な価格設定により、文書処理 AI の分野で大きな存在感を示すことになりそうです。
