Mistral AIが「世界最高のOCRモデル」発表、従来の競合製品を大幅に上回る性能

投稿者:

Mistral AI は、新たな光学文字認識( OCR )サービス「 Mistral OCR 」を発表しました。この API は複雑な文書から詳細な情報を高速かつ高精度に抽出し、構造化された形式で出力することが可能です。Mistral AI は、これを「世界最高の OCR モデル」と位置づけています。

この OCR サービスの最大の特徴は、Google Document AI や Microsoft Azure OCR 、OpenAI の GPT-4o などの主要な競合製品を上回る高い読み取り精度です。全体的には多言語の平均して 95% 程度の精度となっており、特に、英語やフランス語、スペイン語、ロシア語など複数の言語で 99% を超える驚異的な精度を記録しています。複雑なレイアウトや数学的表現( LaTeX 形式)、表、手書き文字など、従来の OCR が苦手とする領域でも優れた性能を発揮します。

処理速度も大きな強みで、単一ノードで 1 分間に最大 2,000 ページを処理できるとされています。また、コスト効率も高く、1 ドルで約 1,000 ページの処理が可能。バッチ処理を利用すれば約 2,000 ページを同じコストで処理できるとのことです。

Mistral OCR は単なるテキスト抽出にとどまらず、文書内の構造(見出し、段落、リスト、表など)をそのまま保持し、JSON や Markdown 形式でデータを提供します。また、Retrieval-Augmented Generation ( RAG )システムとの連携に最適化されており、「文書をプロンプトとして直接利用する」機能( doc-as-prompt )により、AI に対する指示をより正確に伝えられるよう設計されています。

利用用途としては、科学論文や技術文献のデジタル化、歴史的資料の保存、大量の顧客サービスデータの分析など、多岐にわたる分野での活用が期待されています。特に金融、医療、法務分野では、大量の文書処理による業務効率化が見込まれます。

Mistral OCR は、同社の開発者向けプラットフォーム「 La Plateforme 」で利用可能で、近日中には主要クラウドサービス( AWS 、Azure 、Google Cloud )上、もしくはオンプレミス展開も予定されています。また、同社の AI アシスタント「 Le Chat 」ではデフォルトの OCR モデルとして採用されており、無料で試すこともできます。