中国の AI 企業 DeepSeek は 2026 年 1 月 27 日、ドキュメント解析とテキスト抽出に特化した新たなオープンソースモデル「 DeepSeek-OCR 2 」を公開しました。従来の OCR モデルが画像を左上から機械的にスキャンして処理していたのに対し、本モデルは人間が文書を読む際の自然な文脈の流れ( Causal Visual Flow )を理解するアーキテクチャを採用している点が大きな特徴です。
技術的な核となるのは、新開発の「 DeepEncoder V2 」です。画像エンコーダーには Alibaba の Qwen2-0.5b 由来の技術を、デコーダーには MoE ( Mixture-of-Experts )構造を採用しました。これにより、 3B ( 30 億パラメータ)という軽量なモデルサイズでありながら、推論コストを抑えつつ高度な認識能力を実現しています。特筆すべきはその「情報の圧縮力」です。複雑なドキュメント 1 ページ分を、わずか 256 〜 1,120 トークンという非常に短いデータ量で表現できます。これは GOT-OCR 2.0 など従来のモデルと比べても圧倒的に少ない量です。データ量が減ることで、その後の処理を行う LLM (大規模言語モデル)の負担が減り、計算コストや処理時間を大幅に削減できるため、実用面で非常に大きなメリットとなります。
ベンチマークにおいても、 OmniDocBench v1.5 で 91.09 % というスコアを記録し、 Google の Gemini-3 Pro といった最新の商用モデルに匹敵、あるいは凌駕する性能を示しています。特に「読み順」の正確さは大幅に改善されており、多段組の論文や複雑な配置の表であっても、文脈を損なうことなくテキスト化できる能力が証明されています。
コードとウェイトは GitHub および Hugging Face で既に公開されており、開発者は商用 API に依存することなく、ローカル環境やエッジデバイス上で、データを外部に出さない安全なOCR処理の仕組みを構築できます。高密度な新聞記事など一部のレイアウト処理にはまだ課題が残るとされていますが、ドキュメント AI の分野において、 DeepSeek-OCR 2 はオープンソースの新たな基準となる可能性を秘めています。今後、このモデルを基盤とした、より高度な文書処理サービスや「 Thick Wrapper 」的なアプリケーションが多数登場してくることでしょう。
