Mistral AIが文書解析モデル「Mistral OCR 4」を発表
- •Mistral AIはバウンディングボックス、ブロック分類、インライン信頼度スコアを備えたMistral OCR 4を公開した。
- •本モデルは170言語に対応し、OlmOCRBenchで85.20のスコアを記録した。
- •API料金は1,000ページあたり4ドルに設定され、バッチ処理では2ドルで利用可能である。
Mistral AIは2026年6月23日、構造化データ抽出に特化した文書解析モデル「Mistral OCR 4」を発表した。このモデルは抽出テキストに加え、バウンディングボックスの位置情報、タイトルやテーブル、数式、署名を判別するブロック分類、各単語およびページ単位のインライン信頼度スコアを出力する。10の言語グループにまたがる170言語をサポートし、競合システムが苦戦しがちな稀少言語や低リソース言語でも高い精度を維持する。企業はセルフホスト環境の単一コンテナ内で本モデルを稼働させることが可能であり、データレジデンシーやコンプライアンス要件に対応できる。
性能評価において、独立したアノテーターによる比較テストでは、既存の主要な文書AIシステムと比較して72%の勝率を記録した。公共の評価指標であるOlmOCRBenchでは85.20、OmniDocBenchでは93.07のスコアを達成した。ただし、Mistral AIは、これらのベンチマークには誤った正解ラベルや数式表記の不一致など、総合スコアに影響を与える不備が含まれる場合があると指摘している。本モデルは、法務や医療といった高度な意思決定を行うためのものではなく、検索拡張生成(RAG)や自動化されたエージェントワークフローへデータを投入するためのインジェクションエンジンとしての活用を想定している。
開発者はAPIまたはMistral Studioを通じて本モデルにアクセスできる。料金体系は1,000ページあたり4ドルだが、Batch-APIを利用した場合は50%割引が適用され、1,000ページあたり2ドルとなる。特定のスキーマに合わせて構造化されたJSONを出力する「Document AI」機能は、1,000ページあたり5ドルに設定されている。本モデルはAmazon SageMakerやMicrosoft Foundryなどの各種プラットフォームを通じて提供される。また、オープンソースのMistral Search Toolkitと統合することで、引用可能な形式の出力を直接エンタープライズ検索や検索パイプラインへ組み込むことが可能だ。