PaddlePaddleが多言語OCRモデル「PP-OCRv6」を公開
- •PaddlePaddleがパラメータ数1.5Mから34.5Mの「PP-OCRv6」シリーズをリリースした。
- •中国語、英語、日本語を含む50言語に対応したOCRモデルファミリーである。
- •PP-OCRv6_mediumは検出Hmeanで86.2%を達成し、PP-OCRv5比で4.6ポイント向上した。
PaddlePaddleは2026年6月22日、汎用光学文字認識(OCR)モデルの最新版「PP-OCRv6」を公開した。モデルサイズは1.5Mから34.5Mパラメータまで3段階で構成され、文書、産業用ラベル、シーンテキストなど多様な入力に対応する。中規模および小規模モデルは、簡体字中国語、繁体字中国語、英語、日本語を含む50言語をカバーする。
公式ベンチマークでは、「PP-OCRv6_medium」が検出Hmean 86.2%、認識精度83.2%を記録した。前世代の「PP-OCRv5_server」と比較し、検出精度は4.6ポイント、認識精度は5.1ポイント向上した。用途別に、エッジデバイス向け「PP-OCRv6_tiny」(1.5M)、モバイル・デスクトップ向け「PP-OCRv6_small」(7.7M)、サーバー処理用「PP-OCRv6_medium」(34.5M)が提供される。
アーキテクチャ面では全モデルでバックボーンに「PPLCNetV4」を採用した。検出モジュールには「RepLKFPN」を導入し、微小な文字や回転したテキストの処理能力を強化した。認識処理には「EncoderWithLightSVTR」を搭載し、局所的なコンテキストとグローバルなアテンションを組み合わせて、複雑な文字やノイズの多い画像への対応を実現した。
開発者はPaddlePaddle、Transformers、ONNX Runtimeのバックエンドを通じてモデルを利用可能だ。PaddleOCR 3.7は統一インターフェースを提供し、モデルの推論エンジン選択や出力形式の変換に対応する。本モデルは文書解析、検索抽出、検索拡張生成(RAG)、エージェントワークフローへの統合が可能で、Hugging Face Hubにて資産とドキュメントが公開されている。