PaddlePaddle, 다국어 OCR 모델 'PP-OCRv6' 공개
- •PaddlePaddle이 150만에서 3,450만 파라미터 규모의 PP-OCRv6 모델을 발표했다.
- •이번 OCR 모델 제품군은 중국어, 영어, 일본어를 포함한 50개 언어를 지원한다.
- •PP-OCRv6_medium은 86.2%의 Hmean을 기록해 PP-OCRv5 대비 4.6%p 성능이 향상됐다.
PaddlePaddle이 2026년 6월 22일, 범용 광학 문자 인식(OCR) 모델 제품군의 최신 업데이트인 PP-OCRv6를 공개했다. 이번 모델은 150만부터 3,450만 파라미터에 이르는 세 가지 등급으로 구성되어 있으며, 문서와 산업용 라벨, 실생활 텍스트 등 다양한 입력 환경에서 텍스트를 탐지하고 인식하도록 설계되었다. 특히 중형 및 소형 변형 모델은 간체 중국어, 번체 중국어, 영어, 일본어 및 46개의 라틴 문자 기반 언어를 포함한 총 50개 언어를 지원한다.
공식 다중 시나리오 벤치마크 결과, PP-OCRv6_medium 모델은 86.2%의 탐지 Hmean과 83.2%의 인식 정확도를 달성했다. 이는 전작인 PP-OCRv5_server와 비교해 텍스트 탐지 정확도는 4.6%p, 인식 정확도는 5.1%p 향상된 수치이다. 모델 라인업은 용도에 따라 세분화되는데, 150만 파라미터의 PP-OCRv6_tiny는 엣지 디바이스와 저지연 데모용으로, 770만 파라미터의 PP-OCRv6_small은 모바일 및 데스크톱 애플리케이션용으로, 3,450만 파라미터의 PP-OCRv6_medium은 서버단 파이프라인 및 고정밀 문서 처리용으로 각각 활용된다.
모든 등급에는 일관된 성능을 보장하기 위해 PPLCNetV4 백본이 적용되었다. 텍스트 탐지 모듈은 작은 글씨나 회전된 텍스트, 밀집된 텍스트를 처리하기 위해 RepLKFPN(경량 대형 커널 피라미드 네트워크)을 도입했다. 인식 모듈은 로컬 컨텍스트 모델링과 전역 어텐션을 결합한 EncoderWithLightSVTR를 활용하여 복잡한 문자나 노이즈가 섞인 이미지 영역을 효과적으로 처리한다. 이러한 구조적 개선은 다양한 배포 환경에서 효율성을 유지하면서도 정확도를 높이는 데 초점을 맞췄다.
개발자는 PaddlePaddle, Transformers, ONNX Runtime 백엔드를 통해 PP-OCRv6를 연동할 수 있다. PaddleOCR 3.7 버전은 추론 엔진 선택을 위한 통합 인터페이스를 제공하며, 사용자는 이를 통해 Paddle inference, ONNX, safetensors 형식으로 모델을 배포할 수 있다. 또한 해당 라이브러리는 JSON 출력과 시각화 이미지를 제공하여 문서 파싱, 검색 추출, RAG(검색 증강 생성), 에이전트 워크플로우 등 하위 시스템과 직접 연동이 가능하다. 모든 모델 에셋과 문서는 Hugging Face Hub에서 확인할 수 있으며 온라인 데모도 즉시 이용 가능하다.