NVIDIA, 합성 데이터로 다국어 OCR 성능 혁신
- •다국어 문서 인식 모델 'Nemotron OCR v2' 출시
- •합성 데이터를 활용해 일본어, 한국어, 러시아어, 중국어 등 언어 데이터 부족 문제 해결
- •A100 GPU 1대 기준 초당 34.7페이지 처리로 압도적 효율성 구현
인공지능 분야에서 문서를 읽어내는 기술인 Optical Character Recognition은 학습 데이터 확보라는 큰 병목 현상에 직면해 있다. 영어 데이터는 웹상에서 쉽게 수집할 수 있지만, 한국어나 일본어, 러시아어 등은 정제된 고품질 주석 데이터를 구하기가 매우 어렵다. 수작업 라벨링은 비용 문제로 대규모 AI 학습에 적합하지 않으며, 웹에서 수집한 PDF는 노이즈가 많아 그대로 사용하기에 한계가 있다. 이에 NVIDIA는 합성 데이터를 활용하여 이러한 문제를 해결했다.
연구진은 실제 문서를 일일이 찾는 대신, 수백만 개의 주석이 달린 이미지를 처음부터 생성하는 파이프라인을 구축했다. 방대한 다국어 텍스트 말뭉치와 다양한 폰트를 결합해 완벽한 학습 데이터를 '인쇄'해낸 것이다. 이를 통해 모든 텍스트의 위치와 형상을 수학적으로 정교하게 배치함으로써, 사람이 수동으로 라벨링했을 때보다 더욱 정확한 기준 데이터를 모델에 제공할 수 있게 되었다.
이 방식의 강점은 모델이 단순한 글자 모양을 넘어 다단 레이아웃, 표, 읽기 순서와 같은 복잡한 문서 구조까지 파악하도록 돕는다는 점이다. 1,200만 개의 합성 이미지로 학습한 결과, 비영어권 언어의 정확도가 비약적으로 향상되며 최첨단 수준에 도달했다. 무엇보다 이 시스템은 확장성이 뛰어나, 전체 구조를 재학습할 필요 없이 새로운 언어의 텍스트와 폰트만 추가하면 즉시 새로운 언어에 대응할 수 있다.
기술적 효율성 또한 주목할 만하다. Nemotron OCR v2는 텍스트 탐지, 단어 인식, 레이아웃 분석이라는 세 가지 작업을 하나의 '백본(Backbone)' 구조가 공유하도록 설계되었다. 중복되는 연산을 최소화함으로써 A100 GPU 1대 기준 초당 35페이지에 가까운 처리 속도를 달성했다. 이는 실무 환경에서 속도와 정확성을 동시에 확보해야 하는 기업들에 매우 실용적인 해결책이 된다.
인공지능의 흐름을 관찰하는 학생들에게 이번 사례는 데이터 병목 현상이 아키텍처 자체보다 더 중요해질 수 있음을 시사한다. 고품질 정보를 충분히 수집하기 어려운 상황에서, 그 데이터를 모사하는 더 나은 인공지능을 만드는 전략이 성공을 위한 핵심 기반으로 자리 잡고 있다.