병렬 디퓨전 디코딩으로 OCR 속도 높인 MinerU-Diffusion
HuggingFace
2026년 3월 26일 (목)
- •MinerU-Diffusion은 순차적 생성 대신 병렬 디퓨전 디노이징을 도입해 문서 OCR 속도를 3.2배 향상했다.
- •새로운 블록 단위 디코더 아키텍처를 통해 긴 시퀀스와 복잡한 문서 레이아웃을 안정적으로 처리한다.
- •언어적 사전 지식에 대한 의존도를 낮춤으로써 Semantic Shuffle 벤치마크에서 뛰어난 견고성을 입증했다.
기존의 문서 판독 시스템은 텍스트 이미지를 디지털 데이터로 변환할 때 보통 한 번에 하나의 글자나 단어를 예측하는 방식을 취한다. 이러한 순차적 접근 방식은 효과적이긴 하지만, 문서 초반의 작은 실수가 나머지 텍스트 전체로 번지는 오류 전파 문제를 야기하기 쉽다. 특히 파일의 길이가 길어질수록 처리 속도가 현저히 느려진다는 한계가 있었다.
MinerU-Diffusion은 문서 변환을 역 렌더링 작업으로 간주하며 패러다임의 전환을 꾀했다. 기존처럼 왼쪽에서 오른쪽으로 읽어 나가는 대신, 디퓨전 기반 프레임워크를 활용해 병렬 디노이징으로 전체 문서 내용을 동시에 생성하는 방식이다. 이는 예술가가 스케치를 완성된 그림으로 점차 다듬어가는 과정과 유사하며, 시스템이 페이지 전체의 텍스트와 레이아웃을 한꺼번에 정교화할 수 있게 해준다.
해당 프레임워크는 특화된 블록 단위 디코더와 함께 쉬운 과제부터 단계적으로 학습하는 커리큘럼 학습 전략을 활용한다. 이러한 혁신을 통해 기존 모델 대비 처리 속도가 3.2배나 빨라졌다. 무엇보다 예측 가능한 언어 패턴보다 시각적 단서에 더 집중하도록 설계되어, 밀도가 높은 표나 복잡한 수학 공식, 불규칙한 문서 구조를 파싱할 때도 탁월한 정확도를 보여준다.