ZwZ 모델, '확대' 내재화로 시각 인지 속도 혁신
- •ZwZ 모델은 훈련 과정에 반복적 확대(zooming) 과정을 내재화하여 멀티모달 모델의 정밀 인지 능력을 개선했다.
- •새로운 'Region-to-Image Distillation' 기술을 통해 추론 시 반복적인 도구 호출로 발생하는 높은 지연 시간을 제거했다.
- •시각 모델의 전반적 이해와 부분적 이해 사이의 간극을 측정하기 위한 전용 시각적 질의응답 (VQA) 벤치마크인 ZoomBench를 도입했다.
멀티모달 모델은 이미지의 전체적인 맥락 속에서 아주 작은 세부 사항을 놓치는 경우가 많다. 기존에는 이를 해결하기 위해 모델이 추론 과정에서 특정 영역을 반복적으로 확대해 증거를 찾는 'Thinking-with-Images' 방식이 주로 활용되었다. 하지만 이 방식은 효과적일지라도 매번 여러 번의 도구 호출과 시각 데이터의 재처리를 거쳐야 하므로 연산 부하가 크고, 특히 실시간 응용 프로그램에서 지연 시간을 높이는 주요 원인이 되었다.
연구진은 이러한 비효율성을 극복하기 위해 'Region-to-Image Distillation' 기술을 제안했다. 이 기술은 기존의 대화 단계에서 수행되던 확대 과정을 모델의 훈련 단계로 효과적으로 옮겨온 것이 핵심이다. 고성능 교사 모델이 미세하게 크롭된 이미지를 분석해 생성한 고품질 레이블을 지식 증류를 통해 소형 학생 모델에 전달하는 방식이다. 그 결과, 학생 모델은 별도로 이미지를 확대하지 않고도 단 한 번의 훑어보기만으로 미세한 디테일을 인지할 수 있게 되었다.
실제로 라이 웨이(Lai Wei, 연구원) 등이 개발한 ZwZ 모델은 여러 벤치마크에서 최고 성능 수준 (SOTA)을 기록하며, 복잡한 에이전트 행동이 더 빠른 실행을 위해 모델 내부로 내재화될 수 있음을 증명했다. 특히 인클루전AI(inclusionAI, AI 연구 조직) 소속 연구팀은 모델과 함께 새로운 벤치마크인 ZoomBench를 공개하여 시각 인지 모델의 성능을 더욱 정교하게 측정할 수 있게 했다. 이번 성과는 향후 GUI 탐색이나 문서 분석처럼 고도의 시각적 추론이 필요한 분야에서 더욱 효율적인 AI 에이전트 개발을 가속화할 전망이다.