VideoDR 벤치마크 공개, 멀티모달 AI 추론의 한계 드러내다
- •VideoDR은 웹 검색과 다단계 추론이 필요한 비디오 기반 오픈 도메인 질의응답 능력을 평가하는 새로운 벤치마크다.
- •연구 결과 비디오 연구 분야에서 자율 에이전트 기반 워크플로우가 정적 방식보다 반드시 우월한 것은 아님이 밝혀졌다.
- •현재 멀티모달 모델의 주요 병목 현상으로 목표 이탈 현상과 장기적 일관성 유지의 어려움이 지적되었다.
리우 청원(Chengwen Liu) 수석 연구원과 유 샤오민(Xiaomin Yu) AI 연구원이 포함된 공동 연구팀은 '비디오 심층 연구(video deep research)' 역량을 측정하기 위한 혁신적인 벤치마크인 VideoDR을 새롭게 발표했다. 기존의 표준 비디오 질의응답 방식이 단순히 시각적 콘텐츠에만 의존했다면, VideoDR은 모델이 영상 내 시각적 단서를 추출하고 외부 웹에서 관련 정보를 검색하며 다단계 추론을 통해 정답을 최종 검증하는 복합적인 과정을 요구한다. 이는 영상이 정보의 시작점일 뿐 특정 장소나 역사적 사건을 식별하기 위해 외부 데이터가 반드시 필요한 현실 세계의 복잡한 과업들을 그대로 모사한다.
이에 따라 연구팀은 현재의 주요 멀티모달 모델들을 정적 워크플로우와 자율 에이전트 시스템이라는 서로 다른 두 가지 프레임워크 아래에서 면밀히 평가했다. 특히 분석 결과에 따르면 자율적 에이전트 방식이 정적 방식에 비해 항상 더 나은 성능을 보장하지는 않는다는 의외의 사실이 밝혀졌다. 에이전트 시스템의 실질적인 효율성은 긴 정보 검색 체인 과정에서도 초기에 포착한 시각적 정보를 얼마나 정확하게 '닻(anchor)'으로 삼아 유지하느냐에 따라 성능이 크게 좌우된다는 점이 실제로 확인되었다.
한편 이번 연구를 통해 현재의 멀티모달 모델이 복잡한 비디오 기반 연구 과제를 완수하는 데 있어 '목표 이탈(goal drift)'과 '장기적 일관성' 부족이 결정적인 병목 현상임이 구체적으로 드러났다. 모델이 정보를 탐색하는 과정에서 본래의 질문에 대한 집중력을 잃거나 논리적 일관성을 상실하는 문제가 여전히 해결 과제로 남아 있는 것이다. 다만 이러한 한계점 발견에도 불구하고 VideoDR 벤치마크는 더욱 지능화된 에이전트 개발을 위한 핵심적인 평가 지표를 제시했다는 점에서 의미가 깊다. 또한 향후 AI 연구는 모델이 방대한 외부 데이터 속에서도 영상 속 핵심 단서를 놓치지 않고 논리적으로 통합하는 역량을 강화하는 데 집중될 것으로 전망된다.