대규모 신규 데이터셋, AI 영상 추론의 한계를 깨다
- •200개의 다양한 추론 과제를 포함한 100만 편 규모의 VBVR 데이터셋이 공개됐다.
- •주관적인 모델 기반 평가 대신 규칙 기반의 검증 가능한 점수 측정 방식을 도입했다.
- •거대 시공간 데이터셋으로 학습된 모델에서 창발적 일반화 현상이 관찰됐다.
현대 AI는 시각적으로 화려한 영상을 생성할 수 있지만, 물리적 세계가 작동하는 근본적인 원리에 대한 이해는 부족한 경우가 많다. 이러한 간극을 메우기 위해 연구진은 영상 기반 AI의 학습과 테스트 수준을 한 단계 끌어올린 'Very Big Video Reasoning(VBVR)' 슈트를 선보였다.
이 프로젝트의 핵심인 VBVR 데이터셋은 200개의 독립적인 추론 과제에 걸쳐 엄선된 100만 개 이상의 영상 클립을 포함하고 있다. 이는 기존 벤치마크보다 약 1,000배 큰 규모로, AI가 시공간 추론 능력을 어떻게 발달시키는지 연구하는 데 필요한 충분한 데이터를 제공한다. 특히 공이 소파 뒤로 굴러가더라도 사라지지 않고 다시 나타날 것이라는 사실을 이해하는 등 시간과 공간 속에서 객체를 추적하는 능력이 핵심이다.
또한 연구진은 검증 가능한 평가 프레임워크인 'VBVR-Bench'를 함께 도입했다. 과거에는 성능 평가를 위해 다른 AI 모델의 판단에 의존했으나, 이는 종종 편향되거나 일관성 없는 결과를 초래했다. 반면 새로운 벤치마크는 인간의 논리와 일치하는 규칙 기반 점수 체계를 사용함으로써 모델이 물리적 논리를 실제로 얼마나 파악하고 있는지 객관적으로 진단한다.
초기 실험 결과에서는 창발적 일반화의 징후가 발견되기도 했다. 모델이 더 많은 데이터로 학습될수록 이전에 접하지 못했던 복잡한 추론 문제를 스스로 해결하기 시작한 것이다. 연구원 마이준시엔 왕(Maijunxian Wang)과 동료들은 이러한 결과가 데이터 규모의 확장이 AI에게 물리적 현실의 논리적 규칙을 가르치는 결정적인 열쇠가 될 수 있음을 시사한다고 설명했다.