알리바바, 4D 월드 모델 성능 측정 플랫폼 공개
- •알리바바 연구진이 다양한 시나리오에서 대화형 4D 월드 모델의 성능을 평가하는 Omni-WorldBench를 출시했다.
- •이 벤치마크는 사용자 상호작용이 시간적 역동성과 공간적 상태 변화에 미치는 인과적 영향을 정밀하게 측정한다.
- •18개의 대표적인 모델을 테스트한 결과, 현재 AI 시스템의 대화형 응답 능력에 상당한 한계가 있음이 확인됐다.
알리바바 연구진이 차세대 AI로 주목받는 월드 모델을 정밀하게 검증하기 위한 평가 프레임워크인 Omni-WorldBench를 선보였다. 기존 AI가 정지된 이미지나 단순한 영상을 생성하는 수준이었다면, 월드 모델은 물리적 세계의 변화 과정을 시간의 흐름에 따라 이해하고 예측하는 것을 목표로 한다. 특히 연구진은 현재의 평가 체계가 시각적 품질에만 지나치게 치중되어 있다고 지적하며, 3차원 공간과 시간 축이 결합된 4D 생성 능력을 본격적으로 측정해야 한다고 강조했다.
Omni-WorldBench의 핵심적인 특징은 상호작용에 따른 응답 성능에 집중했다는 점이다. 이는 가상 장면 속에서 특정 행동이 발생했을 때 AI가 그 결과를 얼마나 실감 나게 시뮬레이션하는지를 평가하는 방식이다. 예를 들어 사용자가 생성된 영상 내의 물체를 밀었을 때 해당 물체가 물리 법칙에 맞춰 이동하며 주변 환경과 상호작용하는지를 확인한다. 이를 위해 연구팀은 다양한 상호작용 시나리오를 담은 프롬프트 세트인 Omni-WorldSuite와 인과관계의 정확도를 추적하는 에이전트 기반 시스템 Omni-Metrics를 함께 개발했다.
실제로 18종의 주요 AI 모델을 대상으로 실험을 진행한 결과, 현존하는 시스템 대부분이 새로운 입력에 반응하며 물리적 일관성을 유지하는 데 상당한 어려움을 겪는 것으로 나타났다. 이러한 결과는 단순 영상 생성 기술과 진정한 의미의 월드 모델링 사이에 여전히 큰 간극이 존재함을 시사한다. 해당 벤치마크는 인공지능이 현실 세계의 물리학을 깊이 이해하도록 돕는 표준 척도를 제공함으로써, 향후 고도화된 로봇 공학 및 몰입형 시뮬레이션 분야의 발전을 견인할 것으로 기대된다.