WildWorld: 액션 기반 월드 모델링의 새 지평
- •몬스터 헌터: 와일즈의 1억 800만 프레임을 활용한 액션 기반 월드 모델링 데이터셋 WildWorld가 공개됐다.
- •450개 이상의 고유 액션과 스켈레톤, 깊이 맵 등 명시적인 상태 주석 데이터를 포함해 정교한 학습이 가능하다.
- •장기 비디오 생성의 일관성과 상태 정렬 성능을 평가하기 위한 벤치마크인 WildBench를 함께 도입했다.
Shanda AI 연구진은 단순한 영상 생성을 넘어 복잡한 월드 모델링을 구현하기 위해 대규모 데이터셋인 WildWorld를 공개했다. AAA급 게임인 '몬스터 헌터: 와일즈'의 고화질 영상을 활용한 이 데이터셋은 검 휘두르기나 회피와 같은 특정 행동이 환경과 캐릭터 상태에 어떤 영향을 미치는지 AI가 학습할 수 있는 샌드박스를 제공한다. 특히 픽셀 정보에만 집중했던 기존 데이터셋과 달리, 캐릭터의 스켈레톤이나 카메라 포즈와 같은 정밀한 메타데이터를 포함한 것이 특징이다.
이러한 상태 인식 접근 방식은 생성형 AI의 고질적 난제인 장기적 일관성 문제를 해결하는 데 기여한다. 기존 영상 모델은 세계의 근본적인 규칙을 이해하지 못해 시간이 지날수록 장면이 어색해지는 '드리프트' 현상을 겪는 경우가 많았다. 이에 따라 시각적 변화뿐만 아니라 명시적인 상태 전이를 학습함으로써, 모델은 긴 영상 시퀀스 중에도 논리적인 흐름을 훨씬 더 안정적으로 유지할 수 있게 된다. 무엇보다 이는 플레이어의 입력에 따라 세계가 역동적으로 반응하는 생성형 액션 RPG(ARPG)를 구현하기 위한 결정적인 단계로 평가받는다.
연구팀은 복잡한 액션 프롬프트를 모델이 얼마나 잘 수행하는지 테스트하는 벤치마크인 WildBench도 함께 선보였다. 초기 실험 결과에 따르면 최신 고성능 모델조차 의미론적으로 풍부한 액션을 정확히 구현하는 데 여전히 어려움을 겪고 있으며, 이는 향후 연구가 집중되어야 할 중요한 지점으로 꼽힌다. 결과적으로 이 데이터셋은 AI가 단순한 시각적 모방을 넘어 디지털 세계의 물리 법칙과 논리를 깊이 이해하는 지능형 시스템으로 진화하는 데 필요한 구조화된 토대를 마련했다.