AI, 손과 머리의 움직임에 반응하는 가상 세계 구현
- •머리와 손가락 마디 단위의 동작을 추적해 실시간으로 반응하는 인간 중심의 새로운 비디오 생성 모델이 등장했다.
- •양방향 비디오 확산 모델을 인과적 모델로 정제하여, 지연 없는 1인칭 시점의 상호작용형 세계 시뮬레이션을 구현했다.
- •사용자 테스트 결과, 기존의 키보드 입력 방식보다 뛰어난 제어력과 작업 수행 능력을 입증했다.
연구진이 AI가 시뮬레이션하는 환경과 소통하는 방식에 혁신을 가져올 'Generated Reality(생성된 현실)' 기술을 공개했다. 기존의 비디오 모델들이 주로 텍스트 프롬프트나 단순한 키보드 입력에 의존했다면, 이 시스템은 실제 신체의 움직임을 디지털 생성 환경과 직접 연결하는 데 성공했다. 특히 정밀한 3D 머리 및 손 추적 데이터를 비디오 확산 모델의 조건으로 활용함으로써, 사용자의 실제 움직임에 따라 유연하게 변하는 1인칭 시점의 장면을 실시간으로 렌더링한다.
이번 기술적 성취의 핵심은 복잡한 '교사' 모델의 지식을 반응성이 뛰어난 상호작용 시스템으로 전환한 데 있다. 연구팀은 고든 웨츠스타인(Gordon Wetzstein, 스탠퍼드 대학교 교수) 등이 참여한 연구를 통해 과거와 미래 프레임을 모두 분석하여 공간적 맥락을 파악하는 양방향 비디오 확산 모델을 먼저 학습시켰다. 이후 이 모델을 실시간 처리에 적합한 인과적 모델로 정제(Distillation)했다. 이에 따라 사용자의 움직임에 맞춰 즉각적으로 프레임을 생성할 수 있게 되었으며, 기존 생성형 비디오에서는 구현하기 어려웠던 정교한 손-물체 간의 상호작용까지 가능해졌다.
실제 사용자 테스트에서 참가자들은 기존 방식보다 훨씬 높은 수준의 주체성과 통제력을 느꼈다고 보고했다. AI가 임의로 고정된 경로를 만들어내는 일반적인 영상 생성과 달리, 이 시스템은 사용자의 의도를 충실히 따르기 때문에 가상 세계 속에서도 섬세한 작업 수행이 가능하다. 이는 게임 개발자가 미리 설계한 환경을 넘어, AI가 사용자의 움직임에 맞춰 실시간으로 환경을 구축하는 진정한 의미의 확장현실(XR) 시대로 가는 중요한 발걸음이 될 것으로 보인다.