World-R1, 영상 생성에 실제 3D 물리 법칙을 도입하다
- •World-R1 프레임워크는 강화학습을 통해 영상 생성을 엄격한 3D 물리 제약 조건에 일치시킨다.
- •사전 학습된 기초 모델을 활용해 핵심 아키텍처 변경 없이 구조적 일관성을 개선한다.
- •주기적 분리 학습 기법으로 기하학적 일관성과 장면의 유연성을 효과적으로 조율한다.
최근 영상 생성 기술은 경이로운 시각적 완성도와 영화 같은 연출을 선보이며 대중의 시선을 사로잡고 있다. 하지만 이러한 초현실적인 영상 이면에는 공간과 물리 법칙에 대한 이해가 부족하다는 근본적인 문제가 자리 잡고 있다. 기존 모델은 구조적 무결성보다 시각적 아름다움을 우선시하는 경향이 있으며, 이로 인해 물체가 서로를 통과하거나 모양이 기이하게 뒤틀리는 현상이 발생하곤 한다. 마이크로소프트 리서치가 발표한 새로운 프레임워크인 World-R1은 영상 생성을 3D 기하학의 엄격한 규칙 아래 고정함으로써 이러한 문제를 해결하고자 한다.
영상 모델 전체를 처음부터 재설계하는 것은 막대한 비용이 들고 확장성이 떨어진다. 반면 World-R1은 보다 정밀한 접근 방식을 채택했다. 연구진은 강화학습을 활용해 모델의 결과값을 3D 정보와 일치시킴으로써 생성 엔진을 위한 물리 교사 역할을 수행하도록 했다.
또한 사전 학습된 3D 기초 모델과 Vision-Language Models에서 얻은 피드백을 결합해 구조적 일관성을 강화했다. 이를 통해 생성된 영상은 물체가 표면과 어떻게 상호작용해야 하는지, 혹은 회전할 때 부피를 어떻게 유지해야 하는지와 같은 공간적 관계를 이해하게 된다.
시각적 품질을 희생하지 않기 위해 연구팀은 주기적 분리 학습이라는 기술을 적용했다. 이 전략은 물리적 규칙을 유지하면서도 장면의 유연하고 역동적인 변화를 보장하는 균형을 찾는다. 그 결과, 모델이 물리 법칙을 지키려다 지나치게 경직되거나 로봇처럼 부자연스러워지는 현상을 방지했다.
이번 성과는 진정한 세계 시뮬레이션을 향한 중요한 진전으로 평가받는다. 단순히 영상 프레임을 모방하는 수준을 넘어, 일관성 있는 디지털 공간을 구축하는 AI로 나아가고 있기 때문이다. 모델이 고도화될수록 단순한 영상 생성과 완전한 물리 기반의 세계 구축 사이의 간극은 점차 줄어들 것이며, 이는 예측 가능하면서도 창의적인 도구의 등장을 예고한다.