메타 AI 물리 법칙 따르는 영상 생성 기술 공개
- •메타 AI는 텍스트-비디오 생성 모델에서 빈번하게 발생하는 물리적 불일치 문제를 해결하기 위해 PhyGDPO 기술을 개발했다.
- •시각 언어 모델(VLM)과 단계별 추론 기법을 활용해 물리적 상호작용을 정밀하게 분석하는 13만 5천 개의 대규모 데이터셋을 구축했다.
- •실험 결과 새로운 프레임워크는 기존 오픈소스 모델 대비 물리적 정확도 지표에서 월등한 성능 향상을 증명했다.
메타 AI의 위안하오 차이 수석 연구원과 저명한 컴퓨터 비전 석학인 앨런 유일 교수팀은 최근 텍스트-비디오 생성 모델의 고질적인 문제인 물리적 비현실성을 해결하기 위한 새로운 기술인 'PhyGDPO'를 발표했다. 기존의 AI 영상 생성 기술은 시각적으로는 화려하지만 물체가 공중에 부자연스럽게 떠 있거나 중력 법칙을 무시하는 등 기본적인 물리 법칙을 위배하는 경우가 많았다. 이에 따라 연구팀은 시각 언어 모델(VLM)이 영상 내 물리적 상호작용을 단계별 논리로 분석하고 설명하는 '연쇄 사고(Chain-of-Thought)' 방식을 도입해 13만 5천 개의 데이터셋을 새롭게 구축했다.
이번 연구의 핵심 혁신은 '물리 인지 그룹별 직접 선호도 최적화(PhyGDPO)' 기술에 있다. 단순히 두 개의 선택지를 비교해 더 나은 결과물을 선택하는 기존 학습 방식과 달리 이 모델은 여러 영상 변수를 그룹 단위로 분석해 훨씬 복잡하고 미세한 물리적 차이를 포착한다. 특히 VLM이 심판 역할을 수행하는 '물리 가이드 보상 체계'를 통해 생성된 움직임이 실제 물리 법칙에 부합할 때 모델에 보상을 주는 방식을 채택했다. 실제로 공이 튀어 오르거나 물이 흐르는 등의 장면에서 생성된 영상은 실제 세계의 움직임과 매우 유사한 모습을 보였다.
또한 연구팀은 학습 과정의 효율성을 극대화하기 위해 'LoRA-SR'이라는 새로운 기법을 도입했다. 이 기술은 방대한 컴퓨터 메모리를 복제하지 않고도 참조 데이터로부터 효율적으로 학습할 수 있도록 지원하여 훈련 속도를 높이고 비용을 획기적으로 절감하는 성과를 거두었다. 한편 물리적 정확도를 측정하는 벤치마크인 'PhyGenBench' 실험 결과 이 프레임워크는 기존의 주요 오픈소스 영상 생성 모델들을 압도하는 성능을 입증했다.
이러한 기술적 진보는 단순히 영상의 화질을 높이는 것을 넘어 로봇 공학이나 디지털 시뮬레이션 분야에서 가상 세계를 정밀하게 구현하는 데 필수적인 토대가 될 것으로 전망된다. 다만 연구진은 더욱 복잡한 물리적 상호작용을 완벽히 구현하기 위해서는 앞으로 더 정교한 데이터와 고도화된 보상 알고리즘이 필요할 것이라고 덧붙였다. 이번 연구는 AI가 현실 세계의 물리 법칙을 깊이 이해하고 시뮬레이션할 수 있는 가능성을 열어주었다는 점에서 기술적 가치가 매우 크다.