이 기사의 핵심 내용은?

메타 AI는 텍스트-비디오 생성 모델에서 빈번하게 발생하는 물리적 불일치 문제를 해결하기 위해 PhyGDPO 기술을 개발했다. 시각 언어 모델(VLM)과 단계별 추론 기법을 활용해 물리적 상호작용을 정밀하게 분석하는 13만 5천 개의 대규모 데이터셋을 구축했다. 실험 결과 새로운 프레임워크는 기존 오픈소스 모델 대비 물리적 정확도 지표에서 월등한 성능 향상을 증명했다.

메타 AI 물리 법칙 따르는 영상 생성 기술 공개

•메타 AI는 텍스트-비디오 생성 모델에서 빈번하게 발생하는 물리적 불일치 문제를 해결하기 위해 PhyGDPO 기술을 개발했다.
•시각 언어 모델(VLM)과 단계별 추론 기법을 활용해 물리적 상호작용을 정밀하게 분석하는 13만 5천 개의 대규모 데이터셋을 구축했다.
•실험 결과 새로운 프레임워크는 기존 오픈소스 모델 대비 물리적 정확도 지표에서 월등한 성능 향상을 증명했다.

•메타 AI는 텍스트-비디오 생성 모델에서 빈번하게 발생하는 물리적 불일치 문제를 해결하기 위해 PhyGDPO 기술을 개발했다.
•시각 언어 모델(VLM)과 단계별 추론 기법을 활용해 물리적 상호작용을 정밀하게 분석하는 13만 5천 개의 대규모 데이터셋을 구축했다.
•실험 결과 새로운 프레임워크는 기존 오픈소스 모델 대비 물리적 정확도 지표에서 월등한 성능 향상을 증명했다.

메타 AI의 위안하오 차이 수석 연구원과 저명한 컴퓨터 비전 석학인 앨런 유일 교수팀은 최근 텍스트-비디오 생성 모델의 고질적인 문제인 물리적 비현실성을 해결하기 위한 새로운 기술인 'PhyGDPO'를 발표했다. 기존의 AI 영상 생성 기술은 시각적으로는 화려하지만 물체가 공중에 부자연스럽게 떠 있거나 중력 법칙을 무시하는 등 기본적인 물리 법칙을 위배하는 경우가 많았다. 이에 따라 연구팀은 시각 언어 모델(VLM)이 영상 내 물리적 상호작용을 단계별 논리로 분석하고 설명하는 '연쇄 사고(Chain-of-Thought)' 방식을 도입해 13만 5천 개의 데이터셋을 새롭게 구축했다.

이번 연구의 핵심 혁신은 '물리 인지 그룹별 직접 선호도 최적화(PhyGDPO)' 기술에 있다. 단순히 두 개의 선택지를 비교해 더 나은 결과물을 선택하는 기존 학습 방식과 달리 이 모델은 여러 영상 변수를 그룹 단위로 분석해 훨씬 복잡하고 미세한 물리적 차이를 포착한다. 특히 VLM이 심판 역할을 수행하는 '물리 가이드 보상 체계'를 통해 생성된 움직임이 실제 물리 법칙에 부합할 때 모델에 보상을 주는 방식을 채택했다. 실제로 공이 튀어 오르거나 물이 흐르는 등의 장면에서 생성된 영상은 실제 세계의 움직임과 매우 유사한 모습을 보였다.

또한 연구팀은 학습 과정의 효율성을 극대화하기 위해 'LoRA-SR'이라는 새로운 기법을 도입했다. 이 기술은 방대한 컴퓨터 메모리를 복제하지 않고도 참조 데이터로부터 효율적으로 학습할 수 있도록 지원하여 훈련 속도를 높이고 비용을 획기적으로 절감하는 성과를 거두었다. 한편 물리적 정확도를 측정하는 벤치마크인 'PhyGenBench' 실험 결과 이 프레임워크는 기존의 주요 오픈소스 영상 생성 모델들을 압도하는 성능을 입증했다.

이러한 기술적 진보는 단순히 영상의 화질을 높이는 것을 넘어 로봇 공학이나 디지털 시뮬레이션 분야에서 가상 세계를 정밀하게 구현하는 데 필수적인 토대가 될 것으로 전망된다. 다만 연구진은 더욱 복잡한 물리적 상호작용을 완벽히 구현하기 위해서는 앞으로 더 정교한 데이터와 고도화된 보상 알고리즘이 필요할 것이라고 덧붙였다. 이번 연구는 AI가 현실 세계의 물리 법칙을 깊이 이해하고 시뮬레이션할 수 있는 가능성을 열어주었다는 점에서 기술적 가치가 매우 크다.

메타 AI의 위안하오 차이 수석 연구원과 저명한 컴퓨터 비전 석학인 앨런 유일 교수팀은 최근 텍스트-비디오 생성 모델의 고질적인 문제인 물리적 비현실성을 해결하기 위한 새로운 기술인 'PhyGDPO'를 발표했다. 기존의 AI 영상 생성 기술은 시각적으로는 화려하지만 물체가 공중에 부자연스럽게 떠 있거나 중력 법칙을 무시하는 등 기본적인 물리 법칙을 위배하는 경우가 많았다. 이에 따라 연구팀은 시각 언어 모델(VLM)이 영상 내 물리적 상호작용을 단계별 논리로 분석하고 설명하는 '연쇄 사고(Chain-of-Thought)' 방식을 도입해 13만 5천 개의 데이터셋을 새롭게 구축했다.

이번 연구의 핵심 혁신은 '물리 인지 그룹별 직접 선호도 최적화(PhyGDPO)' 기술에 있다. 단순히 두 개의 선택지를 비교해 더 나은 결과물을 선택하는 기존 학습 방식과 달리 이 모델은 여러 영상 변수를 그룹 단위로 분석해 훨씬 복잡하고 미세한 물리적 차이를 포착한다. 특히 VLM이 심판 역할을 수행하는 '물리 가이드 보상 체계'를 통해 생성된 움직임이 실제 물리 법칙에 부합할 때 모델에 보상을 주는 방식을 채택했다. 실제로 공이 튀어 오르거나 물이 흐르는 등의 장면에서 생성된 영상은 실제 세계의 움직임과 매우 유사한 모습을 보였다.

또한 연구팀은 학습 과정의 효율성을 극대화하기 위해 'LoRA-SR'이라는 새로운 기법을 도입했다. 이 기술은 방대한 컴퓨터 메모리를 복제하지 않고도 참조 데이터로부터 효율적으로 학습할 수 있도록 지원하여 훈련 속도를 높이고 비용을 획기적으로 절감하는 성과를 거두었다. 한편 물리적 정확도를 측정하는 벤치마크인 'PhyGenBench' 실험 결과 이 프레임워크는 기존의 주요 오픈소스 영상 생성 모델들을 압도하는 성능을 입증했다.

이러한 기술적 진보는 단순히 영상의 화질을 높이는 것을 넘어 로봇 공학이나 디지털 시뮬레이션 분야에서 가상 세계를 정밀하게 구현하는 데 필수적인 토대가 될 것으로 전망된다. 다만 연구진은 더욱 복잡한 물리적 상호작용을 완벽히 구현하기 위해서는 앞으로 더 정교한 데이터와 고도화된 보상 알고리즘이 필요할 것이라고 덧붙였다. 이번 연구는 AI가 현실 세계의 물리 법칙을 깊이 이해하고 시뮬레이션할 수 있는 가능성을 열어주었다는 점에서 기술적 가치가 매우 크다.