UC 버클리, 전신 움직임으로 미래 영상 예측하는 AI 개발
- •전신의 48개 관절 움직임을 정밀하게 분석하여 1인칭 시점의 미래 예측 영상을 생성한다.
- •냉장고 열기와 같은 정교한 상호작용을 시뮬레이션하며 물리적 인과관계를 이해하는 월드 모델의 토대를 마련했다.
- •디퓨전 트랜스포머 아키텍처를 활용해 로봇이 복잡한 환경에서 시각적 계획을 수립하도록 돕는다.
UC 버클리 연구진이 인간의 복잡한 신체 움직임을 분석하여 1인칭 시점의 미래 영상을 생성하는 혁신적인 인공지능 모델 'PEVA'를 공개하며 학계의 주목을 받고 있다. 기존의 연구들이 단순히 지점 간의 이동과 같은 추상적인 신호에 의존하여 제한적인 예측만을 수행했다면, PEVA는 전신에 걸친 48개의 정밀한 관절 움직임을 데이터로 활용하여 훨씬 구체적인 결과를 도출한다. 이는 인간이 특정 행동을 취하기 전 그 결과를 뇌에서 시각적으로 미리 시뮬레이션하는 과정과 매우 유사한 방식을 취하고 있다. 이에 따라 시각적 데이터를 통해 물리적 현실과 인과관계를 깊이 있게 이해하는 '월드 모델' 구축을 위한 중대한 기술적 도약을 이뤄낸 것으로 평가받는다.
고차원의 복잡한 신체 활동 데이터를 효과적으로 처리하기 위해 연구진은 이미지 생성에 탁월한 확산 모델과 문맥 이해 능력이 뛰어난 트랜스포머 아키텍처를 결합한 확장된 '디퓨전 트랜스포머' 구조를 도입했다. 이러한 기술적 기반을 바탕으로 PEVA는 특정 행동이 일어났을 때 실시간으로 환경이 어떻게 변화하는지를 매우 정교하게 예측할 수 있다. 실제로 사용자가 주방에서 냉장고를 향해 손을 뻗는 동작을 취하면, AI는 즉시 냉장고 문이 열리고 내부의 음식물들이 나타나는 미래의 영상 시퀀스를 생성해낸다. 특히 단순한 영상 합성을 넘어 로봇이 복잡하고 가변적인 현실 환경에서 목표를 달성하기 위해 어떤 일련의 행동이 필요한지 스스로 판단하도록 돕는 시각적 계획 수립의 핵심 도구로 활용될 수 있다.
한편 이 모델은 직접적으로 화면에 잡히지 않는 신체 움직임조차 주변 환경에 어떠한 물리적 영향을 미치는지 1인칭 시점에서 정확하게 추론하는 고도의 능력을 갖추고 있다. PEVA는 현재 최대 16초 분량의 일관성 있는 미래 예측 영상을 생성할 수 있는데, 이는 향후 가정용 서비스 로봇이나 산업용 협동 로봇이 정교한 일상 업무를 수행하는 데 필수적인 기술적 토대가 될 전망이다. 또한 연구팀은 PEVA를 더욱 고도화하여 로봇이 주변 환경과의 지속적이고 자율적인 상호작용을 통해 스스로 물리 법칙을 학습하고 지능을 진화시키는 완전한 지능형 시스템으로 발전시킨다는 야심찬 계획을 세우고 있다. 다만 이러한 기술이 실제 산업 현장에 전면 도입되기 위해서는 더욱 방대한 양의 학습 데이터와 연산 최적화 과정이 필요할 것으로 보인다.