스탠퍼드, 세계 모델로 GPT-5 뛰어넘는 VLM 에이전트 개발
- •VAGEN 프레임워크는 강화학습을 통해 내부 세계 모델을 구축하는 30억 매개변수 규모의 VLM을 학습시킨다.
- •새로운 모델은 로봇 공학 및 내비게이션과 같은 복잡한 시각적 작업에서 GPT-5와 Claude 4.5의 성능을 능가했다.
- •WorldModeling Reward와 계층적 보상 할당 방식을 도입하여 에이전트의 다단계 추론 능력을 대폭 개선했다.
스탠퍼드 대학교(Stanford University) AI 연구소 연구진은 시각-언어 모델(VLM)의 고질적 약점인 부분적 가시성 환경에서의 문맥 유지 능력을 해결하기 위해 강화학습 프레임워크인 VAGEN을 공개했다. 단일 스냅샷 이미지 처리 방식에 의존하는 기존 모델과 달리, VAGEN으로 학습된 에이전트는 내부적으로 '세계 모델'을 구축하도록 훈련받는다. 이는 현재 상태를 추정하는 그라운딩과 특정 행동이 상태를 어떻게 변화시킬지 예측하는 전이 모델링이라는 두 가지 핵심 사고 과정을 포함한다. 모델이 행동하기 전 체계적으로 생각하도록 강제함으로써 정적인 이미지 이해와 역동적인 상호작용 사이의 간극을 메운 것이다.
이러한 학습 과정을 최적화하기 위해 연구팀은 새로운 WorldModeling Reward 시스템을 구현했다. 복잡한 작업에서 드물게 발생하는 최종 성공 여부에만 보상을 주는 대신, LLM을 판정관으로 활용해 에이전트의 매 단계 내부 상태 예측 정확도에 대한 피드백을 제공하도록 설계했다. 이러한 조밀한 피드백은 계층적 보상 할당 방법인 Bi-Level GAE와 결합된다. 이 기술은 긴 다단계 시퀀스 전반에서 어떤 구체적인 추론 단계가 성공에 기여했는지 모델이 명확히 이해할 수 있도록 지원하며, 긴 상호작용 중 실제로 효과가 있었던 부분을 판별하는 난제를 해결했다.
연구 결과는 매우 인상적이다. VAGEN 모델은 단 30억 개의 매개변수만을 가졌음에도 불구하고 다섯 가지의 다양한 벤치마크에서 GPT-5 및 Gemini 2.5 Pro와 같은 훨씬 거대한 상용 시스템을 크게 앞질렀다. 특히 3D 환경 탐색부터 복잡한 로봇 조작, 심지어 코드를 이용한 이미지 재구성에 이르기까지 광범위한 작업에서 탁월한 성과를 보였다. 실제로 이번 연구는 단순히 모델의 크기를 키우는 것보다 구조화된 세계 모델링과 특화된 강화학습이 에이전트의 성능 향상에 더 효과적일 수 있음을 시사한다.