NTU 연구진, VLANeXt 프레임워크로 로봇 AI 표준화
HuggingFace
2026년 2월 25일 (수)
- •VLANeXt 프레임워크는 시각-언어-행동 (VLA) 설계를 통합하여 로봇 정책 학습과 성능을 최적화한다.
- •연구진은 복잡한 작업 수행이 가능한 우수한 VLA 모델 구축을 위해 12가지 핵심 설계 원칙을 도출했다.
- •VLANeXt는 LIBERO 벤치마크에서 최신 모델들을 능가하며 실생활에서도 강력한 일반화 성능을 입증했다.
시각적 입력과 텍스트 명령을 로봇의 물리적 움직임으로 변환하는 AI 시스템인 시각-언어-행동 (VLA) 모델 분야는 그동안 파편화된 연구와 일관성 없는 훈련 방식으로 인해 발전에 제약이 있었다. 이를 해결하기 위해 난양 공과대학교(Nanyang Technological University)의 MMLab@NTU 연구진은 로봇의 '두뇌'를 구축하고 평가하는 과정을 체계화한 통합 프레임워크 'VLANeXt'를 도입했다.
연구팀은 설계 과정을 기초 구성 요소, 인지 필수 요소, 행동 모델링의 세 가지 핵심 영역으로 세분화하여 고성능 로봇 제작을 위한 12가지 설계 원칙을 도출했다. 이러한 지침은 단순한 이론적 제안을 넘어, 시뮬레이션 벤치마크와 실제 환경 테스트 모두에서 OpenVLA와 같은 기존 모델을 크게 능가하는 고성능 모델의 탄생으로 이어졌다. 특히 이번 모델은 복잡한 작업 수행 능력뿐만 아니라 새로운 환경에 적응하는 뛰어난 일반화 능력을 보여주었다.
무엇보다 연구진은 누구나 쉽게 사용할 수 있는 포괄적인 코드베이스를 공개하여 AI 커뮤니티의 접근성을 높였다. 덕분에 연구자들은 처음부터 모든 과정을 개발할 필요 없이 연구 결과를 재현하거나 새로운 VLA 변형 모델을 자유롭게 실험할 수 있게 되었다. 이러한 표준화 노력은 AI가 디지털 스크린을 벗어나 우리 일상에서 실무를 수행하는 물리적 기계로 진화하는 과정을 한층 앞당길 전망이다.