로봇 모델의 언어 이해력, 왜 기본부터 흔들리는가
- •LIBERO-Para 벤치마크를 통해 VLA 모델이 명령어를 재구성할 때 매우 취약함이 드러남.
- •로봇 모델은 표면적인 키워드 매칭에 의존하며, 이로 인해 22~52%의 성능 저하가 발생함.
- •로봇 시스템의 문장 재구성에 따른 난이도를 정량화하기 위해 새로운 PRIDE 지표가 도입됨.
최근 Vision-Language-Action (VLA) 모델의 등장은 로봇 공학 분야의 중대한 전환점이 되었다. 이 시스템은 인간의 고차원적인 명령과 물리적인 기계 동작 사이의 간극을 메우며, 가정과 직장에서 직관적으로 작업을 이해하고 수행하는 로봇의 미래를 제시한다. 그러나 진정한 신뢰성을 확보하는 길은 단순히 모델의 규모를 키우는 것보다 훨씬 복잡하며, 정교한 환경에서는 뛰어난 성능을 보이는 시스템들도 인간 언어의 모호하고 가변적인 특성 앞에서는 무력한 모습을 보이고 있다.
새롭게 도입된 LIBERO-Para 벤치마크는 이러한 시스템의 근본적인 문제인 언어 일반화 능력의 부재를 지적한다. 연구진이 일곱 가지 다른 VLA 설정을 테스트한 결과, 명령어의 표현만 미세하게 수정했을 뿐인데도 성능이 22%에서 52%까지 급격히 하락하는 현상이 관찰되었다. 예를 들어 '빨간 머그잔을 집어줘'라는 명령과 '진홍색 컵을 들어 올려'라는 문장 사이에서 모델은 심각한 혼란을 겪었다. 이는 모델이 단어 뒤에 숨겨진 의미적 의도를 진정으로 이해하는 것이 아니라, 학습 단계에서 경험한 키워드 기반의 패턴 매칭에만 의존하고 있음을 의미한다.
이러한 한계는 현재 로봇 지능을 바라보는 관점에 중요한 시사점을 던진다. 연구에 따르면 모델 실패 사례의 약 96%는 기계적인 실행 오류가 아닌 계획 단계에서의 오류로, 언어의 변형으로 인해 로봇이 작업을 완전히 잘못 식별하는 경우였다. 본질적으로 이는 인지적 정렬의 실패로, 로봇이 인간처럼 명령어를 물리적 객체와 연결하지 못하고 있음을 시사한다.
이러한 진단적 공백을 해결하기 위해 연구팀은 PRIDE라는 새로운 지표를 개발했다. 기존의 이진 지표는 작업 완료 여부만을 측정하여 모델의 성공 또는 실패 이유를 파악하기 어려웠지만, PRIDE는 문장 재구성에 따른 난이도를 의미론적·구문론적 요소를 기반으로 정량화한다. 이를 통해 연구자들은 모델이 실제로 견고한지, 아니면 단순히 가장 쉬운 명령어 변형에 의존하고 있는지를 객관적으로 평가할 수 있게 되었다.
AI 분야에 입문하는 대학생들에게 이 연구는 지능이 단순히 처리 능력 그 이상의 영역임을 일깨워 준다. AI 기반 로봇 공학에서 진정한 역량을 발휘하려면 사용자의 의사소통 방식과 상관없이 시스템이 안정성을 유지할 수 있도록 하는 언어적 연결이 필수적이다. 이제 산업계는 단순한 키워드 의존에서 벗어나, 인간의 다양하고 예측 불가능한 표현 속에서도 세상에 대한 '이해'를 유지할 수 있는 모델을 향해 나아가고 있다.