TwinBrainVLA, 로봇의 지능과 행동력을 모두 잡다
- •TwinBrainVLA 아키텍처는 고차원적 의미 추론과 정밀한 로봇 제어 사이의 완벽한 균형을 구현한다.
- •이중 뇌 시스템을 통해 특화 훈련 과정 중 발생하는 일반 지식의 손실을 방지한다.
- •SimplerEnv 및 RoboCasa 벤치마크의 정밀 동작 테스트에서 기존 모델을 압도하는 성능을 증명했다.
중관춘 아카데미(Zhongguancun Academy) 연구진이 로봇 공학의 고질적 난제인 '치명적 망각' 문제를 해결하기 위해 정교한 아키텍처인 TwinBrainVLA를 공개했다.
일반적으로 시각 언어 모델(VLM)이 특정 로봇 동작을 학습하게 되면, 기존에 보유했던 보편적인 세계 지식을 잃고 단순한 운동 기술로 대체되는 경향이 있다. TwinBrainVLA는 인공지능의 인지 부하를 협력적인 두 부분으로 분할하여 이러한 성능 저하를 교묘하게 회피. 이 시스템은 '비대칭 Mixture-of-Transformers(AsyMoT)'라는 새로운 메커니즘을 통해 각 구성 요소를 조율한다. 구체적으로 '좌뇌'는 방대한 의미론적 지식을 보유한 고정된 사전 학습 범용 모델이며, '우뇌'는 로봇의 신체 상태를 감지하는 고유 수용성 감각과 체화된 지각에 집중하는 학습 가능 모듈이다. 우뇌가 좌뇌의 가중치를 변경하지 않으면서 필요한 맥락만 조회하도록 설계되어, 로봇은 기존의 '지능'을 유지하면서도 새로운 숙련 작업들을 습득할 수 있다. 이러한 고차원적 사고를 실제 물리적 행동으로 변환하기 위해, 아키텍처는 정밀한 연속 명령을 생성하는 전용 전문가 모듈에 데이터를 공급한다. 시뮬레이션 환경에서 진행된 광범위한 테스트 결과, TwinBrainVLA는 현재의 최첨단 모델들을 일관되게 압도했다. 이번 이중 경로 접근 방식은 디지털 추론과 물리적 실행 사이의 간극을 효과적으로 메웠다. 이는 지능과 신체 능력을 동시에 갖춘 범용 로봇을 제작하기 위한 유망한 설계도를 제시한 것으로 평가받는다.