Tencent, 실세계 로봇을 위한 AI 모델 'HY-Embodied-0.5' 공개
- •HY-Embodied-0.5는 실제 물리적 환경에서 로봇을 제어하기 위한 유연한 파운데이션 모델 제품군이다.
- •2B 파라미터의 엣지 AI 모델과 32B 모델로 구성되어, 필요에 따라 성능과 효율성을 선택할 수 있다.
- •Mixture-of-Transformers 구조를 채택해 시각적 인식과 계획 수립 능력을 동시에 강화했다.
인공지능의 영역이 화면을 넘어 물리적 세계로 확장되고 있다. 최근 텐센트의 로봇 연구 부서인 Robotics X 팀이 발표한 HY-Embodied-0.5는 범용 언어 모델과 물리적 로봇의 요구사항을 연결하는 중요한 이정표를 제시한다. 기존의 텍스트 기반 챗봇과 달리, 이 모델은 물리적 환경의 시공간적 맥락을 이해하여 로봇이 실제 현장에서 상황을 예측하고 상호작용하도록 설계되었다.
이 모델의 핵심은 'Mixture-of-Transformers' 구조다. 이는 뇌의 구조를 모방하여 각기 다른 감각 데이터를 처리할 때 전용 경로를 할당하는 방식이다. 데이터가 하나의 복잡한 통로를 거치는 대신, 시각 정보와 언어 정보를 최적화된 경로로 나누어 처리함으로써 병목 현상을 방지한다. 또한, 시각적 핵심 정보를 압축한 '레이턴트 토큰'을 도입해 적은 연산량으로도 높은 정밀도의 인식을 구현했다.
텐센트는 다양한 하드웨어 사양을 고려하여 모델을 구성했다. 로봇 기기에 직접 탑재하는 2B 파라미터 규모의 엣지 AI 모델은 효율성에 집중했고, 복잡한 추론 작업이 필요한 경우에는 32B 모델을 사용할 수 있도록 했다. 특히 대형 모델이 학습한 고도의 추론 능력을 소형 모델로 전달하는 지식 증류 과정을 거쳐 성능을 최적화했다.
평가 데이터에 따르면 이러한 전략은 매우 효과적이다. MoT-2B 모델은 이미 여러 시각 및 공간 벤치마크에서 동급 모델들을 상회하는 성과를 보였다. 32B 모델 역시 현재 시장에서 가장 강력한 수준의 성능을 발휘한다. 텐센트는 이번 모델과 코드를 모두 오픈소스로 공개하여, 단순 반복 작업을 넘어 지능적으로 행동하는 로봇 연구의 기반을 마련하고자 한다.