Being-H0.5: 로봇의 ‘신체 장벽’을 허무는 범용 모델
- •BeingBeyond가 다양한 로봇 플랫폼을 지원하는 시각-언어-행동(VLA) 파운데이션 모델 Being-H0.5를 공개했다.
- •UniHand-2.0 데이터셋을 통해 30종의 로봇 형태에 걸친 35,000시간 이상의 멀티모달 데이터를 구축했다.
- •LIBERO(98.9%)와 RoboCasa(53.9%) 벤치마크에서 역대 최고 성능을 달성하며 범용성을 입증했다.
로봇 공학계의 고질적인 난제는 ‘신체적 격차(embodiment gap)’였다. 한 로봇이 학습한 기술을 형태나 제어 방식이 다른 로봇에 적용하기가 매우 어렵기 때문이다. BeingBeyond 연구진은 Being-H0.5를 통해 이 문제에 정면으로 도전했다. 이 모델은 인간의 상호작용을 일종의 보편적인 ‘모국어’로 취급하는 시각-언어-행동(VLA) 모델이다. 인간의 움직임을 물리적 상호작용의 기준으로 삼음으로써, 인간의 시연 영상과 다지형 로봇 손, 산업용 로봇 팔 등 서로 다른 하드웨어 사이의 간극을 효과적으로 메웠다. 시스템의 핵심 동력은 UniHand-2.0 데이터셋이다. 30가지의 서로 다른 로봇 형태를 아우르는 35,000시간 이상의 멀티모달 데이터라는 전례 없는 규모를 자랑한다. 이러한 방대한 스케일 덕분에 모델은 일반화 능력을 확보했다. 즉, 학습 과정에서 보지 못한 새로운 시나리오에서도 지식을 유연하게 적용할 수 있게 된 것이다. 연구팀은 데이터의 다양성을 처리하기 위해 Mixture-of-Transformers 아키텍처를 도입했으며, 새롭게 제안한 Mixture-of-Flow(MoF) 프레임워크를 통해 공통된 운동 기술과 특정 로봇 신체에 특화된 모듈을 분리해냈다. 성과는 수치로 증명됐다. Being-H0.5는 LIBERO와 RoboCasa 벤치마크에서 각각 98.9%와 53.9%라는 신기록을 세웠다. 하지만 점수보다 더 중요한 것은 이 모델이 제시한 ‘통합 행동 공간(Unified Action Space)’이다. 서로 다른 로봇 제어 방식을 의미적으로 정렬된 슬롯으로 매핑함으로써, 학습 데이터가 부족한 ‘저자원’ 로봇도 데이터가 풍부한 플랫폼의 지능을 빌려와 복잡한 기술을 빠르게 배울 수 있게 했다. 이는 어떤 물리적 형태든 상관없이 인식하고 행동할 수 있는 단일 파운데이션 모델을 향한 중대한 진전이다.