단일 영상으로 공간을 매핑하는 새로운 AI 시스템
- •RADIO-ViPE는 일반적인 단안 비디오만으로 로봇이 역동적인 환경을 매핑할 수 있게 한다.
- •자연어 질의를 3D 공간에 직접 연결하여 최첨단 의미론적 기반 형성을 구현한다.
- •강력한 커널 기술을 도입하여 움직이는 물체나 가구 배치를 실시간으로 무시하고 정확한 지도를 생성한다.
로봇이 새로운 공간에 진입하는 상황을 가정해 보자. 기존에는 로봇이 공간의 기하학적 구조를 이해하기 위해 고가의 카메라와 심도 센서, 그리고 사전 보정 작업이 필수적이었다. 하지만 최근 발표된 'RADIO-ViPE'라는 연구는 이러한 복잡한 하드웨어 의존성을 일반적인 단안 비디오 스트림만으로 대체하며 공간 내비게이션의 패러다임을 바꾸고 있다.
'RADIO-ViPE'는 'Reduce All Domains Into One—Video Pose Engine'의 약자이다. 이 시스템은 SLAM, 즉 '동시적 위치 추정 및 지도 작성' 기술을 수행한다. 로봇은 주변 지도를 구축함과 동시에 자신이 무엇을 보고 있는지 정확히 파악하는데, 단순히 픽셀의 집합으로 세상을 보는 것이 아니라 의자나 식물 같은 객체를 식별하고 3D 공간에 배치한다. 이 과정 덕분에 로봇은 인간의 언어 명령에 따라 물체를 조작하거나 이동할 수 있다.
특히 AI 연구자들에게 흥미로운 점은 이 시스템의 '오픈 보이어블러리' 능력이다. 이 시스템은 이미지 생성 모델이나 챗봇의 기반이 되는 파운데이션 모델을 통합했기에, 명시적인 학습을 거치지 않은 물체까지도 인식하고 지도에 반영할 수 있다. 이는 고정된 알고리즘이 따라올 수 없는 문맥 이해 능력을 보여준다.
또한, 현실 세계의 복잡성을 처리하는 방식이 매우 혁신적이다. 대개 사람은 이동하거나 가구가 위치를 바꾸면 기존 매핑 시스템은 혼란을 겪으며 지도가 왜곡되기 마련이다. 그러나 RADIO-ViPE는 적응형 로버스트 커널을 통해 벽이나 바닥 같은 고정 구조물과 지나가는 고양이 같은 동적 개체를 영리하게 구분한다.
이번 기술은 자율 로봇 및 증강 현실 분야에서 큰 진보를 이끌어냈다. 사전 보정된 센서에 의존하지 않음으로써 개발자들은 더욱 직관적이고 경제적인 로봇 배치가 가능해졌다. 결과적으로 표준 카메라만으로도 문맥을 인식하는 내비게이션 시스템을 구축할 수 있게 되었으며, 실험실 밖의 복잡한 일상 속에서도 인간과 자연스럽게 공존하는 로봇의 시대가 한층 가까워졌다.