로봇, 카메라 한 대로 어지러운 물건 정리한다
- •EgoPush 프레임워크는 단일 1인칭 시점 카메라만으로 이동형 로봇이 복잡한 물건들을 재배치할 수 있게 한다.
- •전체 좌표 지도 없이도 '물체 중심 잠재 공간'을 활용해 물체 간의 공간적 관계를 효율적으로 인코딩한다.
- •시뮬레이션에서 학습한 AI를 실제 로봇에 추가 조정 없이 즉시 적용하는 제로샷 Sim-to-real 전송을 성공적으로 시연했다.
어지러운 방을 정리하는 일은 인간에게는 사소한 작업이지만, 동적인 환경에서 복잡한 전체 지도를 구축해야 하는 로봇에게는 매우 까다로운 과제다. 이에 따라 보위안 안(Boyuan An) 연구원을 비롯한 AI4CE Lab 연구진은 절대 좌표에 의존하지 않고도 물체를 재배치할 수 있는 엔드투엔드 프레임워크인 EgoPush를 선보였다. 이 시스템은 '물체 중심 잠재 공간'을 활용해 로봇이 고정된 방 구조에서의 위치가 아닌, 물체 간의 상대적인 관계를 이해하도록 돕는다. 이러한 상대적 이해 방식 덕분에 로봇은 장애물이 움직이거나 환경이 변하더라도 훨씬 유연하게 적응할 수 있다.
학습 과정에서는 모든 정보를 파악하고 있는 '교사' 모델이 로봇의 카메라 시야만 공유하는 '학생' 모델에 지식을 전달하는 교사-학생 지식 증류 기법이 사용됐다. 특히 길고 복잡한 작업을 수행하기 위해 연구팀은 전체 공정을 관리 가능한 작은 목표들로 나누고 각 단계가 완료될 때마다 피드백을 제공하는 '단계별 로컬 보상' 방식을 도입했다. 그 결과, 로봇은 한 번에 해결하기 어려운 복잡한 과업도 단계별로 효율적으로 완수할 수 있는 능력을 갖추게 되었다.
무엇보다 놀라운 점은 추가적인 튜닝 없이 시뮬레이션의 학습 내용을 실제 환경에 즉시 적용하는 제로샷 Sim-to-real 전송을 구현했다는 사실이다. 이는 AI가 오직 디지털 시뮬레이션 환경에서만 훈련되었음에도 실제 물리 세계의 이동형 로봇을 성공적으로 제어할 수 있음을 의미한다. 이러한 기술적 도약은 향후 가정이나 창고에서 실질적으로 도움을 줄 수 있는 유능한 로봇을 현실화하는 데 있어 중요한 전환점이 될 전망이다.