이 기사의 핵심 내용은?

연구진이 고수준 추론과 외부 모듈을 활용해 로봇 조작 능력을 강화하는 Guava 프레임워크를 발표했다. 4B 파라미터 모델이 2,000개 미만의 시뮬레이션 데이터를 학습하고도 최첨단 독점 모델과 대등한 성능을 보였다. Guava는 반복적인 인식-추론-행동 루프, 의미론적 행동 추상화, 멀티모달 관찰을 핵심 요소로 제시했다.

Guava, 로봇 조작 성능을 높이는 새로운 프레임워크 공개

•연구진이 고수준 추론과 외부 모듈을 활용해 로봇 조작 능력을 강화하는 Guava 프레임워크를 발표했다.
•4B 파라미터 모델이 2,000개 미만의 시뮬레이션 데이터를 학습하고도 최첨단 독점 모델과 대등한 성능을 보였다.
•Guava는 반복적인 인식-추론-행동 루프, 의미론적 행동 추상화, 멀티모달 관찰을 핵심 요소로 제시했다.

•연구진이 고수준 추론과 외부 모듈을 활용해 로봇 조작 능력을 강화하는 Guava 프레임워크를 발표했다.
•4B 파라미터 모델이 2,000개 미만의 시뮬레이션 데이터를 학습하고도 최첨단 독점 모델과 대등한 성능을 보였다.
•Guava는 반복적인 인식-추론-행동 루프, 의미론적 행동 추상화, 멀티모달 관찰을 핵심 요소로 제시했다.

연구진은 고수준 추론과 인식·계획·제어를 위한 외부 모듈을 통합하여 로봇 조작 작업을 개선하는 프레임워크인 Guava를 선보였다. 2026년 6월 16일 발표된 이 연구는 에이전트 워크플로우와 행동 및 관찰 공간의 설계 범위를 탐구하며 효과적인 로봇 시스템의 요구 사항을 정의했다. 연구팀은 성능을 결정짓는 3가지 핵심 요소로, 세계 상태를 지속적으로 업데이트하고 계획하는 '반복적인 인식-추론-행동 루프', 저수준 모터 제어를 상위 지시 사항으로 묶는 '의미론적 행동 추상화', 그리고 '멀티모달 관찰'을 꼽았다.

이러한 원칙을 검증하기 위해 연구진은 엔드투엔드 학습 파이프라인을 구축해 4B 파라미터 규모의 오픈소스 모델을 개발했다. 해당 모델은 시뮬레이션 환경에서 수집된 2,000개 미만의 궤적 데이터만을 학습했다. 실험 결과, 시뮬레이션과 실제 환경 모두에서 이 4B 모델은 최첨단 독점 모델과 비견되는 성능을 나타냈다. 또한 새로운 사물이나 지시 사항이 주어지거나, 여러 단계를 거쳐야 하는 복잡한 Long-horizon task 상황에서도 강력한 일반화 능력을 보여주었다.

이번 연구 결과는 잘 설계된 프레임워크가 모델에 구애받지 않는 확장 가능한 인터페이스로 기능하며, 더 작은 언어 모델도 로봇 제어 능력을 발휘할 수 있게 함을 시사한다. 이 접근 방식은 기존의 통합된 시각-언어-행동 시스템을 대체할 실용적인 대안으로, 훨씬 적은 학습 데이터를 사용하면서도 복잡한 조작 시나리오에서 높은 효과를 유지한다.

연구진은 고수준 추론과 인식·계획·제어를 위한 외부 모듈을 통합하여 로봇 조작 작업을 개선하는 프레임워크인 Guava를 선보였다. 2026년 6월 16일 발표된 이 연구는 에이전트 워크플로우와 행동 및 관찰 공간의 설계 범위를 탐구하며 효과적인 로봇 시스템의 요구 사항을 정의했다. 연구팀은 성능을 결정짓는 3가지 핵심 요소로, 세계 상태를 지속적으로 업데이트하고 계획하는 '반복적인 인식-추론-행동 루프', 저수준 모터 제어를 상위 지시 사항으로 묶는 '의미론적 행동 추상화', 그리고 '멀티모달 관찰'을 꼽았다.

이러한 원칙을 검증하기 위해 연구진은 엔드투엔드 학습 파이프라인을 구축해 4B 파라미터 규모의 오픈소스 모델을 개발했다. 해당 모델은 시뮬레이션 환경에서 수집된 2,000개 미만의 궤적 데이터만을 학습했다. 실험 결과, 시뮬레이션과 실제 환경 모두에서 이 4B 모델은 최첨단 독점 모델과 비견되는 성능을 나타냈다. 또한 새로운 사물이나 지시 사항이 주어지거나, 여러 단계를 거쳐야 하는 복잡한 Long-horizon task 상황에서도 강력한 일반화 능력을 보여주었다.

이번 연구 결과는 잘 설계된 프레임워크가 모델에 구애받지 않는 확장 가능한 인터페이스로 기능하며, 더 작은 언어 모델도 로봇 제어 능력을 발휘할 수 있게 함을 시사한다. 이 접근 방식은 기존의 통합된 시각-언어-행동 시스템을 대체할 실용적인 대안으로, 훨씬 적은 학습 데이터를 사용하면서도 복잡한 조작 시나리오에서 높은 효과를 유지한다.