SpatialClaw, VLM 공간 추론 정확도 향상
HuggingFace
2026년 6월 13일 (토)
- •SpatialClaw는 3D 및 4D 공간 추론을 위해 코드를 행동 인터페이스로 사용하는 훈련 불필요 프레임워크다.
- •20개 벤치마크에서 평균 59.9%의 정확도를 기록하며 기존 공간 추론 에이전트 대비 11.2%p 향상된 성능을 보였다.
- •별도의 벤치마크나 모델별 최적화 없이 6개의 서로 다른 VLM 백본에서 일관된 성능을 유지한다.
SpatialClaw는 코드를 행동 인터페이스로 활용해 VLM(시각-언어 모델)의 3D 및 4D 공간 추론 능력을 강화하는 훈련 불필요 프레임워크다. 기존 도구 활용 에이전트는 단일 단계 코드 실행이나 경직된 도구 호출 방식에 의존해 공간 추론 작업에서 유연성이 부족한 한계가 있었다. 이를 개선하고자 연구진은 기하학적 기본 요소가 사전 로드된 상태 유지형 파이썬 커널을 설계했다. 이에 따라 VLM 기반 에이전트는 각 단계마다 파이썬 코드를 한 셀씩 실행하며, 중간 결과와 시각 정보를 바탕으로 분석 방식을 동적으로 조정할 수 있다.
SpatialClaw는 20개 벤치마크 테스트에서 평균 59.9%의 정확도를 기록했다. 이는 기존 공간 추론 에이전트와 비교해 11.2%p 높은 수치다. 특히 이 프레임워크는 6개의 서로 다른 VLM 백본에 적용했을 때 별도의 미세 조정 없이도 일관된 성능 향상을 보였다. 이러한 코드 중심의 유연한 인터페이스를 통해 에이전트는 복잡한 연산을 조합하고, 문제를 해결하는 과정에서 전략을 반복적으로 수정할 수 있다.