CompACT: 시각 데이터를 8개 토큰으로 압축하는 기술
HuggingFace
2026년 3월 10일 (화)
- •CompACT 토크나이저가 관측 데이터 인코딩을 수백 개에서 단 8개의 이산 토큰으로 줄였다.
- •이 새로운 방식은 실시간 로봇 제어를 위해 수십 배 더 빠른 계획 수립을 가능하게 한다.
- •효율적인 월드 모델은 필수적인 성능을 유지하면서도 연산 자원 요구량을 획기적으로 절감한다.
월드 모델은 AI가 현재 행동을 바탕으로 미래 결과를 예측할 수 있게 돕는 내부 시뮬레이터 역할을 하며, 복잡한 환경을 탐색하는 로봇에게 필수적인 기능이다. 그러나 기존 모델은 시각적 관측 데이터를 수백 개의 개별 토큰으로 변환하는 무거운 데이터 표현 방식 때문에 속도가 저하되는 문제가 있었다. 이러한 데이터 비대화는 긴 시퀀스를 처리하는 데 막대한 연산력이 필요하게 만들며, 결과적으로 긴박한 상황에서의 실시간 의사결정을 거의 불가능하게 한다.
이러한 병목 현상을 해결하기 위해 연구진은 시각 데이터를 놀라울 정도로 슬림한 8개 토큰 형식으로 압축하도록 설계된 이산 토크나이저인 CompACT를 도입했다. 상태를 표현하는 데 필요한 토큰 수를 대폭 줄임으로써 시스템은 미래 시나리오를 훨씬 더 빠르게 사고할 수 있게 되었다. 특히 로봇이 밀도 높은 프레임을 처리하기 위해 원격 서버의 응답을 기다리는 대신 수 밀리초 내에 변화에 반응해야 하는 실시간 제어 애플리케이션에서 이러한 효율성은 매우 중요하다.
이 기술적 돌파구의 핵심은 내비게이션에 영향을 주지 않는 불필요한 시각적 노이즈를 제거하면서도 필수적인 환경 정보를 보존하는 데 있다. 실제로 CompACT를 사용한 월드 모델은 테스트 결과 수십 배 빠른 속도로 경쟁력 있는 계획 성능을 달성했다. 이는 정교한 AI를 자율주행 드론이나 이동형 산업용 로봇과 같이 처리 능력이 제한된 하드웨어에 배포하여 온디바이스 환경에서도 고차원적인 추론을 가능하게 하는 실질적인 도약이다.