FASTER 프레임워크, 로봇 반응 지연 시간 10배 단축
- •FASTER 프레임워크는 Horizon-Aware 샘플링을 통해 Vision-Language-Action(VLA) 반응 지연 시간을 획기적으로 줄였다.
- •기존 Flow-based Models 기반 VLA 모델보다 10배 빠른 즉각적인 반응 시간을 구현하는 데 성공했다.
- •로봇 탁구와 같은 실제 환경의 역동적인 작업에서 초고속 반응 성능을 입증하며 기술적 완성도를 보여주었다.
AI 모델을 물리적 세계에 성공적으로 배치하려면 환경의 변화에 로봇이 즉각적으로 대응할 수 있어야 한다. 현재 시각적 정보와 텍스트 명령을 물리적 움직임으로 변환하는 Vision-Language-Action(VLA) 모델은 매끄러운 움직임 궤적을 만들어내지만, 흔히 심각한 반응 지연 문제를 겪는다. 이는 표준 시스템이 첫 번째 동작을 시작하기에 앞서 전체 이동 시퀀스를 모두 계산할 때까지 대기하기 때문이며, 이러한 병목 현상은 스포츠와 같이 빠른 속도가 요구되는 작업을 인공지능이 수행하는 데 큰 걸림돌이 되었다.
홍콩대학교(University of Hong Kong) 연구진은 이러한 한계를 극복하기 위해 FASTER(Fast Action Sampling for ImmediaTE Reaction) 프레임워크를 제안했다. 연구팀은 모델이 행동 시퀀스를 그룹화하는 기법인 Action Chunking 방식을 근본적으로 재설계하여 'Horizon-Aware 스케줄'을 개발했다. 계획된 움직임 시퀀스의 모든 단계를 동일하게 처리하는 대신 첫 번째 행동에 가중치를 두는 방식이다. 특히 노이즈를 제거하여 데이터를 정제하는 디노이징 과정을 단일 단계로 압축함으로써, 로봇이 기존 모델 대비 10배 더 빠르게 움직임을 시작할 수 있도록 했다.
무엇보다 이러한 속도 향상이 로봇이 이동하는 전체 경로의 품질을 희생시키지 않는다는 점이 핵심이다. 시스템은 AI 처리 장치와 로봇 하드웨어 간의 끊김 없는 스트리밍 연결을 유지하여 일반 소비자급 하드웨어에서도 부드러운 작동을 지원한다. 실제로 FASTER 프레임워크는 실제 시연을 통해 탁구 경기의 불규칙한 변화를 성공적으로 처리해 냈으며, 범용 AI 정책이 현실 세계의 급박한 요구 조건에 마침내 부합할 수 있음을 증명했다.