HERMES, 실시간 비디오 AI의 한계를 깨다
HuggingFace
2026년 1월 25일 (일)
- •HERMES 아키텍처는 추가적인 모델 학습 없이도 실시간 스트리밍 비디오를 완벽히 이해한다.
- •응답 시작 속도인 TTFT를 10배 향상시키고 비디오 토큰 사용량은 68%나 절감했다.
- •비디오 길이에 상관없이 일정한 GPU 메모리 점유율을 유지해 시스템 충돌을 방지한다.
최신 멀티모달 대규모 언어 모델 (MLLM) 시스템은 정적인 비디오 파일 분석에는 뛰어나다. 하지만 실시간 라이브 스트림을 처리할 때는 종종 한계를 드러낸다. 높은 정확도를 유지하면서도 연속적인 입력을 감당하기 위한 막대한 메모리 요구량과 지연 시간을 동시에 조절하기가 매우 어렵기 때문이다. HERMES는 모델의 내부 저장소인 KV 캐시를 계층적 메모리 시스템으로 재구성하여 이 병목 현상을 해결했다. 모든 비디오 데이터를 동일하게 취급하는 대신, 신경망의 각 층에 따라 정보를 감각, 작업, 장기 메모리로 분류한다. 이는 얕은 층에서 즉각적인 사건을 포착하고 깊은 층에서 장기적인 의미를 고정하는 인간의 인지 과정을 모방한 결과다. 특히 이 방식은 별도의 학습이 필요 없는 '플러그 앤 플레이' 형태다. 개발자들은 기존 모델을 처음부터 다시 학습시키는 막대한 비용과 시간 없이도 성능을 즉시 강화할 수 있게 됐다. 결과는 놀랍다. 첫 응답 생성 속도인 TTFT가 10배 개선되었으며, 중복된 비디오 토큰을 최대 68%까지 제거해도 높은 정확도를 유지한다. 무엇보다 영상 길이에 관계없이 GPU 메모리 사용량을 일정하게 유지한다는 점이 핵심이다. 덕분에 긴 영상을 처리할 때 빈번하게 발생하는 메모리 오류를 효과적으로 제거했다. 이번 연구는 라이브 스트리밍 환경에서 더 민첩하게 반응하는 AI 어시스턴트 시대를 앞당길 것으로 보인다.