화면 밖 물체도 추적하는 하이브리드 메모리 모델
- •연구진이 일시적인 가림 현상 중에도 객체의 일관성을 유지하는 하이브리드 메모리(Hybrid Memory) 기술을 도입했다.
- •HyDRA 아키텍처는 토큰화된 메모리와 시공간 검색을 활용해 프레임을 벗어났다 다시 나타나는 피사체를 추적한다.
- •장기적인 동적 피사체 일관성을 평가하기 위해 5만 9,000개의 고화질 영상 클립을 포함한 HM-World 데이터셋이 공개됐다.
비디오 월드 모델은 물리적 현실을 모사하도록 설계되었으나, '대상 영속성'이라는 근본적인 개념을 구현하는 데 자주 어려움을 겪는다. 사람이나 차량이 카메라 시야 밖으로 나갔다가 다시 돌아올 때, 기존의 많은 모델은 이를 기억하지 못하는 한계가 있었다. 그 결과 피사체가 완전히 사라지거나 전혀 다른 존재로 변해 나타나는 '고스팅' 현상이 빈번하게 발생하곤 했다.
이를 해결하기 위해 연구진은 '하이브리드 메모리' 패러다임을 개발했다. 이 방식은 정적인 배경을 기록하는 보관소와 움직이는 대상을 감시하는 추적기의 역할을 동시에 수행하는 이중 시스템처럼 작동한다. 특히 환경을 기억하는 방식과 움직임을 추적하는 방식을 분리함으로써, 피사체가 시야에서 사라진 순간에도 고유의 정체성과 이동 궤적을 유지하도록 보장한다.
이러한 혁신의 핵심은 HyDRA 아키텍처에 있다. 이 구조는 시각 정보를 토큰화된 메모리(Tokenized Memory)라는 데이터 단위로 압축하고, 시공간 검색(Spatiotemporal Retrieval) 메커니즘을 통해 시간과 공간에 따른 운동 단서를 추출한다. 덕분에 모델은 물체가 사라지기 전의 정확한 위치와 외형이 어떠했는지 생생하게 '회상'할 수 있다.
연구팀은 피사체의 이탈과 재진입 사건을 전문적으로 테스트하기 위해 약 6만 개의 클립으로 구성된 대규모 데이터셋인 HM-World를 함께 배포했다. 이 자원은 카메라의 움직임과 피사체의 경로가 분리된 복잡한 장면에서 모델의 성능을 엄격히 평가할 수 있게 해준다. 결과적으로 비디오 생성 기술이 진정한 물리적 리얼리즘을 향해 한 단계 더 나아가는 계기가 될 전망이다.