TTT 기술로 3D 복원 속도와 효율성 모두 잡았다
- •tttLRM은 테스트 시점 학습(TTT) 레이어를 도입하여 3D 복원 연산 복잡도를 선형적으로 유지하는 데 성공했다.
- •여러 이미지 관측 데이터를 '빠른 가중치(fast weights)'로 압축함으로써 효율적인 자기회귀 모델링을 구현했다.
- •스트리밍되는 장면 데이터로부터 실시간으로 고품질 3D Gaussian Splats를 생성하며 탁월한 성능을 입증했다.
첸 왕(Chen Wang) 연구팀이 이미지로부터 3D 물체와 장면을 복원하는 방식을 근본적으로 바꿀 혁신적인 모델인 tttLRM을 공개했다. 기존의 3D 복원 방식은 시각 데이터 시퀀스가 길어질수록 자원 요구량이 기하급수적으로 늘어나는 한계가 있었으나, 이 새로운 아키텍처는 테스트 시점 학습(Test-Time Training, TTT) 레이어를 활용해 연산 복잡도를 선형적으로 유지한다. 이에 따라 더 많은 이미지가 시퀀스에 추가되어도 효율성이 유지되며, 결과적으로 공간 컴퓨팅과 대규모 장면 생성 분야의 주요 병목 현상을 해결했다.
핵심 혁신은 시스템이 정보를 처리하는 방식에 있다. tttLRM은 정적 메모리에 의존하는 대신, 이미지 관측 데이터를 TTT 레이어 내의 '빠른 가중치(fast weights)'로 변환한다. 이를 통해 잠재 공간 내에 암묵적인 3D 표현을 생성하고, 이를 다시 Gaussian Splats와 같은 고품질 형식으로 정밀하게 디코딩한다. 특히 이 과정에서 이전에 확인한 데이터를 바탕으로 다음 데이터를 예측하는 자기회귀(Autoregressive) 방식을 사용하여 3D 세계를 단계별로 정교하게 구축해 나간다.
또한 tttLRM은 온라인 학습을 지원하여 실시간 활용도를 극대화했다. 이 기능 덕분에 카메라 영상을 스트리밍하는 동안 모델이 장면을 실시간으로 분석하고 이해하는 점진적 3D 복원이 가능해졌다. 실제로 새로운 시점 합성을 위한 사전 학습이 명시적 3D 모델링으로 효과적으로 전이된다는 점이 실험을 통해 증명되었으며, 이는 더 빠른 수렴과 세밀한 디테일 구현으로 이어졌다. 이번 연구는 로봇 공학 및 가상 현실을 위한 실시간 디지털 트윈 제작에 있어 중요한 이정표가 될 전망이다.