이 기사의 핵심 내용은?

Google DeepMind가 2D 영상에서 실시간 4D 장면 재구성 및 지점 추적이 가능한 D4RT를 발표했다. 새로운 쿼리 기반 트랜스포머 아키텍처를 도입해 기존 대비 최대 300배 빠른 속도를 구현했다. 로봇 공학과 공간 컴퓨팅의 필수 요소인 깊이 추정과 카메라 포즈 복원을 동시에 수행한다.

Google DeepMind, 4차원 세상을 보는 AI 'D4RT' 공개

•Google DeepMind가 2D 영상에서 실시간 4D 장면 재구성 및 지점 추적이 가능한 D4RT를 발표했다.
•새로운 쿼리 기반 트랜스포머 아키텍처를 도입해 기존 대비 최대 300배 빠른 속도를 구현했다.
•로봇 공학과 공간 컴퓨팅의 필수 요소인 깊이 추정과 카메라 포즈 복원을 동시에 수행한다.

Google DeepMind가 3차원 공간에 시간의 흐름을 결합해 세상을 4차원으로 인식하는 혁신적인 AI 모델, D4RT를 공개했다. 기존 컴퓨터 비전은 평면적인 2D 영상을 일관성 있게 움직이는 3D 환경으로 변환하는 데 큰 어려움을 겪어왔다. D4RT는 공간 내 픽셀의 궤적을 정밀하게 추적함으로써 이 복잡한 '역문제(inverse problem)'를 해결하는 데 성공했다. 이 모델의 핵심은 유연한 쿼리 메커니즘을 사용하는 통합 인코더-디코더 트랜스포머 아키텍처에 있다. D4RT는 여러 작업을 위해 개별 모듈을 조합하는 대신, "특정 픽셀이 임의의 시간에 3D 공간 어디에 위치하는가?"라는 본질적인 질문을 던진다. 각 쿼리는 독립적이며 병렬로 처리된다. 덕분에 정확도를 유지하면서도 유례없는 효율성을 달성했다. 성능 평가 결과, D4RT는 기존 시스템보다 18배에서 최대 300배 빠른 처리 속도를 기록했다. 단일 칩에서 1분 분량의 영상을 약 5초 만에 처리하는 수준이다. 특히 카메라의 움직임과 물체의 움직임을 성공적으로 분리해내며 공간 컴퓨팅과 로봇 공학을 위한 견고한 토대를 마련했다는 평가다. 이는 물리적 실체를 온전히 이해하는 '세계 모델(world model)' 구축에 한 걸음 다가선 성과로, 범용 인공지능 (AGI)으로 향하는 중요한 이정표가 될 전망이다.