Holi-Spatial, 일반 영상으로 3D 공간 지능 구현
- •Holi-Spatial이 원본 영상에서 대규모 3D 공간 데이터를 자동으로 추출하는 최초의 완전 자동화 파이프라인을 공개했다.
- •새로운 Holi-Spatial-4M 데이터셋은 1만 2,000개의 최적화된 3D 장면과 120만 개의 공간 추론 쌍을 포함한다.
- •데이터로 미세 조정된 시각 언어 모델은 기하학적 및 관계형 추론 작업에서 눈에 띄는 성능 향상을 보였다.
AI가 세상의 물리적 배치를 이해하는 능력인 '공간 지능'을 확보하려는 시도는 그동안 고품질 3D 데이터의 부족으로 인해 큰 제약을 받아왔다. 기존에는 이러한 데이터셋을 구축하기 위해 정교한 수동 주석 작업이 필요했거나 소규모의 가상 환경에만 국한되는 한계가 있었다. Holi-Spatial은 일반 비디오 스트림을 복잡한 3차원 디지털 환경으로 변환하는 완전 자동화된 파이프라인을 도입하며 이러한 판도를 바꾸고 있다.
이 시스템은 3D 장면을 학습 가능한 '스플랫(splats)' 또는 점들의 집합으로 표현하는 기술인 3D Gaussian Splatting을 활용하여 놀라운 기하학적 정밀도로 장면을 재구성한다. 이는 단순히 시각적인 복원에 그치지 않고, 파이프라인을 통해 깊이 지도와 객체 단위의 라벨, 그리고 관계형 데이터를 자동으로 생성한다. 덕분에 AI 모델은 단순히 사물이 무엇인지 파악하는 것을 넘어 물리적 공간 내에서 각 사물이 서로 어떤 관계를 맺고 배치되어 있는지까지 학습할 수 있게 되었다.
연구진은 1만 2,000개의 최적화된 장면과 100만 개 이상의 공간 추론 쌍이 담긴 대규모 데이터셋인 Holi-Spatial-4M을 대중에게 공개했다. 실제로 시각 언어 모델을 이 데이터로 학습시킨 결과, 물리적 주변 환경에 관한 복잡한 질문에 답하는 능력이 비약적으로 향상된 것으로 나타났다. 이러한 성과는 향후 AI가 온라인에 존재하는 방대한 영상 콘텐츠를 단순히 '시청'하는 것만으로도 현실 세계를 탐색하고 이해하는 법을 배울 수 있는 미래를 시사한다.