AI의 3D 공간 이해력 평가 방식의 근본적 개선
- •ReVSI 프레임워크가 시각-언어 모델의 공간 지능 평가 방식에 존재하는 오류를 해결함
- •포인트 클라우드 기반 3D 평가 데이터셋 내의 체계적인 검증 오류를 식별함
- •프레임 제한과 객체 가시성에 따른 정밀한 진단 분석이 가능한 새로운 프로토콜 도입
인공지능이 물리적 세계와 상호작용하는 과정을 논할 때, 우리는 흔히 AI가 인간처럼 3D 공간을 인식한다고 가정한다. 하지만 최근 연구는 이러한 능력을 측정하는 기존의 평가 도구인 벤치마크 자체가 근본적으로 결함이 있음을 시사한다. 새로운 연구인 ReVSI는 시각-언어 모델(VLM)에 대한 표준 평가 방식이 체계적인 오류를 범하고 있으며, 이로 인해 AI의 공간 기하학 이해도를 과대평가하게 만든다는 점을 밝혀냈다.
문제의 핵심은 이러한 벤치마크가 구축되는 방식에 있다. 기존 테스트의 질문 상당수는 원래 정적 인식 작업을 위해 설계된 3D 주석에서 파생된 경우가 많다. 이러한 주석을 비디오 기반 모델에 적용하면, 눈에 명확히 보이는 객체를 식별하지 못하거나 객체의 크기와 깊이에 대해 논리적으로 어긋난 답변을 내놓는 현상이 빈번하게 발생한다.
또한 모델의 실제 작동 방식과 이를 평가하는 방식 사이에는 간극이 존재한다. 대부분의 VLM은 비디오 프레임 일부만을 분석하여 작동하지만, 기존 벤치마크는 모델이 전체 장면을 파악하고 있다고 가정하는 경우가 많다. 이는 AI가 처리할 수 없는 정보로 테스트를 수행하는 상황을 초래하며, 결과적으로 측정값의 신뢰성을 크게 떨어뜨린다.
이를 해결하기 위해 ReVSI 연구진은 모델이 실제로 입력받은 정보를 바탕으로 모든 질문에 답할 수 있도록 보장하는 엄격한 새 프레임워크를 도입했다. 이들은 5개의 주요 데이터셋에 걸쳐 수백 개의 장면을 재주석하고 인간의 검증 과정을 거쳐, 실제 활용 가능한 신뢰도 높은 '그라운드 트루스'를 구축했다.
이 새로운 접근법을 통해 개발자들은 프레임 제한이나 객체 가시성을 세밀하게 조정하며 모델을 테스트할 수 있게 되었다. 이제는 오류가 포함된 종합 점수에 의존하는 대신, 구체적인 진단 분석을 통해 현대 AI의 공간 추론이 어디서 실패하는지 명확히 파악할 수 있다. 이러한 고충실도 평가로의 전환은 우리가 물리적 세계를 안전하게 탐색하고 상호작용하는 자율 시스템을 구축하기 위해 반드시 거쳐야 할 필수 단계이다.