이 기사의 핵심 내용은?

새로운 토큰 워핑 기법으로 다중 모달 AI가 시점 변화를 안정적으로 시각화 픽셀 단위 왜곡 대신 내부 토큰을 조작해 기하학적 오류 극복 새로운 벤치마크 ViewBench를 통해 공간 이해도 및 의미적 일관성 입증

토큰 워핑, 다중 모달 AI의 공간 추론 능력 혁신

•새로운 토큰 워핑 기법으로 다중 모달 AI가 시점 변화를 안정적으로 시각화
•픽셀 단위 왜곡 대신 내부 토큰을 조작해 기하학적 오류 극복
•새로운 벤치마크 ViewBench를 통해 공간 이해도 및 의미적 일관성 입증

다중 모달 대규모 언어 모델(Multimodal Large Language Model, MLLM)은 이미지 이해 능력을 비약적으로 발전시켰으나, 시점이 바뀌는 상황에서는 여전히 한계를 드러낸다. 카메라가 조금만 움직여도 기존 시스템은 거리 측정 오류나 기하학적 왜곡을 일으키며 공간을 잘못 해석하곤 한다. 이에 한국과학기술원(KAIST) 연구팀은 이러한 공간 인식의 사각지대를 해소하기 위해 '토큰 워핑'이라는 새로운 해결책을 제시했다.

연구팀은 원본 픽셀을 직접 왜곡하는 기존의 복잡한 방식 대신, 모델 내부에서 정보를 처리하는 수학적 단위인 토큰을 직접 조작하는 방식을 택했다. '역방향 토큰 워핑'을 적용하면 모델은 목표 시점의 격자를 정의하고 그에 맞는 데이터를 효율적으로 추출할 수 있다. 이 방식은 픽셀을 강제로 늘리거나 옮기는 것보다 훨씬 안정적이며, 이미지 속 장면의 의미적 일관성을 유지하는 데 탁월하다.

이번 연구의 성과는 공간 추론 능력을 평가하기 위해 설계된 전용 벤치마크인 ViewBench를 통해 입증되었다. 실험 결과, 해당 기법은 기존의 픽셀 단위 처리나 단순한 공간 미세 조정 방식보다 뛰어난 성능을 보였다. 이번 성과는 평면 이미지와 역동적인 공간 인식 사이의 간극을 메우며, AI가 인간처럼 물리적 환경을 정교하게 탐색하고 이해하는 단계에 한 걸음 더 다가서게 했다.

다중 모달 대규모 언어 모델(Multimodal Large Language Model, MLLM)은 이미지 이해 능력을 비약적으로 발전시켰으나, 시점이 바뀌는 상황에서는 여전히 한계를 드러낸다. 카메라가 조금만 움직여도 기존 시스템은 거리 측정 오류나 기하학적 왜곡을 일으키며 공간을 잘못 해석하곤 한다. 이에 한국과학기술원(KAIST) 연구팀은 이러한 공간 인식의 사각지대를 해소하기 위해 '토큰 워핑'이라는 새로운 해결책을 제시했다.

연구팀은 원본 픽셀을 직접 왜곡하는 기존의 복잡한 방식 대신, 모델 내부에서 정보를 처리하는 수학적 단위인 토큰을 직접 조작하는 방식을 택했다. '역방향 토큰 워핑'을 적용하면 모델은 목표 시점의 격자를 정의하고 그에 맞는 데이터를 효율적으로 추출할 수 있다. 이 방식은 픽셀을 강제로 늘리거나 옮기는 것보다 훨씬 안정적이며, 이미지 속 장면의 의미적 일관성을 유지하는 데 탁월하다.

이번 연구의 성과는 공간 추론 능력을 평가하기 위해 설계된 전용 벤치마크인 ViewBench를 통해 입증되었다. 실험 결과, 해당 기법은 기존의 픽셀 단위 처리나 단순한 공간 미세 조정 방식보다 뛰어난 성능을 보였다. 이번 성과는 평면 이미지와 역동적인 공간 인식 사이의 간극을 메우며, AI가 인간처럼 물리적 환경을 정교하게 탐색하고 이해하는 단계에 한 걸음 더 다가서게 했다.