시각 인식과 물리적 추론 결합하는 MMFormalizer 개발
- •MMFormalizer는 시각적 요소로부터 물리적 제약 조건을 추론하여 복잡한 물리 도메인의 정형화된 추론 기술을 통합한다.
- •역학, 상대성 이론, 양자 물리학을 아우르는 새로운 벤치마크인 PhyX-AF를 통해 모델의 물리적 추론 능력을 정밀하게 평가한다.
- •GPT-5와 제미나이-3-프로 등 선도 모델이 물리적 추론에서 앞서고 있으나 기하학적 난제는 여전히 해결해야 할 과제로 나타났다.
MMFormalizer는 텍스트만으로는 파악하기 어려운 시각적 요소의 숨겨진 제약 조건을 유추하여 물리적 세계를 자동 정형화하는 고도의 기술적 과제를 해결한다. 이 프로젝트의 수석 연구자이자 논문 제출자인 징 숑(Jing Xiong)과 연구팀은 기초적인 원형으로부터 정형화된 명제를 재귀적으로 구축하는 독창적인 프레임워크를 개발했다. 이러한 과정은 모든 추상화가 시각적 증거에 의해 뒷받침되고 공리적 근거에 고정되도록 보장하여 수학 및 물리적 맥락에서 정밀한 기계 추론을 가능하게 한다. 특히 멀티모달 기술은 텍스트와 이미지 등 다양한 형식의 정보를 통합 처리하는 능력을 말하며, 추론은 논리적 단계를 거쳐 복잡한 결론에 도달하는 인공지능의 핵심 역량을 의미한다.
연구팀은 고전 역학, 상대성 이론, 양자 역학 등 다양한 물리 분야를 아우르는 115개의 정교한 샘플로 구성된 PhyX-AF 벤치마크를 새롭게 도입했다. 이에 따라 진행된 최신 언어 모델 평가 결과에 따르면, GPT-5는 복잡한 물리적 추론에서 탁월한 성능을 보였으나 기하학 관련 문제는 현재 AI 시스템이 극복해야 할 주요 장벽으로 확인되었다. 한편 이번 연구는 해밀토니안 역학에서 파생된 고급 물리학 법칙을 다룰 수 있는 최초의 멀티모달 자동 정형화 방법을 제시했다는 점에서 학계의 주목을 받고 있다. 실제로 이는 가공되지 않은 원시적 지각 데이터와 기계 검증이 가능한 정형 논리 사이의 간극을 효과적으로 메우는 성과로 평가받는다.
또한 MMFormalizer는 물리 법칙을 기계가 이해할 수 있는 정밀한 언어로 변환하는 과정에서 인간의 직관적 해석을 배제하고 데이터 중심의 논리 체계를 구축했다. 다만 이러한 기술적 진보에도 불구하고 복잡한 시각 정보를 손실 없이 논리적 수식으로 완벽히 치환하는 것은 향후 연구에서 보완해야 할 지점으로 꼽힌다. 결과적으로 이번 연구는 AI가 단순한 시각 정보 습득을 넘어 물리적 세계의 근본 법칙을 심층적으로 이해하고 이를 정형화된 논리 구조 안에서 연산할 수 있는 중요한 토대를 마련했다.