이 기사의 핵심 내용은?

역대 최대 규모의 올림피아드 수준 수학 데이터셋 'MathNet' 공개, 3만 개 이상의 전문가 검증 문제 포함 47개국 17개 언어로 구성되어 영어 중심의 훈련 편향 해소 기대 GPT-5를 비롯한 주요 모델들이 시각적 수학 문제와 비영어권 추론에서 여전히 취약함을 입증

새로운 수학 데이터셋 'MathNet', AI 추론 능력의 한계 시험하다

•역대 최대 규모의 올림피아드 수준 수학 데이터셋 'MathNet' 공개, 3만 개 이상의 전문가 검증 문제 포함
•47개국 17개 언어로 구성되어 영어 중심의 훈련 편향 해소 기대
•GPT-5를 비롯한 주요 모델들이 시각적 수학 문제와 비영어권 추론에서 여전히 취약함을 입증

인공지능 발전 과정에는 하나의 역설이 존재한다. 모델들이 표준화된 시험을 통과하는 능력은 비약적으로 향상되었으나, 정작 창의적이고 새로운 문제를 해결하는 깊이 있는 추론 능력은 부족한 경우가 많기 때문이다. 이러한 격차를 줄이기 위해 MIT의 컴퓨터과학·인공지능 연구소(CSAIL)는 최근 'MathNet'을 발표했다. 연구진은 47개국의 국제수학올림피아드(IMO) 자료를 바탕으로 3만 개 이상의 고품질 증명 문제를 엄선하여 AI 지능을 평가할 새로운 기준을 마련했다.

기존의 데이터셋들이 주로 커뮤니티 기반의 비형식적 포럼에 의존했던 것과 달리, MathNet은 공식 국가별 대회 문제집을 기반으로 구축되었다. 이 자료에는 전문가들이 작성한 다각적인 풀이 과정이 포함되어 있어, 모델이 복잡한 논리 구조를 학습할 수 있는 풍부한 데이터를 제공한다. 무엇보다 영어 중심의 훈련 데이터에서 벗어나 다양한 언어와 이미지를 결합한 문제들을 도입했다는 점이 핵심이다. 이는 AI가 문화적 특수성을 넘어 보편적인 수학적 개념을 습득하는 데 필수적인 요소다.

데이터셋을 활용한 초기 평가 결과는 현재 생성형 AI 기술의 현주소를 날카롭게 지적한다. GPT-5와 같은 최상위 모델들조차 전체 문제 중 약 3분의 1을 해결하지 못하며 완벽한 점수를 달성하지 못했다. 특히 텍스트 기반 문제에는 강점을 보인 모델들이 도표나 그림이 포함된 시각적 문제에서 급격히 무너지는 현상이 뚜렷하게 나타났다. 또한 영어 외 언어인 몽골어 등으로 작성된 문제에서는 많은 오픈소스 모델들이 해결에 완전히 실패하는 등 영어 편향성의 한계가 드러났다.

이번 프로젝트는 단순한 정확도 측정을 넘어 정교한 정보 검색 벤치마크를 도입했다. 서로 다른 표기법이나 언어를 사용하더라도 동일한 수학적 구조를 가진 문제를 모델이 식별해낼 수 있는지 확인하는 것이다. 이는 단순한 패턴 매칭을 넘어 진정한 의미의 이해로 나아가는 중요한 단계다. 연구진은 루마니아의 조합론부터 브라질의 정수론에 이르기까지 전 세계 수학 전통을 AI에 노출하는 것이 더 강력하고 유연한 추론 시스템을 만드는 핵심 과정이라고 강조한다.

연구팀은 이 귀중한 자원을 대중에게 공개함으로써, 단순한 계산을 넘어 글로벌 수준의 사고가 가능한 모델 개발을 장려하고자 한다. 더 나아가 이 데이터셋이 전 세계 AI 연구자들에게 표준화된 기준점이 되어, 보다 논리적이고 유연한 사고 체계를 갖춘 인공지능이 탄생하기를 기대하고 있다.

인공지능 발전 과정에는 하나의 역설이 존재한다. 모델들이 표준화된 시험을 통과하는 능력은 비약적으로 향상되었으나, 정작 창의적이고 새로운 문제를 해결하는 깊이 있는 추론 능력은 부족한 경우가 많기 때문이다. 이러한 격차를 줄이기 위해 MIT의 컴퓨터과학·인공지능 연구소(CSAIL)는 최근 'MathNet'을 발표했다. 연구진은 47개국의 국제수학올림피아드(IMO) 자료를 바탕으로 3만 개 이상의 고품질 증명 문제를 엄선하여 AI 지능을 평가할 새로운 기준을 마련했다.

기존의 데이터셋들이 주로 커뮤니티 기반의 비형식적 포럼에 의존했던 것과 달리, MathNet은 공식 국가별 대회 문제집을 기반으로 구축되었다. 이 자료에는 전문가들이 작성한 다각적인 풀이 과정이 포함되어 있어, 모델이 복잡한 논리 구조를 학습할 수 있는 풍부한 데이터를 제공한다. 무엇보다 영어 중심의 훈련 데이터에서 벗어나 다양한 언어와 이미지를 결합한 문제들을 도입했다는 점이 핵심이다. 이는 AI가 문화적 특수성을 넘어 보편적인 수학적 개념을 습득하는 데 필수적인 요소다.

데이터셋을 활용한 초기 평가 결과는 현재 생성형 AI 기술의 현주소를 날카롭게 지적한다. GPT-5와 같은 최상위 모델들조차 전체 문제 중 약 3분의 1을 해결하지 못하며 완벽한 점수를 달성하지 못했다. 특히 텍스트 기반 문제에는 강점을 보인 모델들이 도표나 그림이 포함된 시각적 문제에서 급격히 무너지는 현상이 뚜렷하게 나타났다. 또한 영어 외 언어인 몽골어 등으로 작성된 문제에서는 많은 오픈소스 모델들이 해결에 완전히 실패하는 등 영어 편향성의 한계가 드러났다.

이번 프로젝트는 단순한 정확도 측정을 넘어 정교한 정보 검색 벤치마크를 도입했다. 서로 다른 표기법이나 언어를 사용하더라도 동일한 수학적 구조를 가진 문제를 모델이 식별해낼 수 있는지 확인하는 것이다. 이는 단순한 패턴 매칭을 넘어 진정한 의미의 이해로 나아가는 중요한 단계다. 연구진은 루마니아의 조합론부터 브라질의 정수론에 이르기까지 전 세계 수학 전통을 AI에 노출하는 것이 더 강력하고 유연한 추론 시스템을 만드는 핵심 과정이라고 강조한다.

연구팀은 이 귀중한 자원을 대중에게 공개함으로써, 단순한 계산을 넘어 글로벌 수준의 사고가 가능한 모델 개발을 장려하고자 한다. 더 나아가 이 데이터셋이 전 세계 AI 연구자들에게 표준화된 기준점이 되어, 보다 논리적이고 유연한 사고 체계를 갖춘 인공지능이 탄생하기를 기대하고 있다.