수학자들, AI 추론 능력 측정용 벤치마크 공개
arXiv
2026년 6월 7일 (일)
- •수학자들이 현대 거대언어모델의 추론 능력을 시험하기 위해 100개의 연구 수준 수학 문제를 수집했다.
- •이 데이터셋은 2026년 독일 라이프치히에서 열린 3일간의 워크숍을 통해 49명의 기여자가 제작했다.
- •3단계에 걸친 성능 평가 결과, 미해결 문제는 기존 41개에서 2개까지 감소했다.
49명의 수학자로 구성된 공동 연구팀이 거대언어모델(LLM)의 한계를 시험하기 위해 새로운 연구 수준의 수학 데이터셋을 발표했다. 이번 프로젝트는 2026년 4월 1일부터 5월 15일까지 진행되었으며, 핵심 작업은 독일 라이프치히 소재 막스 플랑크 수학 연구소에서 개최된 '벤치마크(Benchmarks)' 워크숍 기간 중 3일에 걸쳐 수행되었다. 연구진은 AI의 추론 능력을 정확히 측정하기 위해 정답이 명확한 100개의 문제를 직접 엄선했다.
연구팀은 모델 성능을 3단계에 걸쳐 평가했다. 1단계에서는 최신 모델 5종을 대상으로 단일 시도를 진행했으며, 이 과정에서 41개의 문제가 미해결 상태로 남았다. 이어지는 2단계에서는 3종의 모델을 대상으로 모델당 20회씩 평가를 수행하여 미해결 문제를 16개로 줄였다. 최종 3단계에서는 다단계 추론에 최적화된 'heavy-thinking models' 2종을 투입해 3회씩 평가를 진행했고, 결과적으로 단 2문제만이 해결되지 않은 채 남았다. 저자들은 이러한 성과가 현대 LLM의 수학적 추론 능력이 비약적으로 발전했음을 의미한다고 설명했다. 전체 연구 결과는 8페이지의 벤치마크 통계와 100개 문제 전체가 담긴 20페이지 분량의 부록으로 구성되어 있다.