이 기사의 핵심 내용은?

Soohak 벤치마크는 64명의 수학자로 구성된 연구진이 설계한 439개의 연구 수준 수학 문제를 포함한다. 모델별 챌린지 서브셋 성능은 Gemini-3-Pro 30.4%, GPT-5 26.4%, Claude-Opus-4.5 10.4% 순으로 집계되었다. 데이터셋에는 모델이 잘못 제기된 문제를 식별하는지 측정하기 위한 거부 서브셋이 포함되어 있다.

Soohak: LLM을 위한 연구 수준의 수학 벤치마크

•Soohak 벤치마크는 64명의 수학자로 구성된 연구진이 설계한 439개의 연구 수준 수학 문제를 포함한다.
•모델별 챌린지 서브셋 성능은 Gemini-3-Pro 30.4%, GPT-5 26.4%, Claude-Opus-4.5 10.4% 순으로 집계되었다.
•데이터셋에는 모델이 잘못 제기된 문제를 식별하는지 측정하기 위한 거부 서브셋이 포함되어 있다.

손귀진(Guijin Son)이 이끄는 연구진이 64명의 수학자가 엄선한 439개의 문제를 담은 수학 벤치마크 Soohak을 발표했다. 기존의 올림피아드 형식 벤치마크가 최신 AI 시스템들에 의해 정복되면서, 연구 수준의 수학적 역량을 평가하기 위한 새로운 지표로 설계되었다. 해당 벤치마크는 문제 해결을 시험하는 챌린지 서브셋과, 유효한 해답이 없거나 조건이 부족한 '잘못 제기된 문제'를 식별하는 능력을 평가하는 거부 서브셋으로 나뉜다.

챌린지 서브셋 결과에 따르면, 최상위 모델들조차 상당한 개선이 필요한 것으로 나타났다. Gemini-3-Pro가 30.4%로 가장 높은 점수를 기록했고, 이어 GPT-5가 26.4%, Claude-Opus-4.5가 10.4%를 기록했다. Qwen3-235B, GPT-OSS-120B, Kimi-2.5를 포함한 오픈 웨이트 모델들은 15% 미만의 성적을 보였다. 거부 서브셋에서는 어떤 모델도 50%를 넘지 못해 잘못 제기된 문제를 정확히 식별하는 데 큰 어려움을 겪고 있음이 드러났다. 연구진은 이번 결과가 향후 모델 개발의 새로운 최적화 목표를 제시한다고 강조했다. 한편 벤치마크 오염을 방지하기 위해 전체 데이터셋은 2026년 말에 공개될 예정이며, 그전까지는 연구진을 통해 평가를 요청할 수 있다.

손귀진(Guijin Son)이 이끄는 연구진이 64명의 수학자가 엄선한 439개의 문제를 담은 수학 벤치마크 Soohak을 발표했다. 기존의 올림피아드 형식 벤치마크가 최신 AI 시스템들에 의해 정복되면서, 연구 수준의 수학적 역량을 평가하기 위한 새로운 지표로 설계되었다. 해당 벤치마크는 문제 해결을 시험하는 챌린지 서브셋과, 유효한 해답이 없거나 조건이 부족한 '잘못 제기된 문제'를 식별하는 능력을 평가하는 거부 서브셋으로 나뉜다.

챌린지 서브셋 결과에 따르면, 최상위 모델들조차 상당한 개선이 필요한 것으로 나타났다. Gemini-3-Pro가 30.4%로 가장 높은 점수를 기록했고, 이어 GPT-5가 26.4%, Claude-Opus-4.5가 10.4%를 기록했다. Qwen3-235B, GPT-OSS-120B, Kimi-2.5를 포함한 오픈 웨이트 모델들은 15% 미만의 성적을 보였다. 거부 서브셋에서는 어떤 모델도 50%를 넘지 못해 잘못 제기된 문제를 정확히 식별하는 데 큰 어려움을 겪고 있음이 드러났다. 연구진은 이번 결과가 향후 모델 개발의 새로운 최적화 목표를 제시한다고 강조했다. 한편 벤치마크 오염을 방지하기 위해 전체 데이터셋은 2026년 말에 공개될 예정이며, 그전까지는 연구진을 통해 평가를 요청할 수 있다.