この記事の要点は？

Q: この記事の要点は？

Soohakは64名の数学者が作成した439問の研究レベルの数学問題を収録する。 チャレンジ問題ではGemini-3-Proが30.4%、GPT-5が26.4%、Claude-Opus-4.5が10.4%を記録した。 同データセットには、問題の不備を正しく認識できるか測定するための拒否サブセットが含まれる。

Soohakは64名の数学者が作成した439問の研究レベルの数学問題を収録する。チャレンジ問題ではGemini-3-Proが30.4%、GPT-5が26.4%、Claude-Opus-4.5が10.4%を記録した。同データセットには、問題の不備を正しく認識できるか測定するための拒否サブセットが含まれる。

Soohak：LLM向け高度数学ベンチマーク発表

•Soohakは64名の数学者が作成した439問の研究レベルの数学問題を収録する。
•チャレンジ問題ではGemini-3-Proが30.4%、GPT-5が26.4%、Claude-Opus-4.5が10.4%を記録した。
•同データセットには、問題の不備を正しく認識できるか測定するための拒否サブセットが含まれる。

ソン・ギジン(Guijin Son)率いる研究チームは、64名の数学者が精選した439問からなる数学ベンチマーク「Soohak」を発表した。現在のAIシステムが数学オリンピック級の問題を次々と解く現状を受け、より高度な研究レベルの数学能力を評価するための新たな指標として設計された。このベンチマークは、標準的な数学課題を問う「チャレンジサブセット」と、解のない問題や制約不足の問題（不適切に設定された問題）を識別する能力を測る「拒否サブセット」の二部構成となっている。

チャレンジサブセットの評価では、トップモデル間でも改善の余地が大きいことが示された。首位はGemini-3-Proの30.4%で、GPT-5が26.4%、Claude-Opus-4.5が10.4%と続く。Qwen3-235BやGPT-OSS-120B、Kimi-2.5などのオープンウェイトモデルは、いずれも15%を下回る結果となった。拒否サブセットについては、不適切に設定された問題を適切に識別・一時停止できたモデルは存在せず、どのモデルも正答率50%を超えなかった。研究チームは、これらの結果が次世代モデル開発における新たな最適化目標になると強調している。データ汚染を防ぎベンチマークの整合性を維持するため、データセットの完全公開は2026年後半を予定しているが、評価依頼は暫定的に著者らを通じて受け付けている。

ソン・ギジン(Guijin Son)率いる研究チームは、64名の数学者が精選した439問からなる数学ベンチマーク「Soohak」を発表した。現在のAIシステムが数学オリンピック級の問題を次々と解く現状を受け、より高度な研究レベルの数学能力を評価するための新たな指標として設計された。このベンチマークは、標準的な数学課題を問う「チャレンジサブセット」と、解のない問題や制約不足の問題（不適切に設定された問題）を識別する能力を測る「拒否サブセット」の二部構成となっている。

チャレンジサブセットの評価では、トップモデル間でも改善の余地が大きいことが示された。首位はGemini-3-Proの30.4%で、GPT-5が26.4%、Claude-Opus-4.5が10.4%と続く。Qwen3-235BやGPT-OSS-120B、Kimi-2.5などのオープンウェイトモデルは、いずれも15%を下回る結果となった。拒否サブセットについては、不適切に設定された問題を適切に識別・一時停止できたモデルは存在せず、どのモデルも正答率50%を超えなかった。研究チームは、これらの結果が次世代モデル開発における新たな最適化目標になると強調している。データ汚染を防ぎベンチマークの整合性を維持するため、データセットの完全公開は2026年後半を予定しているが、評価依頼は暫定的に著者らを通じて受け付けている。