この記事の要点は？

Q: この記事の要点は？

数学者らが現代のLLMの推論能力を検証するため、研究レベルの数学問題100問をまとめた。 このデータセットは2026年にドイツのライプツィヒで開催された3日間のワークショップにて、49名の協力者によって作成された。 3段階の性能評価を経て、未解決だった問題数は初期の41問から最終的に2問まで減少した。

数学者らが現代のLLMの推論能力を検証するため、研究レベルの数学問題100問をまとめた。このデータセットは2026年にドイツのライプツィヒで開催された3日間のワークショップにて、49名の協力者によって作成された。 3段階の性能評価を経て、未解決だった問題数は初期の41問から最終的に2問まで減少した。

数学者グループがAI推論能力の新評価指標を公開

arXiv

2026年6月7日 (日)

•数学者らが現代のLLMの推論能力を検証するため、研究レベルの数学問題100問をまとめた。
•このデータセットは2026年にドイツのライプツィヒで開催された3日間のワークショップにて、49名の協力者によって作成された。
•3段階の性能評価を経て、未解決だった問題数は初期の41問から最終的に2問まで減少した。

•数学者らが現代のLLMの推論能力を検証するため、研究レベルの数学問題100問をまとめた。
•このデータセットは2026年にドイツのライプツィヒで開催された3日間のワークショップにて、49名の協力者によって作成された。
•3段階の性能評価を経て、未解決だった問題数は初期の41問から最終的に2問まで減少した。

49名の数学者グループが、LLMの限界を測定するための新たな研究レベルの数学データセットを公開した。本プロジェクトは2026年4月1日から5月15日にかけて編集され、作業の大部分はドイツのライプツィヒにあるマックス・プランク数学研究所にて開催されたワークショップ「Benchmarks」の3日間で行われた。研究チームはAIの推論能力を測定するため、解答が既知である100問の問題を選定した。

研究では3段階のシーケンスでモデルの性能を評価した。第1段階では5つの最先端モデルによる各1回の試行が行われ、41問が未解決となった。続く第2段階では、3つのモデルを用いて各20回の試行を行い、未解決問題数は16問まで減少した。最終段階では「Heavy-thinking models」と呼ばれる、複雑な多段階推論に最適化されたAIシステム2つを使用し、各3回の試行を経て、未解決問題は最終的に2問となった。著者らは、これらの結果が現代のLLMにおける数学的推論能力の著しい向上を示していると結論付けている。成果物は、ベンチマーク統計をまとめた8ページの報告書と、100問の全文を収録した20ページの付録で構成されている。

原文(英語)を読む·2026年6月1日

#benchmark #mathematics #reasoning #llm #arxiv

数学者グループがAI推論能力の新評価指標を公開

arXiv

2026年6月7日 (日)

•数学者らが現代のLLMの推論能力を検証するため、研究レベルの数学問題100問をまとめた。
•このデータセットは2026年にドイツのライプツィヒで開催された3日間のワークショップにて、49名の協力者によって作成された。
•3段階の性能評価を経て、未解決だった問題数は初期の41問から最終的に2問まで減少した。

•数学者らが現代のLLMの推論能力を検証するため、研究レベルの数学問題100問をまとめた。
•このデータセットは2026年にドイツのライプツィヒで開催された3日間のワークショップにて、49名の協力者によって作成された。
•3段階の性能評価を経て、未解決だった問題数は初期の41問から最終的に2問まで減少した。

原文(英語)を読む·2026年6月1日

#benchmark #mathematics #reasoning #llm #arxiv