この記事の要点は？

国際数学オリンピック級の3万問超を含む「MathNet」が公開 47カ国・17言語を網羅し、英語偏重の学習バイアスを抑制 GPT-5が視覚数学問題や英語以外の言語での推論に苦戦する実態が明らかに

新データセットMathNet、AI数学推論の限界を露呈

•国際数学オリンピック級の3万問超を含む「MathNet」が公開
•47カ国・17言語を網羅し、英語偏重の学習バイアスを抑制
•GPT-5が視覚数学問題や英語以外の言語での推論に苦戦する実態が明らかに

人工知能の発展にはある種のパラドックスが存在する。モデルは標準テストで高得点を記録する一方で、創造的で未知の課題に取り組むために必要な深い推論能力を欠いていることが多い。マサチューセッツ工科大学(MIT)のコンピュータ科学人工知能研究所(CSAIL)は、この溝を埋めるべく新たなデータセット「MathNet」を立ち上げた。

MathNetは、世界47カ国の国際数学オリンピックの過去問から抽出された、3万問以上の質の高い証明問題で構成されている。既存のデータセットの多くはオンラインフォーラムからの収集が中心だが、本データセットは専門家が作成した複数の回答アプローチを含む公式冊子に基づいている。この情報の密度が、複雑な論理を学ぶための豊かなシグナルとして機能する。

特に注目すべきは、非英語圏の言語や図解を伴う問題が統合されている点だ。これは、特定の文化圏に偏ったモデル理解ではなく、普遍的な数学的概念を構築するために不可欠である。英語圏のデータのみで学習する業界の現状に対し、地理的・言語的な多様性を突きつける意欲的な試みといえる。

初期の評価結果は、現代の生成AIが直面する厳しい現実を浮き彫りにした。GPT-5でさえも完璧なスコアには程遠く、提供された問題の約3分の1で失点したのである。特に図表を含む問題に対する弱さが際立っており、テキスト処理能力と視覚的推論能力の乖離が明白となった。

また、モンゴル語などの言語で記述された問題に対しては、多くのオープンソースモデルが全く歯が立たないという結果も出ている。今後は単純な正解率を超え、表記や言語が異なっても同一の数学的構造を見抜く「検索拡張生成 (RAG)」的な能力も重視されるだろう。世界中の数学的伝統に触れることが、より堅牢で適応力の高い推論システムへの鍵となる。

人工知能の発展にはある種のパラドックスが存在する。モデルは標準テストで高得点を記録する一方で、創造的で未知の課題に取り組むために必要な深い推論能力を欠いていることが多い。マサチューセッツ工科大学(MIT)のコンピュータ科学人工知能研究所(CSAIL)は、この溝を埋めるべく新たなデータセット「MathNet」を立ち上げた。

MathNetは、世界47カ国の国際数学オリンピックの過去問から抽出された、3万問以上の質の高い証明問題で構成されている。既存のデータセットの多くはオンラインフォーラムからの収集が中心だが、本データセットは専門家が作成した複数の回答アプローチを含む公式冊子に基づいている。この情報の密度が、複雑な論理を学ぶための豊かなシグナルとして機能する。

特に注目すべきは、非英語圏の言語や図解を伴う問題が統合されている点だ。これは、特定の文化圏に偏ったモデル理解ではなく、普遍的な数学的概念を構築するために不可欠である。英語圏のデータのみで学習する業界の現状に対し、地理的・言語的な多様性を突きつける意欲的な試みといえる。

初期の評価結果は、現代の生成AIが直面する厳しい現実を浮き彫りにした。GPT-5でさえも完璧なスコアには程遠く、提供された問題の約3分の1で失点したのである。特に図表を含む問題に対する弱さが際立っており、テキスト処理能力と視覚的推論能力の乖離が明白となった。

また、モンゴル語などの言語で記述された問題に対しては、多くのオープンソースモデルが全く歯が立たないという結果も出ている。今後は単純な正解率を超え、表記や言語が異なっても同一の数学的構造を見抜く「検索拡張生成 (RAG)」的な能力も重視されるだろう。世界中の数学的伝統に触れることが、より堅牢で適応力の高い推論システムへの鍵となる。