わたしたちの信念

AIME 2025

このベンチマークについて

2025年のAIMEに基づくベンチマーク。高校レベルをはるかに超える数学的推論を要求します。スコアは正答率(%)です。

出典: Artificial Analysis

順位	モデル
#1	Google Gemini 3 Flash	97.0%
#2	LG AI Research K-EXAONE	92.8%
#3	DeepSeek DeepSeek V3.2	92.0%
#4	Anthropic Claude Opus 4.5	91.3%
#5	Grok Grok 4.1 Fast (Reasoning)	89.3%
#6	Anthropic Claude Sonnet 4.5	88.0%
#7	Google Gemini 2.5 Pro	87.7%
#8	Baidu ERNIE 5.0 Thinking	85.0%
#9	Anthropic Claude Haiku 4.5	83.7%
#10	Anthropic Claude Opus 4.1	80.3%
#11	OpenAI GPT-5 Nano	78.3%
#12	Anthropic Claude Sonnet 4	74.3%
#13	Anthropic Claude Opus 4	73.3%
#14	Google Gemini 2.5 Flash	73.3%
#15	OpenAI GPT OSS 120B	66.7%
#16	OpenAI GPT-5	48.3%
#17	Google Gemini 2.5 Flash Lite	46.7%
#18	OpenAI GPT-5 Mini	46.7%
#19	Baidu ERNIE 4.5 300B A47B	41.3%
#20	OpenAI GPT-4.1	34.7%
#21	Grok Grok 4.1 Fast	34.3%
#22	Amazon Nova 2 Lite	33.7%
#23	Meta Llama 4 Maverick	19.3%
#24	Meta Llama 4 Scout	14.0%