LiveBench Math

Name: LiveBench Math
Creator: AIB
License: https://www.gnu.org/licenses/gpl-3.0.html

About This Benchmark

LiveBench Math category score (0–100). Evaluates competition-level math problems, proofs, and numerical computation.

Rank	Model
#1	OpenAI GPT-5.5	95.9
#2	Upstage Solar Open 2	95.8
#3	Anthropic Claude Fable 5	95.7
#4	OpenAI GPT-5.6 Sol	95.5
#5	Anthropic Claude Opus 4.8	95.3
#6	Anthropic Claude Opus 5	95.2
#7	OpenAI GPT-5.4	94.2
#8	Anthropic Claude Sonnet 5	92.9
#9	Anthropic Claude Opus 4.7	92.8
#10	Google Gemini 3.1 Pro	91.0
#11	OpenAI GPT-5.4 Nano	91.0
#12	xAI Grok 4.5	90.8
#13	DeepSeek DeepSeek V4 Pro	90.7
#14	Anthropic Claude Opus 4.5	90.4
#15	Z.ai GLM 5.2	89.8
#16	OpenAI GPT-5.6 Terra	89.5
#17	Anthropic Claude Opus 4.6	89.3
#18	Google Gemini 3.5 Flash	88.2
#19	Meta Muse Spark 1.1	87.1
#20	xAI Grok 4.20 (Reasoning)	87.1
#21	Anthropic Claude Sonnet 4.6	87.0
#22	Google Gemini 3.6 Flash	86.4
#23	OpenAI GPT-5.6 Luna	86.3
#24	OpenAI GPT-5	86.2
#25	Alibaba Qwen: Qwen3.7 Max	85.3
#26	Z.ai GLM-5.1	84.9
#27	Moonshot AI Kimi K2.5	84.9
#28	Moonshot AI Kimi K3	84.4
#29	xAI Grok 4.3	84.3
#30	Moonshot AI Kimi K2.6	84.3
#31	xAI Grok 4.1 Fast (Reasoning)	83.7
#32	Alibaba Qwen3.6 Plus	83.7
#33	Z.ai GLM-5	83.5
#34	MiniMax MiniMax M2.7	80.5
#35	DeepSeek DeepSeek V4 Flash	79.7
#36	Moonshot AI Kimi K2.7 Code	79.6
#37	Alibaba Qwen3.6 Flash	78.9
#38	OpenAI GPT-5.4 Mini	78.5
#39	xAI Grok Build 0.1	78.4
#40	MiniMax MiniMax M2.5	77.4
#41	Xiaomi MiMo V2 Pro	77.0
#42	MiniMax MiniMax M3	77.0
#43	OpenAI GPT-5 Mini	74.4
#44	Google Gemma 4 31B	73.9
#45	Google Gemini 3.5 Flash-Lite	73.7
#46	Google Gemini 3.1 Flash Lite	73.6
#47	Anthropic Claude Opus 4.1	73.2
#48	Anthropic Claude Sonnet 4	70.5
#49	Z.ai GLM 5V Turbo	70.4
#50	OpenAI GPT OSS 120B	68.9
#51	Google Gemini 2.5 Flash	68.8
#52	Google Gemini 2.5 Pro	68.3
#53	Google Gemini 3 Flash	68.1
#54	OpenAI GPT-5 Nano	64.7
#55	DeepSeek DeepSeek V3.2	64.0
#56	Anthropic Claude Sonnet 4.5	62.6
#57	Google Gemini 2.5 Flash Lite	61.0
#58	Anthropic Claude Haiku 4.5	58.0
#59	NVIDIA Nemotron 3 Ultra	54.5
#60	xAI Grok 4.20	45.5
#61	Arcee AI Trinity Large Thinking	44.9
#62	xAI Grok 4.1 Fast	38.9
#63	NVIDIA Nemotron 3 Super	36.4