LiveBench 推論

Name: LiveBench 推論
Creator: aib vote
License: https://www.gnu.org/licenses/gpl-3.0.html

このベンチマークについて

LiveBench推論カテゴリスコア（0〜100）。論理パズル、空間推論、因果関係分析などを評価します。

順位	モデル
#1	Anthropic Claude Opus 4.6	88.7
#2	OpenAI GPT-5.4	88.1
#3	OpenAI GPT-5.5	87.7
#4	Google Gemini 3.1 Pro	84.0
#5	OpenAI GPT-5	81.7
#6	Grok Grok 4.1 Fast (Reasoning)	80.2
#7	Moonshot AI Kimi K2.6	79.4
#8	Anthropic Claude Sonnet 4.6	77.4
#9	Moonshot AI Kimi K2.5	76.0
#10	Alibaba Qwen3.6 Plus	75.8
#11	Grok Grok 4.20 (Reasoning)	75.3
#12	Anthropic Claude Opus 4.7	74.8
#13	MiniMax MiniMax M2.7	74.8
#14	Z.ai GLM-5.1	72.5
#15	Anthropic Claude Opus 4.1	72.3
#16	Google Gemini 2.5 Pro	70.8
#17	Xiaomi MiMo-V2-Pro	69.7
#18	Z.ai GLM-5	69.1
#19	Anthropic Claude Sonnet 4	69.0
#20	Google Gemini 3.1 Flash Lite	59.7
#21	Google Gemma 4 31B	59.4
#22	MiniMax MiniMax M2.5	59.3
#23	OpenAI GPT-5 Mini	58.6
#24	Google Gemini 3 Flash	49.2
#25	Anthropic Claude Opus 4.5	47.8
#26	Google Gemini 2.5 Flash	44.6
#27	DeepSeek DeepSeek V3.2	44.3
#28	Google Gemini 2.5 Flash Lite	43.3
#29	Anthropic Claude Sonnet 4.5	42.3
#30	OpenAI GPT OSS 120B	39.2
#31	OpenAI GPT-5 Nano	35.5
#32	NVIDIA Nemotron 3 Super	34.4
#33	Anthropic Claude Haiku 4.5	33.9
#34	Grok Grok 4.20	25.6
#35	Grok Grok 4.1 Fast	23.4
#36	OpenAI GPT-5.4 Mini	21.9
#37	Arcee AI Trinity Large Thinking	20.6
#38	OpenAI GPT-5.4 Nano	17.4