LiveBench 総合

Name: LiveBench 総合
Creator: aib vote
License: https://www.gnu.org/licenses/gpl-3.0.html

このベンチマークについて

LiveBenchの総合スコア（0〜100）。推論・コーディング・数学・データ分析・言語・指示従いの6カテゴリの平均です。汚染を避けるため問題を定期的に更新します。

順位	モデル
#1	OpenAI GPT-5.5	81.3
#2	OpenAI GPT-5.4	80.9
#3	Google Gemini 3.1 Pro	80.7
#4	Anthropic Claude Opus 4.6	76.8
#5	Moonshot AI Kimi K2.6	72.4
#6	OpenAI GPT-5	71.3
#7	Alibaba Qwen3.6 Plus	70.8
#8	Z.ai GLM-5.1	70.6
#9	Anthropic Claude Sonnet 4.6	70.2
#10	Moonshot AI Kimi K2.5	69.2
#11	Grok Grok 4.20 (Reasoning)	69.0
#12	Z.ai GLM-5	68.7
#13	Anthropic Claude Opus 4.7	68.4
#14	MiniMax MiniMax M2.7	65.0
#15	Google Gemma 4 31B	62.4
#16	Google Gemini 3.1 Flash Lite	62.1
#17	Anthropic Claude Opus 4.1	61.4
#18	OpenAI GPT-5 Mini	61.0
#19	Anthropic Claude Sonnet 4	60.6
#20	MiniMax MiniMax M2.5	60.3
#21	Grok Grok 4.1 Fast (Reasoning)	60.1
#22	Xiaomi MiMo-V2-Pro	58.4
#23	Google Gemini 2.5 Pro	57.5
#24	Google Gemini 3 Flash	54.4
#25	Anthropic Claude Opus 4.5	53.6
#26	Anthropic Claude Sonnet 4.5	51.3
#27	DeepSeek DeepSeek V3.2	49.8
#28	OpenAI GPT-5 Nano	48.0
#29	Google Gemini 2.5 Flash	46.9
#30	OpenAI GPT OSS 120B	46.4
#31	Anthropic Claude Haiku 4.5	43.0
#32	Google Gemini 2.5 Flash Lite	41.5
#33	Grok Grok 4.20	37.9
#34	OpenAI GPT-5.4 Mini	33.9
#35	NVIDIA Nemotron 3 Super	32.0
#36	Grok Grok 4.1 Fast	31.6
#37	Arcee AI Trinity Large Thinking	30.4
#38	OpenAI GPT-5.4 Nano	29.9