LiveBench 종합

Name: LiveBench 종합
Creator: aib vote
License: https://www.gnu.org/licenses/gpl-3.0.html

이 벤치마크는?

LiveBench가 측정한 종합 점수 (0~100). 추론·코딩·수학·데이터 분석·언어·지시 따르기 6개 카테고리 평균입니다. 오염 없는 문제를 정기적으로 갱신해 최신 모델을 공정하게 평가합니다.

순위	모델
#1	OpenAI GPT-5.5	81.3
#2	OpenAI GPT-5.4	80.9
#3	Google Gemini 3.1 Pro	80.7
#4	Anthropic Claude Opus 4.6	76.8
#5	Moonshot AI Kimi K2.6	72.4
#6	OpenAI GPT-5	71.3
#7	Alibaba Qwen3.6 Plus	70.8
#8	Z.ai GLM-5.1	70.6
#9	Anthropic Claude Sonnet 4.6	70.2
#10	Moonshot AI Kimi K2.5	69.2
#11	Grok Grok 4.20 (Reasoning)	69.0
#12	Z.ai GLM-5	68.7
#13	Anthropic Claude Opus 4.7	68.4
#14	MiniMax MiniMax M2.7	65.0
#15	Google Gemma 4 31B	62.4
#16	Google Gemini 3.1 Flash Lite	62.1
#17	Anthropic Claude Opus 4.1	61.4
#18	OpenAI GPT-5 Mini	61.0
#19	Anthropic Claude Sonnet 4	60.6
#20	MiniMax MiniMax M2.5	60.3
#21	Grok Grok 4.1 Fast (Reasoning)	60.1
#22	Xiaomi MiMo-V2-Pro	58.4
#23	Google Gemini 2.5 Pro	57.5
#24	Google Gemini 3 Flash	54.4
#25	Anthropic Claude Opus 4.5	53.6
#26	Anthropic Claude Sonnet 4.5	51.3
#27	DeepSeek DeepSeek V3.2	49.8
#28	OpenAI GPT-5 Nano	48.0
#29	Google Gemini 2.5 Flash	46.9
#30	OpenAI GPT OSS 120B	46.4
#31	Anthropic Claude Haiku 4.5	43.0
#32	Google Gemini 2.5 Flash Lite	41.5
#33	Grok Grok 4.20	37.9
#34	OpenAI GPT-5.4 Mini	33.9
#35	NVIDIA Nemotron 3 Super	32.0
#36	Grok Grok 4.1 Fast	31.6
#37	Arcee AI Trinity Large Thinking	30.4
#38	OpenAI GPT-5.4 Nano	29.9