LiveBench 코딩

Name: LiveBench 코딩
Creator: aib vote
License: https://www.gnu.org/licenses/gpl-3.0.html

이 벤치마크는?

LiveBench 코딩 카테고리 점수 (0~100). 알고리즘 구현, 버그 수정, 코드 이해 등을 평가합니다.

순위	모델
#1	OpenAI GPT-5.5	82.5
#2	Google Gemini 3 Flash	78.6
#3	Moonshot AI Kimi K2.6	78.6
#4	Anthropic Claude Opus 4.5	78.2
#5	Anthropic Claude Opus 4.6	78.2
#6	Alibaba Qwen3.6 Plus	78.2
#7	Moonshot AI Kimi K2.5	77.9
#8	OpenAI GPT-5.4	77.5
#9	Anthropic Claude Sonnet 4	77.5
#10	Anthropic Claude Opus 4.7	76.5
#11	Google Gemini 3.1 Pro	76.5
#12	Anthropic Claude Sonnet 4.5	76.1
#13	OpenAI GPT-5 Mini	76.1
#14	DeepSeek DeepSeek V3.2	75.7
#15	Google Gemini 2.5 Pro	75.7
#16	Z.ai GLM-5.1	75.4
#17	OpenAI GPT-5.4 Mini	74.7
#18	Anthropic Claude Opus 4.1	74.7
#19	Anthropic Claude Sonnet 4.6	74.3
#20	Z.ai GLM-5	73.6
#21	Anthropic Claude Haiku 4.5	72.2
#22	OpenAI GPT-5	72.1
#23	MiniMax MiniMax M2.5	70.7
#24	Grok Grok 4.1 Fast (Reasoning)	69.6
#25	Xiaomi MiMo-V2-Pro	68.8
#26	Google Gemini 3.1 Flash Lite	68.5
#27	OpenAI GPT-5 Nano	67.4
#28	Google Gemini 2.5 Flash Lite	66.4
#29	Grok Grok 4.20 (Reasoning)	66.1
#30	Google Gemini 2.5 Flash	66.0
#31	Arcee AI Trinity Large Thinking	65.7
#32	OpenAI GPT-5.4 Nano	61.9
#33	Google Gemma 4 31B	60.3
#34	OpenAI GPT OSS 120B	60.2
#35	Grok Grok 4.20	58.5
#36	MiniMax MiniMax M2.7	54.9
#37	Grok Grok 4.1 Fast	54.3
#38	NVIDIA Nemotron 3 Super	54.1