LiveBench 에이전틱 코딩

Name: LiveBench 에이전틱 코딩
Creator: aib vote
License: https://www.gnu.org/licenses/gpl-3.0.html

이 벤치마크는?

LiveBench 에이전틱 코딩 카테고리 점수 (0~100). 자율 코드 생성·수정·테스트 등 멀티스텝 코딩 능력을 평가합니다.

순위	모델
#1	OpenAI GPT-5.4	70.0
#2	Google Gemini 3.1 Pro	65.0
#3	Anthropic Claude Sonnet 4.6	63.3
#4	Anthropic Claude Opus 4.6	61.7
#5	Anthropic Claude Opus 4.7	60.0
#6	Anthropic Claude Opus 4.8	60.0
#7	Moonshot AI Kimi K2.6	58.3
#8	DeepSeek DeepSeek V4 Pro	56.7
#9	OpenAI GPT-5.5	56.7
#10	Z.ai GLM-5	55.0
#11	Z.ai GLM-5.1	55.0
#12	Alibaba Qwen3.6 Plus	55.0
#13	Google Gemini 3.5 Flash	51.7
#14	OpenAI GPT-5	51.7
#15	MiniMax MiniMax M2.5	51.7
#16	Anthropic Claude Opus 4.5	50.0
#17	DeepSeek DeepSeek V4 Flash	50.0
#18	xAI Grok 4.3	50.0
#19	MiniMax MiniMax M2.7	50.0
#20	Anthropic Claude Opus 4.1	48.3
#21	Anthropic Claude Sonnet 4.5	48.3
#22	Moonshot AI Kimi K2.5	48.3
#23	DeepSeek DeepSeek V3.2	46.7
#24	Alibaba Qwen3.6 Flash	46.7
#25	Google Gemini 3 Flash	43.3
#26	xAI Grok 4.20 (Reasoning)	43.3
#27	Anthropic Claude Sonnet 4	40.0
#28	Google Gemma 4 31B	40.0
#29	xAI Grok 4.20	38.3
#30	OpenAI GPT-5 Mini	35.0
#31	Anthropic Claude Haiku 4.5	33.3
#32	Google Gemini 2.5 Pro	33.3
#33	Google Gemini 3.1 Flash Lite	33.3
#34	xAI Grok 4.1 Fast (Reasoning)	31.7
#35	Xiaomi MiMo V2 Pro	30.0
#36	OpenAI GPT-5 Nano	28.3
#37	OpenAI GPT-5.4 Nano	27.1
#38	NVIDIA Nemotron 3 Super	23.0
#39	OpenAI GPT-5.4 Mini	17.0
#40	Google Gemini 2.5 Flash	16.7
#41	OpenAI GPT OSS 120B	16.7
#42	xAI Grok 4.1 Fast	10.0
#43	Google Gemini 2.5 Flash Lite	5.0
#44	Z.ai GLM 5V Turbo	3.3
#45	Arcee AI Trinity Large Thinking	3.3