Arena 멀티턴 Elo

Name: Arena 멀티턴 Elo
Creator: aib vote
License: https://www.gnu.org/licenses/gpl-3.0.html

이 벤치마크는?

여러 차례 대화가 이어지는 멀티턴 프롬프트에서의 사용자 선호도 기반 Arena Elo 점수입니다.

순위	모델
#1	Anthropic Claude Opus 4.7	1527
#2	Anthropic Claude Opus 4.6	1514
#3	Meta Muse Spark	1505
#4	Google Gemini 3.1 Pro	1505
#5	OpenAI GPT-5.4	1497
#6	OpenAI GPT-5.4 Pro	1497
#7	Grok Grok 4.20	1491
#8	Grok Grok 4.20 (Reasoning)	1491
#9	Anthropic Claude Opus 4.5	1487
#10	Google Gemini 3 Flash	1483
#11	Anthropic Claude Sonnet 4.6	1483
#12	DeepSeek DeepSeek V4 Pro	1479
#13	Z.ai GLM-5.1	1474
#14	OpenAI GPT-5.4 Mini	1473
#15	Anthropic Claude Opus 4.1	1473
#16	Anthropic Claude Sonnet 4.5	1469
#17	Z.ai GLM-5	1467
#18	Xiaomi MiMo-V2-Pro	1467
#19	Google Gemma 4 31B	1461
#20	Moonshot AI Kimi K2.6	1459
#21	Moonshot AI Kimi K2.5	1451
#22	Google Gemini 2.5 Pro	1451
#23	Alibaba Qwen3.5 397B A17B	1450
#24	Google Gemini 3.1 Flash Lite	1447
#25	Baidu ERNIE 5.0 Thinking	1444
#26	DeepSeek DeepSeek V4 Flash	1440
#27	Anthropic Claude Opus 4	1437
#28	Alibaba Qwen3.6 Plus	1434
#29	DeepSeek DeepSeek V3.2	1427
#30	Anthropic Claude Haiku 4.5	1422
#31	OpenAI GPT-5	1420
#32	Anthropic Claude Sonnet 4	1420
#33	Grok Grok 4.1 Fast	1416
#34	Grok Grok 4.1 Fast (Reasoning)	1416
#35	Meituan Longcat Flash Chat	1416
#36	OpenAI GPT-5.4 Nano	1414
#37	MiniMax MiniMax M2.5	1408
#38	MiniMax MiniMax M2.7	1406
#39	Google Gemini 2.5 Flash	1404
#40	Google Gemini 2.5 Flash Lite	1374
#41	Arcee AI Trinity Large Thinking	1372
#42	OpenAI GPT-5 Mini	1372
#43	NVIDIA Nemotron 3 Super	1349
#44	OpenAI GPT OSS 120B	1328
#45	Meta Llama 4 Maverick	1324
#46	Amazon Nova 2 Lite	1324
#47	OpenAI GPT-5 Nano	1323
#48	Meta Llama 4 Scout	1320
#49	OpenAI GPT-4.1	1298