LiveBench 데이터 분석

Name: LiveBench 데이터 분석
Creator: aib vote
License: https://www.gnu.org/licenses/gpl-3.0.html

이 벤치마크는?

LiveBench 데이터 분석 카테고리 점수 (0~100). 표·그래프 해석, 통계 추론, 데이터 기반 결론 도출 능력을 평가합니다.

순위	모델
#1	OpenAI GPT-5.5	81.1
#2	OpenAI GPT-5.4	79.3
#3	Google Gemini 3.1 Pro	78.5
#4	Anthropic Claude Opus 4.7	75.6
#5	Anthropic Claude Sonnet 4.6	74.6
#6	Alibaba Qwen3.6 Plus	69.9
#7	Anthropic Claude Opus 4.6	69.9
#8	Z.ai GLM-5	67.9
#9	Moonshot AI Kimi K2.6	65.1
#10	Z.ai GLM-5.1	63.2
#11	Grok Grok 4.20 (Reasoning)	62.9
#12	Moonshot AI Kimi K2.5	61.4
#13	Google Gemma 4 31B	58.8
#14	OpenAI GPT-5	57.0
#15	MiniMax MiniMax M2.7	56.3
#16	Google Gemini 3.1 Flash Lite	54.9
#17	Anthropic Claude Sonnet 4	54.6
#18	Grok Grok 4.1 Fast (Reasoning)	52.2
#19	Google Gemini 2.5 Pro	51.6
#20	OpenAI GPT-5 Mini	49.6
#21	MiniMax MiniMax M2.5	49.6
#22	Xiaomi MiMo-V2-Pro	49.2
#23	Anthropic Claude Opus 4.1	49.0
#24	Google Gemini 3 Flash	48.3
#25	OpenAI GPT-5.4 Mini	47.4
#26	Google Gemini 2.5 Flash	47.3
#27	Google Gemini 2.5 Flash Lite	47.0
#28	Anthropic Claude Sonnet 4.5	47.0
#29	Anthropic Claude Haiku 4.5	45.1
#30	DeepSeek DeepSeek V3.2	45.0
#31	OpenAI GPT-5 Nano	44.3
#32	Anthropic Claude Opus 4.5	44.2
#33	Grok Grok 4.20	43.5
#34	Grok Grok 4.1 Fast	40.6
#35	Arcee AI Trinity Large Thinking	40.3
#36	OpenAI GPT-5.4 Nano	39.1
#37	OpenAI GPT OSS 120B	38.8
#38	NVIDIA Nemotron 3 Super	21.2