LiveBench가 측정한 종합 점수 (0~100). 추론·코딩·수학·데이터 분석·언어·지시 따르기 6개 카테고리 평균입니다. 오염 없는 문제를 정기적으로 갱신해 최신 모델을 공정하게 평가합니다.
OpenAI
GPT-5.5
GPT-5.4
Google
Gemini 3.1 Pro
Anthropic
Claude Opus 4.6
Moonshot AI
Kimi K2.6
GPT-5
Alibaba
Qwen3.6 Plus
Z.ai
GLM-5.1
Claude Sonnet 4.6
Kimi K2.5
Grok
Grok 4.20 (Reasoning)
GLM-5
Claude Opus 4.7
MiniMax
MiniMax M2.7
Gemma 4 31B
Gemini 3.1 Flash Lite
Claude Opus 4.1
GPT-5 Mini
Claude Sonnet 4
MiniMax M2.5
Grok 4.1 Fast (Reasoning)
Xiaomi
MiMo-V2-Pro
Gemini 2.5 Pro
Gemini 3 Flash
Claude Opus 4.5
Claude Sonnet 4.5
DeepSeek
DeepSeek V3.2
GPT-5 Nano
Gemini 2.5 Flash
GPT OSS 120B
Claude Haiku 4.5
Gemini 2.5 Flash Lite
Grok 4.20
GPT-5.4 Mini
NVIDIA
Nemotron 3 Super
Grok 4.1 Fast
Arcee AI
Trinity Large Thinking
GPT-5.4 Nano