LiveBenchの総合スコア(0〜100)。推論・コーディング・数学・データ分析・言語・指示従いの6カテゴリの平均です。汚染を避けるため問題を定期的に更新します。
OpenAI
GPT-5.5
GPT-5.4
Google
Gemini 3.1 Pro
Anthropic
Claude Opus 4.6
Moonshot AI
Kimi K2.6
GPT-5
Alibaba
Qwen3.6 Plus
Z.ai
GLM-5.1
Claude Sonnet 4.6
Kimi K2.5
Grok
Grok 4.20 (Reasoning)
GLM-5
Claude Opus 4.7
MiniMax
MiniMax M2.7
Gemma 4 31B
Gemini 3.1 Flash Lite
Claude Opus 4.1
GPT-5 Mini
Claude Sonnet 4
MiniMax M2.5
Grok 4.1 Fast (Reasoning)
Xiaomi
MiMo-V2-Pro
Gemini 2.5 Pro
Gemini 3 Flash
Claude Opus 4.5
Claude Sonnet 4.5
DeepSeek
DeepSeek V3.2
GPT-5 Nano
Gemini 2.5 Flash
GPT OSS 120B
Claude Haiku 4.5
Gemini 2.5 Flash Lite
Grok 4.20
GPT-5.4 Mini
NVIDIA
Nemotron 3 Super
Grok 4.1 Fast
Arcee AI
Trinity Large Thinking
GPT-5.4 Nano