Grok
Grok

Grok 4.20

2026-03-09

Grok 4.20は、2026年2月にリリースされたxAIの最新フラッグシップモデルで、特化した4つのAIエージェントが複雑な質問に同時に協力するネイティブマルチエージェントアーキテクチャを導入しました。西洋のフロンティアモデルの中で最大の200万トークンコンテキストウィンドウを維持し、エージェント間の相互検証によりハルシネーション率を65%削減しました。実際の使用データに基づいて毎週性能を更新し、毎秒232トークン、最初のトークン応答時間0.54秒の高速な直接回答を提供します。

Grok SuperGrok HeavyAPI|商用モデル
学習完了日
非公開
入力形式 → 出力形式
処理容量
2MIN2MOUT
単価(100万文字)
$2IN$6OUT
費用を計算する

AI性能評価

Arena 総合点数
1482
±6
集計日 2026-04-23
総合ランク
8位
14,620 投票数
Arena 能力別スコア
日本語能力
1449±5610位
複雑な質問
1495±714位
専門知識
1469±1839位
指示遂行
1455±921位
会話記憶
1491±1310位
創造力
1467±138位
コード作成
1513±1020位
数学力
1457±1825位
Arena 職種別スコア
文学·創作
1458±1112位
生活·社会
1487±1213位
エンタメ
1457±129位
経営·金融
1472±1213位
医学·保健
1517±194位
法律·行政
1502±186位
ソフト開発
1511±813位
数学·統計
1459±2230位
総合
AA Intelligence Index
29%↓9%
LiveBench
38%↓22%
ForecastBench
62%↑3%
推論·数学
GPQA Diamond
78%↓3%
HLE
24%↑7%
LB 推論
26%↓34%
LB 数学
46%↓28%
LB データ
43%↓6%
コーディング
AA Coding Index
22%↓12%
LB コード
59%↓15%
LB エージェント
38%↓5%
TAU2
60%↓13%
TerminalBench
17%↓14%
SciCode
33%↓8%
言語·指示
IFBench
49%↓7%
AA-LCR
17%↓44%
LB 言語
42%↓30%
LB 指示
24%↓22%
出力速度
標準モード
107tok/s↑25
出力開始 0.43s
推論モード
248tok/s↑160
出力開始 11.74s