Grok
Grok

Grok 4.20 (Reasoning)

2026-03-31

Grok 4.20(Reasoning)は、xAIのGrok 4.20の推論有効化構成で、回答提示前に拡張された内部思考プロセスを通じて問題を解きます。モデルのネイティブマルチエージェントアーキテクチャとエージェント間相互検証と組み合わさり、深い論理、数学的推論、複雑な多段階問題解決が求められるタスクでGrokラインナップ最高の精度を達成します。同じ200万トークンのコンテキストウィンドウ、厳格なプロンプト遵守、同クラス最低水準のハルシネーション率に対応しています。

Grok SuperGrok HeavyAPI|ビジョン深い思考Web検索ファイル|商用モデル
学習完了日
非公開
入力形式 → 出力形式
処理容量
2MIN2MOUT
単価(100万文字)
$2IN$6OUT
費用を計算する

AI性能評価

Arena 総合点数
1482
±6
集計日 2026-04-23
総合ランク
8位
14,620 投票数
Arena 能力別スコア
日本語能力
1449±5610位
複雑な質問
1495±714位
専門知識
1469±1839位
指示遂行
1455±921位
会話記憶
1491±1310位
創造力
1467±138位
コード作成
1513±1020位
数学力
1457±1825位
Arena 職種別スコア
文学·創作
1458±1112位
生活·社会
1487±1213位
エンタメ
1457±129位
経営·金融
1472±1213位
医学·保健
1517±194位
法律·行政
1502±186位
ソフト開発
1511±813位
数学·統計
1459±2230位
総合
AA Intelligence Index
49%↑11%
LiveBench
69%↑9%
推論·数学
GPQA Diamond
91%↑10%
HLE
32%↑15%
LB 推論
75%↑16%
LB 数学
87%↑14%
LB データ
63%↑13%
コーディング
AA Coding Index
41%↑6%
LB コード
66%↓8%
LB エージェント
43%↑0%
TAU2
93%↑20%
TerminalBench
38%↑7%
SciCode
46%↑5%
言語·指示
IFBench
81%↑24%
AA-LCR
58%↓4%
LB 言語
78%↑6%
LB 指示
63%↑17%
出力速度
標準モード
113tok/s↑31
出力開始 0.42s
推論モード
110tok/s↑22
出力開始 27.83s