Claude Sonnet 4は、2025年5月にOpus 4と同時にリリースされたAnthropicのバランスの取れた中位モデルで、強力なコーディング・推論能力と計算効率を両立するよう設計されています。SWE-benchで72.7%の最高水準を達成しながら、Opusモデルと比較して大幅に低いコストと高速な応答時間を提供します。自律的なコードベース探索、エージェント駆動ワークフローでのエラー率低減、複雑な指示追従の高い信頼性が強みで、日常的な開発から複雑なプロジェクトまで幅広いタスクに適しています。
API|ビジョン深い思考Web検索ファイル|商用モデル
AI性能評価
Arena 総合点数
1399
±4集計日 2026-04-23
総合ランク
102位
35,153 投票数
Arena 能力別スコア
日本語能力
1344±2369位
複雑な質問
1430±685位
専門知識
1433±1579位
指示遂行
1414±768位
会話記憶
1420±874位
創造力
1395±964位
コード作成
1472±860位
数学力
1402±1397位
Arena 職種別スコア
文学·創作
1397±777位
生活·社会
1418±897位
エンタメ
1389±876位
経営·金融
1384±8117位
医学·保健
1419±13106位
法律·行政
1410±1396位
ソフト開発
1443±686位
数学·統計
1410±1398位
総合
AA Intelligence Index
39%↑0%
LiveBench
61%↑0%
ForecastBench
59%↑0%
推論·数学
AA Math Index
74%↑1%
GPQA Diamond
78%↓3%
HLE
9.6%↓8%
MMLU-Pro
84%↑2%
AIME 2025
74%↑1%
MATH-500
99%↑6%
LB 推論
69%↑9%
LB 数学
71%↓3%
LB データ
55%↑5%
コーディング
AA Coding Index
34%↑0%
LiveCodeBench
66%↑0%
LB コード
77%↑4%
LB エージェント
40%↓3%
TAU2
65%↓9%
TerminalBench
31%↑0%
SciCode
40%↓1%
言語·指示
IFBench
55%↓2%
AA-LCR
65%↑3%
幻覚率 (HHEM)
10%↑0%
事実一貫性 (HHEM)
90%↑0%
LB 言語
73%↑1%
LB 指示
44%↓2%
出力速度
標準モード
45tok/s↓37
出力開始 0.80s
推論モード
63tok/s↓25
出力開始 9.28s