Claude Opus 4.1は、2025年8月にリリースされたAnthropicフラッグシップモデルのアップデート版で、コーディング、推論、エージェントタスクで向上した性能を提供します。SWE-bench Verifiedで74.5%を達成し、複数ファイルのコードリファクタリング、デバッグ精度、細部重視の推論で顕著な改善を示しています。最大64Kトークンの拡張思考に対応し、研究、データ分析、ツール活用型推論ワークフローに最適化されています。
API|ビジョン深い思考Web検索ファイル|商用モデル
AI性能評価
Arena 総合点数
1449
±4集計日 2026-04-23
総合ランク
37位
49,864 投票数
Arena 能力別スコア
日本語能力
1412±2525位
複雑な質問
1480±527位
専門知識
1482±1229位
指示遂行
1459±617位
会話記憶
1473±724位
創造力
1445±822位
コード作成
1512±721位
数学力
1443±1138位
Arena 職種別スコア
文学·創作
1444±625位
生活·社会
1471±731位
エンタメ
1433±726位
経営·金融
1448±736位
医学·保健
1478±1228位
法律·行政
1463±1131位
ソフト開発
1492±530位
数学·統計
1449±1240位
総合
AA Intelligence Index
42%↑4%
LiveBench
61%↑1%
ForecastBench
60%↑1%
推論·数学
AA Math Index
80%↑7%
GPQA Diamond
81%↑0%
HLE
12%↓5%
MMLU-Pro
88%↑6%
AIME 2025
80%↑7%
LB 推論
72%↑13%
LB 数学
73%↑0%
LB データ
49%↓1%
コーディング
AA Coding Index
37%↑2%
LiveCodeBench
65%↑0%
LB コード
75%↑1%
LB エージェント
48%↑5%
TAU2
71%↓2%
TerminalBench
34%↑3%
SciCode
41%↑0%
言語·指示
IFBench
55%↓1%
AA-LCR
66%↑5%
幻覚率 (HHEM)
12%↑2%
事実一貫性 (HHEM)
88%↓2%
LB 言語
73%↑1%
LB 指示
42%↓4%
出力速度
標準モード
34tok/s↓48
出力開始 1.33s
推論モード
45tok/s↓43
出力開始 9.10s