GPT-4.1は、2025年4月にリリースされたOpenAIのフラッグシップ言語モデルで、コーディング、指示追従、長文コンテキスト推論に最適化されています。GPT-4oの8倍以上となる100万トークンのコンテキストウィンドウに対応し、SWE-bench Verifiedで54.6%を達成して実際のソフトウェアエンジニアリングタスクで大幅な性能向上を示しました。正確なコード差分生成、エージェントの安定性、大規模ドキュメントからの高い情報検出に優れ、IDE連携ツール、自動コーディングエージェント、企業向け知識検索に適しています。
API|ビジョンWeb検索ファイル|商用モデル
AI性能評価
Arena 総合点数
1312
±4集計日 2026-04-23
総合ランク
207位
100,105 投票数
Arena 能力別スコア
日本語能力
1263±18119位
複雑な質問
1311±6213位
専門知識
1286±12206位
指示遂行
1294±6205位
会話記憶
1298±8206位
創造力
1285±8194位
コード作成
1338±7214位
数学力
1303±8184位
Arena 職種別スコア
文学·創作
1306±6188位
生活·社会
1321±8211位
エンタメ
1290±8182位
経営·金融
1282±9226位
医学·保健
1305±12212位
法律·行政
1317±11215位
ソフト開発
1324±6221位
数学·統計
1308±8186位
総合
AA Intelligence Index
26%↓12%
ForecastBench
59%↑0%
推論·数学
AA Math Index
35%↓39%
GPQA Diamond
67%↓14%
HLE
4.6%↓13%
MMLU-Pro
81%↓1%
AIME 2025
35%↓39%
MATH-500
91%↓2%
コーディング
AA Coding Index
22%↓12%
LiveCodeBench
46%↓20%
TAU2
47%↓26%
TerminalBench
14%↓17%
SciCode
38%↓3%
言語·指示
IFBench
43%↓14%
AA-LCR
61%↓1%
幻覚率 (HHEM)
5.6%↓5%
事実一貫性 (HHEM)
94%↑4%
出力速度
標準モード
103tok/s↑21
出力開始 0.58s