AIモデル比較

わたしたちの信念

Claude Opus 4は、2025年5月にリリースされたAnthropicの画期的なコーディング・エージェントモデルで、複雑な長時間タスクにおける持続的な性能で新たな基準を打ち立てました。SWE-bench（72.5%）とTerminal-bench（43.2%）でトップを記録し、数千ステップにわたるエージェントワークフローを性能低下なく数時間にわたって連続処理できます。ハイブリッドモデルとして即座の応答と深い推論のための拡張思考モードの両方に対応し、並列ツール使用と向上した指示記憶能力を備えています。

提供元

Anthropic

リリース日

2025-05-22

学習完了日

2025-05-01

ライセンス

商用モデル

入出力形式

コンテキスト長

1M / 128K

API入出力 (1M)

$15 / $75

利用方法

API連携

出力速度

34 tok/s

Arena 総合

1424

Intelligence Index

39.0

Coding Index

34.0

Math Index

73.3

LiveBench

—

ForecastBench

60.6

GPQA Diamond

79.6%

HLE

11.7%

MMLU-Pro

87.3%

AIME 2025

73.3%

MATH-500

98.2%

LB 推論

—

LB 数学

—

LB データ分析

—

LiveCodeBench

63.6%

LB コーディング

—

LB エージェンティック

—

TAU2

73.4%

TerminalBench

31.1%

SciCode

39.8%

IFBench

53.7%

AA-LCR

0.3

幻覚率 (HHEM)

12.0%

事実一貫性 (HHEM)

88.0%

LB 言語

—

LB 指示

—

コスト計算 AIモデル詳細ページ

1 / 3

左右にスワイプ

提供元