この記事の要点は？

Artificial Analysisは、実際のコーディングエージェントの挙動を用いてハードウェア性能を測定するベンチマーク「AA-AgentPerf」を発表した。新指標「Agents per Megawatt（メガワットあたりのエージェント数）」により、システムがメガワット単位の電力消費でどれだけの同時エージェントを維持できるかを評価する。初期テストにおいて、NVIDIAのBlackwellアーキテクチャがHopperアーキテクチャに対し、エージェントの同時実行能力と電力効率で大幅な優位性を示した。

Artificial AnalysisがAA-AgentPerfを公開

•Artificial Analysisは、実際のコーディングエージェントの挙動を用いてハードウェア性能を測定するベンチマーク「AA-AgentPerf」を発表した。
•新指標「Agents per Megawatt（メガワットあたりのエージェント数）」により、システムがメガワット単位の電力消費でどれだけの同時エージェントを維持できるかを評価する。
•初期テストにおいて、NVIDIAのBlackwellアーキテクチャがHopperアーキテクチャに対し、エージェントの同時実行能力と電力効率で大幅な優位性を示した。

•Artificial Analysisは、実際のコーディングエージェントの挙動を用いてハードウェア性能を測定するベンチマーク「AA-AgentPerf」を発表した。
•新指標「Agents per Megawatt（メガワットあたりのエージェント数）」により、システムがメガワット単位の電力消費でどれだけの同時エージェントを維持できるかを評価する。
•初期テストにおいて、NVIDIAのBlackwellアーキテクチャがHopperアーキテクチャに対し、エージェントの同時実行能力と電力効率で大幅な優位性を示した。

Artificial Analysisは2026年6月12日、エージェント型ワークロードに特化した初の推論ベンチマーク「AA-AgentPerf」を公開した。静的なベンチマークとは異なり、最大200ターン、10万トークンのコンテキストを含む実際のコーディングエージェントの軌跡を再現し、特定のサービスレベル目標（SLO）を維持しながらサポート可能な同時エージェントの最大数を算出する。主要指標である「Agents per Megawatt」は、消費電力あたりの同時実行エージェント数を示し、電力制約下での効率性を重視している。

このベンチマークは、KVキャッシュの再利用や投機的デコーディング、プリフィル/デコード分離といった実際のプロダクション環境の最適化技術を考慮している。これにより、理論上の合成限界ではなく、実環境での運用性能を測定する。性能目標は市場の要求に基づいてティア分けされ、例えばDeepSeek V4 Proにおいて毎秒20〜180トークンの出力速度や初回トークンまでのレイテンシ維持などが求められる。初期テストでは、NVIDIAのBlackwellシステムがHopperアーキテクチャに対し世代間の大きな飛躍を見せたほか、ラック規模の展開が単一ノード構成よりも計算能力と電力効率の両面で優れていることが示された。

ベンチマーク対策の最適化を防ぐため、テストデータセットは非公開とし、ベンダーは設定を提出して検証を受ける方式をとる。初期結果にはNVIDIAおよびAMDのハードウェアでDeepSeek V4 Proを動かしたデータが含まれており、今後はgpt-oss-120bやその他のアーキテクチャにも対応する予定だ。AA-AgentPerfはライブベンチマークとしてソフトウェアやハードウェアの進化に合わせて更新される。今後は最大100万トークンまでのコンテキスト長への対応や、モデル範囲の拡大、総所有コストの詳細分析なども追加される見込みだ。

Artificial Analysisは2026年6月12日、エージェント型ワークロードに特化した初の推論ベンチマーク「AA-AgentPerf」を公開した。静的なベンチマークとは異なり、最大200ターン、10万トークンのコンテキストを含む実際のコーディングエージェントの軌跡を再現し、特定のサービスレベル目標（SLO）を維持しながらサポート可能な同時エージェントの最大数を算出する。主要指標である「Agents per Megawatt」は、消費電力あたりの同時実行エージェント数を示し、電力制約下での効率性を重視している。

このベンチマークは、KVキャッシュの再利用や投機的デコーディング、プリフィル/デコード分離といった実際のプロダクション環境の最適化技術を考慮している。これにより、理論上の合成限界ではなく、実環境での運用性能を測定する。性能目標は市場の要求に基づいてティア分けされ、例えばDeepSeek V4 Proにおいて毎秒20〜180トークンの出力速度や初回トークンまでのレイテンシ維持などが求められる。初期テストでは、NVIDIAのBlackwellシステムがHopperアーキテクチャに対し世代間の大きな飛躍を見せたほか、ラック規模の展開が単一ノード構成よりも計算能力と電力効率の両面で優れていることが示された。

ベンチマーク対策の最適化を防ぐため、テストデータセットは非公開とし、ベンダーは設定を提出して検証を受ける方式をとる。初期結果にはNVIDIAおよびAMDのハードウェアでDeepSeek V4 Proを動かしたデータが含まれており、今後はgpt-oss-120bやその他のアーキテクチャにも対応する予定だ。AA-AgentPerfはライブベンチマークとしてソフトウェアやハードウェアの進化に合わせて更新される。今後は最大100万トークンまでのコンテキスト長への対応や、モデル範囲の拡大、総所有コストの詳細分析なども追加される見込みだ。