この記事の要点は？

Arena Teamは、実世界のソフトウェアや分析タスクを実行するAIエージェント向けの因果推論評価リーダーボードを立ち上げた。 GPT 5.5 (High)がランキングで首位に立ち、因果評価において10.66%の純改善を記録した。 160,480件のタスクからなるプラットフォームデータにより、Bashコマンド、ファイル書き込み、ウェブ検索ツールが頻繁に使用されていることが判明した。

Arena Team、AIエージェント向け評価リーダーボードを公開

•Arena Teamは、実世界のソフトウェアや分析タスクを実行するAIエージェント向けの因果推論評価リーダーボードを立ち上げた。
•GPT 5.5 (High)がランキングで首位に立ち、因果評価において10.66%の純改善を記録した。
•160,480件のタスクからなるプラットフォームデータにより、Bashコマンド、ファイル書き込み、ウェブ検索ツールが頻繁に使用されていることが判明した。

•Arena Teamは、実世界のソフトウェアや分析タスクを実行するAIエージェント向けの因果推論評価リーダーボードを立ち上げた。
•GPT 5.5 (High)がランキングで首位に立ち、因果評価において10.66%の純改善を記録した。
•160,480件のタスクからなるプラットフォームデータにより、Bashコマンド、ファイル書き込み、ウェブ検索ツールが頻繁に使用されていることが判明した。

Arena Teamは2026年6月4日、複雑な実務タスクを遂行するAIエージェントを評価する「Agent Arena」リーダーボードを公開した。このリーダーボードは「因果トレース」という手法を採用し、エージェントを多要素システムとして評価する。コンポーネント選択をランダム化する枠組みにより、タスク成功率やフィードバック、ツール使用精度などの指標を通じた「純改善」と呼ばれる因果的治療効果を測定する。現在はツール選択を担う主要LLMであるオーケストレーターモデルに焦点を当てている。

リーダーボードのデータは、直近の7日間で記録された160,480件のAgent Modeタスクに基づいている。タスクの内訳はコード作成が17.5%、調査・検索が10.8%、計画・ブレインストーミングが10.6%を占めた。期間中、プラットフォームは200万件以上の構造化ツール呼び出しを処理し、そのうち約936,000件がBashコマンド、550,000件がファイル書き込み操作だった。分析によると、セッションの75.6%で少なくとも1つ以上のツールが使用され、32%のセッションで最終ターンまでに128kトークン以上の入力コンテキスト長に達した。

ランキングでは、GPT 5.5 (High)が純改善スコア10.66%で総合首位となり、次いでClaude Opus 4.7 (Thinking)が9.47%で続いている。評価指標は、タスク成功の確認、評価対批判の比率、操縦性（エージェントが修正を実行する能力）、Bash回復率、ツール幻覚頻度の5つを集計している。パフォーマンスに加えて、パレート最適性を評価するためのデプロイ後のセッションコストも追跡しており、ステップ当たりのターン頻度やユーザー対話パターンの違いによりコストが変動するモデルが存在することが指摘された。今後は指標の拡充とトレースマイニングの精度向上を目指す。

Arena Teamは2026年6月4日、複雑な実務タスクを遂行するAIエージェントを評価する「Agent Arena」リーダーボードを公開した。このリーダーボードは「因果トレース」という手法を採用し、エージェントを多要素システムとして評価する。コンポーネント選択をランダム化する枠組みにより、タスク成功率やフィードバック、ツール使用精度などの指標を通じた「純改善」と呼ばれる因果的治療効果を測定する。現在はツール選択を担う主要LLMであるオーケストレーターモデルに焦点を当てている。

リーダーボードのデータは、直近の7日間で記録された160,480件のAgent Modeタスクに基づいている。タスクの内訳はコード作成が17.5%、調査・検索が10.8%、計画・ブレインストーミングが10.6%を占めた。期間中、プラットフォームは200万件以上の構造化ツール呼び出しを処理し、そのうち約936,000件がBashコマンド、550,000件がファイル書き込み操作だった。分析によると、セッションの75.6%で少なくとも1つ以上のツールが使用され、32%のセッションで最終ターンまでに128kトークン以上の入力コンテキスト長に達した。

ランキングでは、GPT 5.5 (High)が純改善スコア10.66%で総合首位となり、次いでClaude Opus 4.7 (Thinking)が9.47%で続いている。評価指標は、タスク成功の確認、評価対批判の比率、操縦性（エージェントが修正を実行する能力）、Bash回復率、ツール幻覚頻度の5つを集計している。パフォーマンスに加えて、パレート最適性を評価するためのデプロイ後のセッションコストも追跡しており、ステップ当たりのターン頻度やユーザー対話パターンの違いによりコストが変動するモデルが存在することが指摘された。今後は指標の拡充とトレースマイニングの精度向上を目指す。