この記事の要点は？

AA-Briefcaseベンチマークは、複数週にわたる長期的な知識労働プロジェクトにおけるAIモデルの効率を測定する。 GPT-5.5 (xhigh)のタスク完了時間は11分で、Claude Opus 4.8の23分と比較して大幅に高速である。 GLM-5.2はEloスコア1261を記録し、オープンウェイツモデルの中で最高性能を誇る。

AA-Briefcaseベンチマーク、AIの業務効率を分析

•AA-Briefcaseベンチマークは、複数週にわたる長期的な知識労働プロジェクトにおけるAIモデルの効率を測定する。
•GPT-5.5 (xhigh)のタスク完了時間は11分で、Claude Opus 4.8の23分と比較して大幅に高速である。
•GLM-5.2はEloスコア1261を記録し、オープンウェイツモデルの中で最高性能を誇る。

Artificial Analysisは2026年6月24日、財務モデリングやプレゼンテーション作成などの長期的かつ現実的な知識労働プロジェクトにおいてAIモデルを評価する「AA-Briefcase」ベンチマークを公開した。指標の中心となるのは、評価用のトークン使用量、出力速度、ツール実行時間を統合した「タスクあたりの平均時間」である。評価全体を通してClaude Opus 4.8は高スコアを獲得したが、タスクあたり約23分を要した。

一方、GPT-5.5 (xhigh)は11分でタスクを完了し、より高い効率性を示した。なお、同モデルはAA-BriefcaseのEloランキングでトップ5にランクインしている。GLM-5.2はパレート境界上に位置し、Eloスコア1261、タスク完了時間16.3分を達成した。これはMiniMax-M3のスコア1113を上回り、現時点で最速のオープンウェイツモデルである。

販売終了したClaude Fable 5の過去データでは、1秒あたり約91トークンの出力速度と1タスクあたり139,000トークンの出力に基づき、タスクあたり28.5分を要したと推測される。本調査によると、ツール実行が全所要時間に占める割合は約12%と比較的少なく、大半の時間は出力の冗長性、ターン数、純粋な推論速度によって決まる。

Artificial Analysisは2026年6月24日、財務モデリングやプレゼンテーション作成などの長期的かつ現実的な知識労働プロジェクトにおいてAIモデルを評価する「AA-Briefcase」ベンチマークを公開した。指標の中心となるのは、評価用のトークン使用量、出力速度、ツール実行時間を統合した「タスクあたりの平均時間」である。評価全体を通してClaude Opus 4.8は高スコアを獲得したが、タスクあたり約23分を要した。

一方、GPT-5.5 (xhigh)は11分でタスクを完了し、より高い効率性を示した。なお、同モデルはAA-BriefcaseのEloランキングでトップ5にランクインしている。GLM-5.2はパレート境界上に位置し、Eloスコア1261、タスク完了時間16.3分を達成した。これはMiniMax-M3のスコア1113を上回り、現時点で最速のオープンウェイツモデルである。

販売終了したClaude Fable 5の過去データでは、1秒あたり約91トークンの出力速度と1タスクあたり139,000トークンの出力に基づき、タスクあたり28.5分を要したと推測される。本調査によると、ツール実行が全所要時間に占める割合は約12%と比較的少なく、大半の時間は出力の冗長性、ターン数、純粋な推論速度によって決まる。