EnterpriseClawBench:実務環境でエージェントを評価
HuggingFace
2026年6月24日 (水)
- •実務環境の852タスクを活用したエージェント向けベンチマーク「EnterpriseClawBench」が公開された。
- •評価基準には単一のスコアではなく、成果物の納品、運用コスト、スキル移転といった指標が重視されている。
- •CodexとGPT-5.5を組み合わせた最高性能の構成でも、ベンチマークスコアは0.663にとどまった。
ジンチェン・ジョン(Jincheng Zhong)とカイヤン・チャン(Kaiyan Zhang)が率いる研究チームは、現実の職場で記録された852の再現可能なタスクに基づき、エージェンティックAIを評価するベンチマーク「EnterpriseClawBench」を発表した。合成環境に依存する既存のベンチマークとは異なり、このフレームワークは、異種混合ファイルへのアクセス、ツールの呼び出し、ビジネス成果物の生成を行うエージェントの独自ログを活用している。
研究チームは、ハネス・モデルの組み合わせ、成果物の納品成功率、視覚的品質、運用コスト、実行時間、スキル移転挙動など、具体的な指標を評価プロトコルに組み込んだ。機密性の高い職場データが含まれるため、生データの公開は控えられたが、組織が独自のプライベートセッションにプロトコルを適用できるよう構築および評価手法が公開されている。
性能テストでは、CodexとGPT-5.5を組み合わせた構成が0.663のスコアを記録した。研究者らは、企業におけるパフォーマンスは単一の指標には集約できないと強調し、複雑なビジネス環境下での機能を理解するためには、こうした多角的な評価が不可欠であると主張している。