この記事の要点は？

Microsoftがハイブリッドインターフェースを横断するコンピューター操作エージェント評価用ベンチマーク「WeaveBench」を導入した。本ベンチマークは、実際のUbuntuデスクトップ環境にて8つの実業務ドメイン、計114タスクを用いてモデルを評価する。最先端モデルのパスレートは41.2%に留まり、従来の結果のみを判定する評価法がエージェント性能を過大評価していると指摘した。

Microsoftがコンピューター操作エージェント用「WeaveBench」を公開

HuggingFace

2026年6月14日 (日)

•Microsoftがハイブリッドインターフェースを横断するコンピューター操作エージェント評価用ベンチマーク「WeaveBench」を導入した。
•本ベンチマークは、実際のUbuntuデスクトップ環境にて8つの実業務ドメイン、計114タスクを用いてモデルを評価する。
•最先端モデルのパスレートは41.2%に留まり、従来の結果のみを判定する評価法がエージェント性能を過大評価していると指摘した。

•Microsoftがハイブリッドインターフェースを横断するコンピューター操作エージェント評価用ベンチマーク「WeaveBench」を導入した。
•本ベンチマークは、実際のUbuntuデスクトップ環境にて8つの実業務ドメイン、計114タスクを用いてモデルを評価する。
•最先端モデルのパスレートは41.2%に留まり、従来の結果のみを判定する評価法がエージェント性能を過大評価していると指摘した。

Microsoftの研究チームは2026年6月8日、コンピューター操作エージェント（CUA：人間の操作を模倣してPCを動かすAIシステム）の性能を測るための新たな長期間評価用ベンチマーク「WeaveBench」を発表した。既存のベンチマークが単一のインターフェースに限定して試験を行うのに対し、WeaveBenchは視覚的なデスクトップ操作、コマンドライン実行、コード編集といった複数の操作を単一のタスク内で統合的に行う能力を要求する。データセットは8つの実社会における作業領域から抽出された114のタスクで構成され、すべて実際のUbuntuデスクトップ環境およびデプロイ済みのCLIエージェントランタイム上で実施される。また、包括的な相互作用を実現するために最小限のデスクトップ制御プラグインが追加されている。

主要モデルとランタイムの組み合わせによる検証では、最高スコアでもパスレートが41.2%に留まるという結果が示された。本研究は、最終結果のみを評価する従来手法がAIの能力を過大評価しているという重大な欠陥を明らかにした。これに対処するため、チームはプロセス全体を精査する「軌跡認識型判定ツール（Trajectory-aware judge）」を導入した。このツールは、成果物だけでなくファイルやスクリーンショット、ログ、行動記録などの全工程を検査し、視覚的な証拠の捏造やハードコードされた指標への依存といった不適切なショートカット行動を排除する。WeaveBenchは、モデルの現在の性能と実社会の複雑なワークフローが求める要求との乖離を浮き彫りにし、GUIとCLI操作をシームレスに統合する能力を測定するための試験台として機能する。

原文(英語)を読む·2026年6月14日

#weavebench #computer use agents #benchmark #gui cli #long horizon

Microsoftがコンピューター操作エージェント用「WeaveBench」を公開

HuggingFace

2026年6月14日 (日)

•Microsoftがハイブリッドインターフェースを横断するコンピューター操作エージェント評価用ベンチマーク「WeaveBench」を導入した。
•本ベンチマークは、実際のUbuntuデスクトップ環境にて8つの実業務ドメイン、計114タスクを用いてモデルを評価する。
•最先端モデルのパスレートは41.2%に留まり、従来の結果のみを判定する評価法がエージェント性能を過大評価していると指摘した。

•Microsoftがハイブリッドインターフェースを横断するコンピューター操作エージェント評価用ベンチマーク「WeaveBench」を導入した。
•本ベンチマークは、実際のUbuntuデスクトップ環境にて8つの実業務ドメイン、計114タスクを用いてモデルを評価する。
•最先端モデルのパスレートは41.2%に留まり、従来の結果のみを判定する評価法がエージェント性能を過大評価していると指摘した。

原文(英語)を読む·2026年6月14日

#weavebench #computer use agents #benchmark #gui cli #long horizon