この記事の要点は？

Q: この記事の要点は？

PlanBench-XLは327の小売タスクと1,665のツールを用いてLLMエージェントの計画能力を評価する。 シミュレートされた環境の混乱に直面した際、GPT-5.4の精度は51.90%から11.36%に低下した。 ツール障害時に明確なエラー信号がない場合、エージェントは復旧に苦戦することがベンチマーク分析で確認された。

PlanBench-XLは327の小売タスクと1,665のツールを用いてLLMエージェントの計画能力を評価する。シミュレートされた環境の混乱に直面した際、GPT-5.4の精度は51.90%から11.36%に低下した。ツール障害時に明確なエラー信号がない場合、エージェントは復旧に苦戦することがベンチマーク分析で確認された。

PlanBench-XLで複雑なLLMエージェントの計画能力を評価

HuggingFace

2026年6月24日 (水)

•PlanBench-XLは327の小売タスクと1,665のツールを用いてLLMエージェントの計画能力を評価する。
•シミュレートされた環境の混乱に直面した際、GPT-5.4の精度は51.90%から11.36%に低下した。
•ツール障害時に明確なエラー信号がない場合、エージェントは復旧に苦戦することがベンチマーク分析で確認された。

•PlanBench-XLは327の小売タスクと1,665のツールを用いてLLMエージェントの計画能力を評価する。
•シミュレートされた環境の混乱に直面した際、GPT-5.4の精度は51.90%から11.36%に低下した。
•ツール障害時に明確なエラー信号がない場合、エージェントは復旧に苦戦することがベンチマーク分析で確認された。

イリノイ大学アーバナ・シャンペーン校の研究チームは6月21日、LLMエージェントが大規模かつ複雑なツール環境でどの程度計画的に動作できるかを評価する新しい対話型ベンチマーク「PlanBench-XL」を発表した。このベンチマークは1,665のツールを要する327の小売タスクで構成されており、モデルはツール機能を反復的に検索、呼び出し、連鎖させて最終目標を達成する必要がある。

PlanBench-XLには、実世界特有の不確実性を再現するブロッキング機構が組み込まれている。これは機能停止やツールの欠落、あるいは注意をそらすツールを導入することで、エージェントに経路の混乱を検知させ、実行中に戦略を適応させるよう強制する仕組みである。

主要な10モデルで実験を行った結果、現在のAgentic Planningには大きな脆弱性が存在することが判明した。GPT-5.4はブロッキングのないシナリオでは51.90%の精度を記録したが、深刻な遮断条件下では11.36%まで急落した。分析によると、エージェントはエラー信号が明示されない場合や、障害から復旧するために代替の長いツール利用パスを見つける必要がある場合に特に苦戦する。これらの知見は、ツールの可視性が制限された不完全な大規模エコシステムにおいて、長期間にわたる計画タスクを管理する現在のモデルの能力に重大な欠落があることを浮き彫りにしている。

原文(英語)を読む·2026年6月24日

#llm #agentic ai #benchmark #tool use #planning

PlanBench-XLで複雑なLLMエージェントの計画能力を評価

HuggingFace

2026年6月24日 (水)

•PlanBench-XLは327の小売タスクと1,665のツールを用いてLLMエージェントの計画能力を評価する。
•シミュレートされた環境の混乱に直面した際、GPT-5.4の精度は51.90%から11.36%に低下した。
•ツール障害時に明確なエラー信号がない場合、エージェントは復旧に苦戦することがベンチマーク分析で確認された。

•PlanBench-XLは327の小売タスクと1,665のツールを用いてLLMエージェントの計画能力を評価する。
•シミュレートされた環境の混乱に直面した際、GPT-5.4の精度は51.90%から11.36%に低下した。
•ツール障害時に明確なエラー信号がない場合、エージェントは復旧に苦戦することがベンチマーク分析で確認された。

原文(英語)を読む·2026年6月24日

#llm #agentic ai #benchmark #tool use #planning