この記事の要点は？

研究チームは、大規模言語モデルエージェントの複数ターンにわたるツール利用を強化するAPPOを発表した。 APPOは、13のベンチマークにおいて強化学習のベースラインを約4ポイント向上させた。この手法は、逐次的な意思決定における最適化のため、細分化された分岐スコアを活用している。

AIエージェントのツール利用を強化する新フレームワークAPPO

HuggingFace

2026年6月16日 (火)

•研究チームは、大規模言語モデルエージェントの複数ターンにわたるツール利用を強化するAPPOを発表した。
•APPOは、13のベンチマークにおいて強化学習のベースラインを約4ポイント向上させた。
•この手法は、逐次的な意思決定における最適化のため、細分化された分岐スコアを活用している。

•研究チームは、大規模言語モデルエージェントの複数ターンにわたるツール利用を強化するAPPOを発表した。
•APPOは、13のベンチマークにおいて強化学習のベースラインを約4ポイント向上させた。
•この手法は、逐次的な意思決定における最適化のため、細分化された分岐スコアを活用している。

研究チームは6月11日、大規模言語モデルエージェントの複数ターンにわたるツール利用能力を強化するための新しい強化学習手法「Agentic Procedural Policy Optimization（APPO）」を発表した。Xucong Wangが率いる執筆陣は、ツール呼び出しの境界といった大まかなヒューリスティックに依存していた従来のクレジット割り当て戦略の限界を打破するために本フレームワークを開発した。意思決定の重要なポイントが生成シーケンス全体に分散していることを特定し、細分化された意思決定ポイントで分岐とクレジット割り当てを行うシステムを構築した。

APPOは、トークンの不確実性と後続トークンの確率的ゲインを統合した「分岐スコア（Branching Score）」を用い、代替シーケンスを作成するタイミングを決定する。このアプローチにより、影響の少ない高エントロピー位置を排除しつつ、対象を絞った探索が可能になる。さらに、手順レベルのアドバンテージスケーリングを採用することで、分岐したロールアウト全体へのクレジット配分を改善した。13のベンチマークテストでは、APPOが一貫して強力な強化学習ベースラインを約4ポイント上回る結果を示した。実装は効率的なツール利用を維持し、エージェントの行動の解釈可能性を確保している。プロジェクトのコードはGitHubのAMAP-MLリポジトリで公開されている。

原文(英語)を読む·2026年6月16日

#appo #reinforcement learning #agentic ai #tool use #credit assignment #branching score

AIエージェントのツール利用を強化する新フレームワークAPPO

HuggingFace

2026年6月16日 (火)

•研究チームは、大規模言語モデルエージェントの複数ターンにわたるツール利用を強化するAPPOを発表した。
•APPOは、13のベンチマークにおいて強化学習のベースラインを約4ポイント向上させた。
•この手法は、逐次的な意思決定における最適化のため、細分化された分岐スコアを活用している。

•研究チームは、大規模言語モデルエージェントの複数ターンにわたるツール利用を強化するAPPOを発表した。
•APPOは、13のベンチマークにおいて強化学習のベースラインを約4ポイント向上させた。
•この手法は、逐次的な意思決定における最適化のため、細分化された分岐スコアを活用している。

原文(英語)を読む·2026年6月16日

#appo #reinforcement learning #agentic ai #tool use #credit assignment #branching score