研究エージェントの誤り検出を強化する新フレームワーク
HuggingFace
2026年6月5日 (金)
- •研究者らが、深層研究エージェントの推論プロセスを監査するためのスパン単位の誤り特定フレームワークを開発した。
- •新しいベンチマーク「TELBench」は、エージェントの操作ログ内の誤りを評価するために1,000件の事例を提供する。
- •DRIFT監査フレームワークは、実験において最初の誤りを特定する精度を30パーセントポイント向上させた。
NJU-LINK Labの研究チームは、検索、ツール利用、証拠の統合といった長期間のタスクを実行する深層研究エージェントの推論プロセスにおいて、具体的なエラー箇所を特定する新しいフレームワークを開発した。従来の評価手法はエージェントの成否を最終回答のみで判断してきたが、本研究ではスパン単位の誤り特定に焦点を当て、信頼性の低い結果を招く操作軌跡の正確なセグメントを指摘する。チームは2つのエージェントフレームワーク、3つのバックボーンモデル、3つのベンチマークから得られた2,790件の実際のログデータを収集した。生ログを意味的なセグメントに変換し、大規模言語モデルを活用した専門家レビューを行うことで有害な誤りスパンを注釈付けし、1,000件の事例を含む誤り特定用ベンチマーク「TELBench」を構築した。
この信頼性の課題に対処するため、研究者らは「DRIFT」という請求中心の監査システムを提案した。DRIFTはエージェントの主張を監視し、プロセス中に収集された証拠セグメントと照合することで、根拠のない主張や矛盾する主張が回答経路から逸脱する箇所を浮き彫りにする。実験の結果、DRIFTは様々なモデル群において、スパン単位の誤り特定と最初の誤りの特定精度を最大30パーセントポイント向上させた。このアプローチはエージェントがどのように動作するかのプロセスレベルの視点を提供し、無害なノイズ、検索の失敗、根本的な論理エラーを区別する。どの主張がどの証拠に依存しているかを切り分けることで、開発者はエージェントが最終的で誤った結論を出す前に、どこでなぜ失敗したかを理解するための構造化されたログを得ることができる。