この記事の要点は？

Q: この記事の要点は？

TMASフレームワークは、マルチエージェント間の協力と構造化された情報フローを通じて、テスト時計算量を拡張する。 階層的メモリが経験とガイドラインのバンクを活用し、結論の再利用と冗長な推論の回避を実現する。 ハイブリッド報酬強化学習スキームにより、スケーリングの安定性と反復推論のパフォーマンスが向上した。

TMASフレームワークは、マルチエージェント間の協力と構造化された情報フローを通じて、テスト時計算量を拡張する。階層的メモリが経験とガイドラインのバンクを活用し、結論の再利用と冗長な推論の回避を実現する。ハイブリッド報酬強化学習スキームにより、スケーリングの安定性と反復推論のパフォーマンスが向上した。

TMAS：マルチエージェント連携で推論計算量を拡張

5月11日、大規模言語モデルのテスト時計算量を拡張するために設計されたマルチエージェントフレームワーク「TMAS」が発表された。本システムは、各エージェントが独立して推論を行う従来の方式から、専門化したエージェントが軌跡や推論の反復プロセス全体で情報を共有する協調型プロセスへ移行する。推論を構造化されたシナジーとして組織化することで、推論タスクにおける探索と活用のバランスを最適化する仕組みである。

情報管理のために、フレームワークは経験バンクとガイドラインバンクから構成される階層的メモリを採用している。経験バンクには信頼性の高い中間結論やローカルフィードバックが保存され、将来の推論で再利用される。一方でガイドラインバンクは高度な戦略を追跡し、冗長な推論パターンの発生を防ぐ役割を担う。このアーキテクチャにより、どの情報を後続の計算ステップで活用すべきか明示的に判断が可能となった。

また、マルチエージェントのプロセスを調整するために、ハイブリッド報酬強化学習スキームも導入された。この学習手法は、基本的な推論能力を維持しつつ、保存された経験の活用効率を高め、新たな解決策の発見を促す効果がある。実験結果によれば、TMASは既存のテスト時スケーリングの基準モデルと比較して、反復的なスケーリングにおいて強力な性能を示し、推論時の安定性も向上している。なお、プロジェクトのコードとデータは5月12日にGitHubを通じて公開された。