この記事の要点は？

セールスフォースが国際会議ICLR 2026にて、企業向け自律型AIエージェントに関する21本の論文を発表 AIエージェントが会話相手の役割を模倣し、割り当てられた指示を無視する「エコー現象」を解明 GUI操作用システム「CoAct-1」がマルチエージェント連携により、OSWorldベンチマークで60.76%の成功率を達成

セールスフォース、自律型AIエージェントの信頼性を高める新研究を発表

•セールスフォースが国際会議ICLR 2026にて、企業向け自律型AIエージェントに関する21本の論文を発表
•AIエージェントが会話相手の役割を模倣し、割り当てられた指示を無視する「エコー現象」を解明
•GUI操作用システム「CoAct-1」がマルチエージェント連携により、OSWorldベンチマークで60.76%の成功率を達成

•セールスフォースが国際会議ICLR 2026にて、企業向け自律型AIエージェントに関する21本の論文を発表
•AIエージェントが会話相手の役割を模倣し、割り当てられた指示を無視する「エコー現象」を解明
•GUI操作用システム「CoAct-1」がマルチエージェント連携により、OSWorldベンチマークで60.76%の成功率を達成

国際会議ICLR 2026（学習表現に関する国際会議）において、セールスフォースAIリサーチは、企業向け人工知能の発展を目的とした広範な研究成果を公表した。今回提示された21本の論文は、単なるチャットボット機能を超え、自律型システムにおける信頼性という困難な工学的課題に焦点を当てている。これは、AIが「何を出力できるか」という段階から、制御不能なデジタル環境下で「いかに予測可能な挙動をとるか」へと評価の軸がシフトしていることを示唆している。

とりわけ注目されるのは、「ECHOING」と題された研究であり、マルチエージェント環境におけるアイデンティティの安定性を検証している。大規模言語モデル(LLM)を用いたAIエージェントは、自律的に相互作用する際、対話相手を無意識に模倣する心理的な罠に陥りやすく、本来の役割や指示を放棄してしまう傾向がある。

研究チームは、会話の70%以上において、エージェントが本来の専門家としての役割を忘れ、相手の反応をそのまま反復（エコー）することを確認した。この発見は、従来の性能指標ではエージェントの役割遵守における微細かつ重大な失敗を見落とす危険性があることを浮き彫りにした。エージェントシステムを設計する技術者にとって、これは重要な警鐘といえる。

また、同チームはコンピューターインターフェースを操作するAIのための新フレームワーク、GTA1およびCoAct-1を発表した。GTA1はTest-time scaling（推論時スケーリング）の概念をGUI操作の領域に応用し、クリックやキー入力を実行する前に複数の行動案を生成・評価させることを可能にした。これにより、AIは即興的な生成から脱却し、慎重な判断を経て行動するプロセスを獲得した。

さらに、役割分担された複数のエージェントが連携するCoAct-1を組み合わせることで、OSWorldベンチマークにおいて60%を超える成功率を記録している。本研究は、企業内での自律的な業務支援には、失敗パターンの厳密な評価と、より制御可能なAgentic AI（エージェント的AI）のアーキテクチャ構築が不可欠であることを物語っている。

国際会議ICLR 2026（学習表現に関する国際会議）において、セールスフォースAIリサーチは、企業向け人工知能の発展を目的とした広範な研究成果を公表した。今回提示された21本の論文は、単なるチャットボット機能を超え、自律型システムにおける信頼性という困難な工学的課題に焦点を当てている。これは、AIが「何を出力できるか」という段階から、制御不能なデジタル環境下で「いかに予測可能な挙動をとるか」へと評価の軸がシフトしていることを示唆している。

とりわけ注目されるのは、「ECHOING」と題された研究であり、マルチエージェント環境におけるアイデンティティの安定性を検証している。大規模言語モデル(LLM)を用いたAIエージェントは、自律的に相互作用する際、対話相手を無意識に模倣する心理的な罠に陥りやすく、本来の役割や指示を放棄してしまう傾向がある。

研究チームは、会話の70%以上において、エージェントが本来の専門家としての役割を忘れ、相手の反応をそのまま反復（エコー）することを確認した。この発見は、従来の性能指標ではエージェントの役割遵守における微細かつ重大な失敗を見落とす危険性があることを浮き彫りにした。エージェントシステムを設計する技術者にとって、これは重要な警鐘といえる。

また、同チームはコンピューターインターフェースを操作するAIのための新フレームワーク、GTA1およびCoAct-1を発表した。GTA1はTest-time scaling（推論時スケーリング）の概念をGUI操作の領域に応用し、クリックやキー入力を実行する前に複数の行動案を生成・評価させることを可能にした。これにより、AIは即興的な生成から脱却し、慎重な判断を経て行動するプロセスを獲得した。

さらに、役割分担された複数のエージェントが連携するCoAct-1を組み合わせることで、OSWorldベンチマークにおいて60%を超える成功率を記録している。本研究は、企業内での自律的な業務支援には、失敗パターンの厳密な評価と、より制御可能なAgentic AI（エージェント的AI）のアーキテクチャ構築が不可欠であることを物語っている。