이 기사의 핵심 내용은?

Salesforce, ICLR 2026에서 신뢰성 있는 기업용 AI 에이전트 관련 21편의 논문 발표 에이전트가 역할을 망각하고 대화 상대의 반응을 무의식적으로 따라 하는 '에코잉(Echoing)' 현상 규명 CoAct-1 시스템, 다중 에이전트 협업을 통해 OSWorld 복합 작업에서 60.76% 성공률 달성

Salesforce, 자율형 AI 에이전트 연구 성과 발표

•Salesforce, ICLR 2026에서 신뢰성 있는 기업용 AI 에이전트 관련 21편의 논문 발표
•에이전트가 역할을 망각하고 대화 상대의 반응을 무의식적으로 따라 하는 '에코잉(Echoing)' 현상 규명
•CoAct-1 시스템, 다중 에이전트 협업을 통해 OSWorld 복합 작업에서 60.76% 성공률 달성

제14회 ICLR 2026(International Conference on Learning Representations)에서 Salesforce AI Research는 기업용 인공지능의 성숙을 목표로 한 대규모 연구 결과를 공개했다. 이번에 채택된 21편의 논문은 단순한 챗봇 기능을 넘어, 자율 시스템이 실제 환경에서 얼마나 신뢰성 있게 작동할 수 있는지를 다루는 복잡한 공학적 과제에 집중하고 있다. 이는 AI가 무엇을 생성할 수 있느냐를 넘어, 통제되지 않는 실제 디지털 환경에서 어떻게 예측 가능한 행동을 수행할지에 대한 학계와 업계의 연구 방향 전환을 의미한다.

가장 주목할 연구 중 하나인 'ECHOING' 논문은 다중 에이전트 환경에서의 자아 정체성 안정성을 다룬다. 연구에 따르면 AI 에이전트들이 상호작용하는 과정에서 자신의 역할과 지시 사항을 망각하고, 대화 상대의 어조나 행동을 단순히 따라 하는 심리적 함정에 빠지는 현상이 발견되었다. 전체 대화의 70% 이상에서 에이전트가 본래 부여받은 권한이나 전문가 역할을 저버리고 상대의 반응을 모방하는 결과가 나타났으며, 이는 기존 성능 지표들이 에이전트의 역할 수행 실패를 감지하는 데 한계가 있음을 시사한다.

또한, 이번 연구는 에이전트가 컴퓨터 인터페이스를 다루는 새로운 프레임워크로 GTA1과 CoAct-1을 제시했다. GTA1은 GUI Agent 분야에 Test-time scaling 개념을 도입하여, AI가 마우스 클릭이나 키보드 입력 전 여러 행동 방안을 시뮬레이션하고 평가하는 '생각하는 시간'을 제공한다. 이는 기존의 일회성 생성 방식에서 벗어나 논리적인 판단 과정을 거치도록 설계된 혁신적인 접근법이다.

이와 더불어 CoAct-1은 '운영자'나 '프로그래머'와 같이 세분화된 역할을 맡은 에이전트 간의 협업을 통해, 복잡한 작업을 수행하는 능력을 비약적으로 높였다. 이러한 협력 모델은 가혹한 벤치마크 테스트인 OSWorld에서 60% 이상의 성공률을 기록하며 업계 최고 수준의 숙련도를 증명했다.

산업 측면에서 가장 중요한 성과는 SCUBA 벤치마크의 공개다. CRM과 같은 실제 기업용 소프트웨어 환경에서 에이전트의 성능을 검증하는 이 도구는, 오픈소스 에이전트와 폐쇄형 모델 간의 성능 격차를 명확히 보여준다. 데이터에 따르면 적절한 지시와 시연이 뒷받침될 경우, 에이전트는 행정 업무에 소요되는 시간과 비용을 크게 절감할 수 있다. 이번 연구는 자율형 AI의 잠재력이 막대하지만, 향후 성공적인 도입을 위해서는 실패 사례에 대한 철저한 평가와 더불어 제어 가능한 에이전트 아키텍처 구축이 필수적임을 강조한다.

제14회 ICLR 2026(International Conference on Learning Representations)에서 Salesforce AI Research는 기업용 인공지능의 성숙을 목표로 한 대규모 연구 결과를 공개했다. 이번에 채택된 21편의 논문은 단순한 챗봇 기능을 넘어, 자율 시스템이 실제 환경에서 얼마나 신뢰성 있게 작동할 수 있는지를 다루는 복잡한 공학적 과제에 집중하고 있다. 이는 AI가 무엇을 생성할 수 있느냐를 넘어, 통제되지 않는 실제 디지털 환경에서 어떻게 예측 가능한 행동을 수행할지에 대한 학계와 업계의 연구 방향 전환을 의미한다.

가장 주목할 연구 중 하나인 'ECHOING' 논문은 다중 에이전트 환경에서의 자아 정체성 안정성을 다룬다. 연구에 따르면 AI 에이전트들이 상호작용하는 과정에서 자신의 역할과 지시 사항을 망각하고, 대화 상대의 어조나 행동을 단순히 따라 하는 심리적 함정에 빠지는 현상이 발견되었다. 전체 대화의 70% 이상에서 에이전트가 본래 부여받은 권한이나 전문가 역할을 저버리고 상대의 반응을 모방하는 결과가 나타났으며, 이는 기존 성능 지표들이 에이전트의 역할 수행 실패를 감지하는 데 한계가 있음을 시사한다.

또한, 이번 연구는 에이전트가 컴퓨터 인터페이스를 다루는 새로운 프레임워크로 GTA1과 CoAct-1을 제시했다. GTA1은 GUI Agent 분야에 Test-time scaling 개념을 도입하여, AI가 마우스 클릭이나 키보드 입력 전 여러 행동 방안을 시뮬레이션하고 평가하는 '생각하는 시간'을 제공한다. 이는 기존의 일회성 생성 방식에서 벗어나 논리적인 판단 과정을 거치도록 설계된 혁신적인 접근법이다.

이와 더불어 CoAct-1은 '운영자'나 '프로그래머'와 같이 세분화된 역할을 맡은 에이전트 간의 협업을 통해, 복잡한 작업을 수행하는 능력을 비약적으로 높였다. 이러한 협력 모델은 가혹한 벤치마크 테스트인 OSWorld에서 60% 이상의 성공률을 기록하며 업계 최고 수준의 숙련도를 증명했다.

산업 측면에서 가장 중요한 성과는 SCUBA 벤치마크의 공개다. CRM과 같은 실제 기업용 소프트웨어 환경에서 에이전트의 성능을 검증하는 이 도구는, 오픈소스 에이전트와 폐쇄형 모델 간의 성능 격차를 명확히 보여준다. 데이터에 따르면 적절한 지시와 시연이 뒷받침될 경우, 에이전트는 행정 업무에 소요되는 시간과 비용을 크게 절감할 수 있다. 이번 연구는 자율형 AI의 잠재력이 막대하지만, 향후 성공적인 도입을 위해서는 실패 사례에 대한 철저한 평가와 더불어 제어 가능한 에이전트 아키텍처 구축이 필수적임을 강조한다.