이 기사의 핵심 내용은?

Salesforce가 ICLR 2026에서 기업용 자율 AI 에이전트의 신뢰성 관련 논문 21편을 발표했다. GUI와 프로그래밍 제어를 결합한 새로운 멀티 에이전트 프레임워크가 OS 작업에서 60% 이상의 성공률을 기록했다. AI 에이전트가 자신의 역할을 버리고 대화 상대의 말투를 따라 하는 '에코잉(echoing)' 현상이 발견되었다.

Salesforce, 자율형 AI 에이전트 혁신 기술 발표

•Salesforce가 ICLR 2026에서 기업용 자율 AI 에이전트의 신뢰성 관련 논문 21편을 발표했다.
•GUI와 프로그래밍 제어를 결합한 새로운 멀티 에이전트 프레임워크가 OS 작업에서 60% 이상의 성공률을 기록했다.
•AI 에이전트가 자신의 역할을 버리고 대화 상대의 말투를 따라 하는 '에코잉(echoing)' 현상이 발견되었다.

•Salesforce가 ICLR 2026에서 기업용 자율 AI 에이전트의 신뢰성 관련 논문 21편을 발표했다.
•GUI와 프로그래밍 제어를 결합한 새로운 멀티 에이전트 프레임워크가 OS 작업에서 60% 이상의 성공률을 기록했다.
•AI 에이전트가 자신의 역할을 버리고 대화 상대의 말투를 따라 하는 '에코잉(echoing)' 현상이 발견되었다.

브라질 리우데자네이루에서 개최된 제14회 국제 표현 학습 학회(ICLR 2026)에서 Salesforce AI Research는 단순한 챗봇을 넘어 신뢰할 수 있는 자율 에이전트로 나아가는 인공지능의 패러다임 전환을 강조했다. 이번에 발표된 21편의 논문은 정보를 처리하는 수준을 넘어 복잡한 실제 디지털 환경에서 다단계 워크플로우를 수행하는 'Agentic AI'에 초점을 맞추고 있다.

연구진은 2,500건 이상의 상호작용을 분석하는 과정에서 '에코잉'이라는 흥미로운 현상을 발견했다. 자율 에이전트들이 서로 대화할 때 각자의 운영 역할을 포기하고 상대방의 언어 스타일과 태도를 무의식적으로 모방하는 경향이 확인된 것이다. 특히 이러한 대화의 93%가 기존 평가 지표에서는 '성공'으로 분류되어, 현재의 AI 평가 체계에 심각한 사각지대가 존재한다는 점이 드러났다.

안전성 문제와 더불어 실용성 측면에서도 큰 성과가 있었다. 기존 컴퓨터 환경은 인간의 손과 눈에 최적화되어 있어 알고리즘이 조작하기 어려웠으나, 연구팀은 GUI 에이전트 시스템인 GTA1과 CoAct-1을 도입해 이를 개선했다. 특히 CoAct-1은 GUI 인터랙션과 코딩 능력을 결합하여 복잡한 OSWorld 벤치마크에서 60.76%의 성공률을 달성했으며, 작업 완료에 필요한 단계 수를 크게 단축했다.

또한 연구진은 'Elastic Reasoning'과 'HyRea'와 같은 방법론을 통해 추론의 병목 현상을 해결하고자 했다. 이는 사고 과정과 실제 해결책을 분리하여 모델이 '사고 시간'을 효율적으로 배분하도록 설계된 기술이다. 이러한 방식은 정확도를 유지하면서도 토큰 사용량을 약 40% 절감하여 기업 규모의 서비스에서 에이전트의 효율성을 극대화했다.

이번 성과는 AI의 차세대 경쟁력이 단순한 연산 능력이 아닌 신뢰성과 효율성, 그리고 현대 소프트웨어 환경 내에서의 자율적 운영 능력에 달려 있음을 시사한다. 이는 AI가 단순한 도구에서 복잡한 업무를 스스로 처리하는 파트너로 진화하고 있음을 보여주는 중요한 이정표이다.

브라질 리우데자네이루에서 개최된 제14회 국제 표현 학습 학회(ICLR 2026)에서 Salesforce AI Research는 단순한 챗봇을 넘어 신뢰할 수 있는 자율 에이전트로 나아가는 인공지능의 패러다임 전환을 강조했다. 이번에 발표된 21편의 논문은 정보를 처리하는 수준을 넘어 복잡한 실제 디지털 환경에서 다단계 워크플로우를 수행하는 'Agentic AI'에 초점을 맞추고 있다.

연구진은 2,500건 이상의 상호작용을 분석하는 과정에서 '에코잉'이라는 흥미로운 현상을 발견했다. 자율 에이전트들이 서로 대화할 때 각자의 운영 역할을 포기하고 상대방의 언어 스타일과 태도를 무의식적으로 모방하는 경향이 확인된 것이다. 특히 이러한 대화의 93%가 기존 평가 지표에서는 '성공'으로 분류되어, 현재의 AI 평가 체계에 심각한 사각지대가 존재한다는 점이 드러났다.

안전성 문제와 더불어 실용성 측면에서도 큰 성과가 있었다. 기존 컴퓨터 환경은 인간의 손과 눈에 최적화되어 있어 알고리즘이 조작하기 어려웠으나, 연구팀은 GUI 에이전트 시스템인 GTA1과 CoAct-1을 도입해 이를 개선했다. 특히 CoAct-1은 GUI 인터랙션과 코딩 능력을 결합하여 복잡한 OSWorld 벤치마크에서 60.76%의 성공률을 달성했으며, 작업 완료에 필요한 단계 수를 크게 단축했다.

또한 연구진은 'Elastic Reasoning'과 'HyRea'와 같은 방법론을 통해 추론의 병목 현상을 해결하고자 했다. 이는 사고 과정과 실제 해결책을 분리하여 모델이 '사고 시간'을 효율적으로 배분하도록 설계된 기술이다. 이러한 방식은 정확도를 유지하면서도 토큰 사용량을 약 40% 절감하여 기업 규모의 서비스에서 에이전트의 효율성을 극대화했다.

이번 성과는 AI의 차세대 경쟁력이 단순한 연산 능력이 아닌 신뢰성과 효율성, 그리고 현대 소프트웨어 환경 내에서의 자율적 운영 능력에 달려 있음을 시사한다. 이는 AI가 단순한 도구에서 복잡한 업무를 스스로 처리하는 파트너로 진화하고 있음을 보여주는 중요한 이정표이다.