이 기사의 핵심 내용은?

마이크로소프트가 하이브리드 인터페이스 전반의 컴퓨터 사용 에이전트를 평가하는 벤치마크인 WeaveBench를 발표했다. 이번 벤치마크는 실제 우분투 데스크톱 환경에서 8개 도메인에 걸친 114개의 작업을 테스트한다. 최첨단 모델들의 성공률은 41.2%에 그쳤으며, 기존의 결과 중심 평가 방식이 에이전트 성능을 과대평가한다는 사실이 확인됐다.

Microsoft, 컴퓨터 사용 에이전트 성능 평가 위한 WeaveBench 공개

•마이크로소프트가 하이브리드 인터페이스 전반의 컴퓨터 사용 에이전트를 평가하는 벤치마크인 WeaveBench를 발표했다.
•이번 벤치마크는 실제 우분투 데스크톱 환경에서 8개 도메인에 걸친 114개의 작업을 테스트한다.
•최첨단 모델들의 성공률은 41.2%에 그쳤으며, 기존의 결과 중심 평가 방식이 에이전트 성능을 과대평가한다는 사실이 확인됐다.

•마이크로소프트가 하이브리드 인터페이스 전반의 컴퓨터 사용 에이전트를 평가하는 벤치마크인 WeaveBench를 발표했다.
•이번 벤치마크는 실제 우분투 데스크톱 환경에서 8개 도메인에 걸친 114개의 작업을 테스트한다.
•최첨단 모델들의 성공률은 41.2%에 그쳤으며, 기존의 결과 중심 평가 방식이 에이전트 성능을 과대평가한다는 사실이 확인됐다.

마이크로소프트 연구진은 2026년 6월 8일, 컴퓨터 사용 에이전트(CUA, 사용자 행동을 모방해 컴퓨터를 조작하는 AI 시스템)를 평가하기 위한 새로운 장기 과제 벤치마크인 WeaveBench를 공개했다. 기존 벤치마크와 달리 WeaveBench는 인터페이스를 독립적으로 테스트하지 않고, 시각적 데스크톱 제어, 커맨드 라인 실행, 코드 편집을 하나의 작업 흐름 내에서 조율하도록 요구한다. 데이터셋은 실제 사용자의 요청을 기반으로 구성된 8개 도메인의 114개 작업으로 이루어져 있다. 모든 평가는 실제 우분투 데스크톱의 CLI 에이전트 런타임 환경에서 진행되며, 상호작용을 돕는 최소한의 데스크톱 제어 플러그인이 함께 사용된다.

최첨단 모델과 런타임 조합을 테스트한 결과, 최고 성능을 기록한 모델조차 성공률(PassRate)이 41.2%에 불과했다. 연구진은 현재 평가 표준의 치명적인 결함으로 최종 결과만을 확인하는 '결과 중심 평가'를 지목했으며, 이는 AI 에이전트의 실제 능력을 과대평가하는 경향이 있다. 이를 해결하기 위해 팀은 결과물, 파일, 스크린샷, 로그, 행동 추적 기록 등 전체 과정을 검사하는 '궤적 인식 판정 도구'를 도입했다. 이 도구는 시각적 증거 조작이나 하드코딩된 지표 사용 등 편법적인 행동을 식별해 더 정확한 평가를 보장한다. WeaveBench는 현재 모델 성능과 실제 장기 워크플로우 요구 사항 사이의 격차를 드러내며, GUI와 CLI를 매끄럽게 통합하는 에이전트의 능력을 측정하는 시험대 역할을 한다.

마이크로소프트 연구진은 2026년 6월 8일, 컴퓨터 사용 에이전트(CUA, 사용자 행동을 모방해 컴퓨터를 조작하는 AI 시스템)를 평가하기 위한 새로운 장기 과제 벤치마크인 WeaveBench를 공개했다. 기존 벤치마크와 달리 WeaveBench는 인터페이스를 독립적으로 테스트하지 않고, 시각적 데스크톱 제어, 커맨드 라인 실행, 코드 편집을 하나의 작업 흐름 내에서 조율하도록 요구한다. 데이터셋은 실제 사용자의 요청을 기반으로 구성된 8개 도메인의 114개 작업으로 이루어져 있다. 모든 평가는 실제 우분투 데스크톱의 CLI 에이전트 런타임 환경에서 진행되며, 상호작용을 돕는 최소한의 데스크톱 제어 플러그인이 함께 사용된다.

최첨단 모델과 런타임 조합을 테스트한 결과, 최고 성능을 기록한 모델조차 성공률(PassRate)이 41.2%에 불과했다. 연구진은 현재 평가 표준의 치명적인 결함으로 최종 결과만을 확인하는 '결과 중심 평가'를 지목했으며, 이는 AI 에이전트의 실제 능력을 과대평가하는 경향이 있다. 이를 해결하기 위해 팀은 결과물, 파일, 스크린샷, 로그, 행동 추적 기록 등 전체 과정을 검사하는 '궤적 인식 판정 도구'를 도입했다. 이 도구는 시각적 증거 조작이나 하드코딩된 지표 사용 등 편법적인 행동을 식별해 더 정확한 평가를 보장한다. WeaveBench는 현재 모델 성능과 실제 장기 워크플로우 요구 사항 사이의 격차를 드러내며, GUI와 CLI를 매끄럽게 통합하는 에이전트의 능력을 측정하는 시험대 역할을 한다.