이 기사의 핵심 내용은?

연구진이 실제 업무 세션에서 추출한 852개 과제를 활용한 기업용 에이전트 벤치마크 EnterpriseClawBench를 공개했다. 해당 평가 프로토콜은 단일 성능 지표 대신 결과물 전달, 비용, 기술 전이 등 다양한 지표를 우선한다. 테스트 결과 Codex와 GPT-5.5를 조합한 구성이 0.663점으로 최고 성능을 기록했다.

EnterpriseClawBench, 실제 업무 환경 기반 AI 에이전트 평가 공개

•연구진이 실제 업무 세션에서 추출한 852개 과제를 활용한 기업용 에이전트 벤치마크 EnterpriseClawBench를 공개했다.
•해당 평가 프로토콜은 단일 성능 지표 대신 결과물 전달, 비용, 기술 전이 등 다양한 지표를 우선한다.
•테스트 결과 Codex와 GPT-5.5를 조합한 구성이 0.663점으로 최고 성능을 기록했다.

진청 종(Jincheng Zhong)과 카이얀 장(Kaiyan Zhang)이 이끄는 연구팀은 실제 직장 내 세션에서 추출한 852개의 재현 가능한 과제를 바탕으로 기업용 에이전틱 AI를 평가하는 벤치마크인 EnterpriseClawBench를 발표했다. 합성 데이터를 사용하는 기존 벤치마크와 달리, 이 프레임워크는 에이전트가 다양한 파일을 읽고 도구를 호출하며 비즈니스 결과물을 생성하는 실제 데이터를 활용한다. 연구진은 평가 프로토콜에 모델 조합, 결과물 전달 성공률, 시각적 품질, 운영 비용, 실행 시간, 기술 전이 행동과 같은 구체적인 지표를 포함했다.

업무 데이터의 민감성 때문에 연구팀은 원본 데이터셋을 외부에 공개하지 않기로 결정했다. 대신 기업들이 각자의 비공개 세션에 프로토콜을 적용할 수 있도록 평가 방법론만을 출판했다. 성능 테스트 결과 Codex와 GPT-5.5의 조합이 0.663점의 점수를 기록하며 가장 우수한 성적을 거뒀다. 연구진은 기업의 성과를 단일 지표로 단순화할 수 없음을 강조하며, 복잡한 비즈니스 환경에서 에이전트가 어떻게 작동하는지 이해하기 위해서는 다각적인 평가가 필수적이라고 주장했다.

진청 종(Jincheng Zhong)과 카이얀 장(Kaiyan Zhang)이 이끄는 연구팀은 실제 직장 내 세션에서 추출한 852개의 재현 가능한 과제를 바탕으로 기업용 에이전틱 AI를 평가하는 벤치마크인 EnterpriseClawBench를 발표했다. 합성 데이터를 사용하는 기존 벤치마크와 달리, 이 프레임워크는 에이전트가 다양한 파일을 읽고 도구를 호출하며 비즈니스 결과물을 생성하는 실제 데이터를 활용한다. 연구진은 평가 프로토콜에 모델 조합, 결과물 전달 성공률, 시각적 품질, 운영 비용, 실행 시간, 기술 전이 행동과 같은 구체적인 지표를 포함했다.

업무 데이터의 민감성 때문에 연구팀은 원본 데이터셋을 외부에 공개하지 않기로 결정했다. 대신 기업들이 각자의 비공개 세션에 프로토콜을 적용할 수 있도록 평가 방법론만을 출판했다. 성능 테스트 결과 Codex와 GPT-5.5의 조합이 0.663점의 점수를 기록하며 가장 우수한 성적을 거뒀다. 연구진은 기업의 성과를 단일 지표로 단순화할 수 없음을 강조하며, 복잡한 비즈니스 환경에서 에이전트가 어떻게 작동하는지 이해하기 위해서는 다각적인 평가가 필수적이라고 주장했다.