이 기사의 핵심 내용은?

Arena Team이 실제 소프트웨어 및 분석 작업을 수행하는 AI 에이전트를 위한 인과관계 기반 리더보드를 출시했다. GPT 5.5 (High) 모델이 10.66%의 순 개선도(net improvement)를 기록하며 현재 랭킹 1위를 차지했다. 160,480건의 작업 데이터 분석 결과, bash 명령어, 파일 쓰기, 웹 검색 도구 활용도가 높은 것으로 나타났다.

Arena Team, AI 에이전트 평가 리더보드 공개

•Arena Team이 실제 소프트웨어 및 분석 작업을 수행하는 AI 에이전트를 위한 인과관계 기반 리더보드를 출시했다.
•GPT 5.5 (High) 모델이 10.66%의 순 개선도(net improvement)를 기록하며 현재 랭킹 1위를 차지했다.
•160,480건의 작업 데이터 분석 결과, bash 명령어, 파일 쓰기, 웹 검색 도구 활용도가 높은 것으로 나타났다.

•Arena Team이 실제 소프트웨어 및 분석 작업을 수행하는 AI 에이전트를 위한 인과관계 기반 리더보드를 출시했다.
•GPT 5.5 (High) 모델이 10.66%의 순 개선도(net improvement)를 기록하며 현재 랭킹 1위를 차지했다.
•160,480건의 작업 데이터 분석 결과, bash 명령어, 파일 쓰기, 웹 검색 도구 활용도가 높은 것으로 나타났다.

Arena Team은 복잡한 실무 작업을 수행하는 AI 에이전트를 평가하기 위해 2026년 6월 4일 'Agent Arena' 리더보드를 공개했다. 이 리더보드는 AI 에이전트를 다중 구성 요소 시스템으로 간주하는 인과 추적(Causal Tracing) 방법론을 활용한다. 이 프레임워크는 구성 요소를 무작위로 조합하여 작업 성공률, 피드백, 도구 사용 정확도 등 다양한 지표에서 인과적 처치 효과인 '순 개선도'를 측정한다. 현재 리더보드는 도구 선택을 담당하는 핵심 언어 모델인 오케스트레이터 모델(Orchestrator Model)에 집중하고 있다.

리더보드 데이터는 최근 7일간 기록된 160,480건의 에이전트 모드 작업에서 도출되었다. 이 중 코드 작성이 17.5%로 가장 많았고, 리서치 및 조회 10.8%, 기획 및 브레인스토밍 10.6% 순으로 나타났다. 해당 기간 플랫폼은 약 936,000건의 bash 명령어와 550,000건의 파일 쓰기 작업을 포함하여 총 200만 건 이상의 구조화된 도구 호출을 처리했다. 전체 세션의 75.6%가 최소 한 개 이상의 도구를 사용했으며, 32%의 세션은 마지막 단계에서 128k 토큰 이상의 입력 컨텍스트 길이에 도달했다.

성능 순위를 보면 GPT 5.5 (High)가 10.66%의 순 개선도 점수로 종합 1위를 기록했으며, Claude Opus 4.7 (Thinking)이 9.47%로 그 뒤를 이었다. 평가 지표는 작업 성공 여부, 칭찬 대비 불만 비율, 조종 가능성(오류 수정 능력), bash 복구율, 도구 환각 빈도 등 5가지 핵심 신호를 종합한다. 또한, 팀은 배포 후 세션 비용을 추적하여 파레토 최적성(Pareto Optimality)을 평가하고 있다. 일부 모델은 단계별 회전 빈도나 사용자 상호작용 패턴 차이로 인해 더 높은 비용이 발생했다. Arena Team은 향후 업데이트를 통해 지표를 확장하고 트레이스 마이닝 기법을 고도화할 계획이다.

Arena Team은 복잡한 실무 작업을 수행하는 AI 에이전트를 평가하기 위해 2026년 6월 4일 'Agent Arena' 리더보드를 공개했다. 이 리더보드는 AI 에이전트를 다중 구성 요소 시스템으로 간주하는 인과 추적(Causal Tracing) 방법론을 활용한다. 이 프레임워크는 구성 요소를 무작위로 조합하여 작업 성공률, 피드백, 도구 사용 정확도 등 다양한 지표에서 인과적 처치 효과인 '순 개선도'를 측정한다. 현재 리더보드는 도구 선택을 담당하는 핵심 언어 모델인 오케스트레이터 모델(Orchestrator Model)에 집중하고 있다.

리더보드 데이터는 최근 7일간 기록된 160,480건의 에이전트 모드 작업에서 도출되었다. 이 중 코드 작성이 17.5%로 가장 많았고, 리서치 및 조회 10.8%, 기획 및 브레인스토밍 10.6% 순으로 나타났다. 해당 기간 플랫폼은 약 936,000건의 bash 명령어와 550,000건의 파일 쓰기 작업을 포함하여 총 200만 건 이상의 구조화된 도구 호출을 처리했다. 전체 세션의 75.6%가 최소 한 개 이상의 도구를 사용했으며, 32%의 세션은 마지막 단계에서 128k 토큰 이상의 입력 컨텍스트 길이에 도달했다.

성능 순위를 보면 GPT 5.5 (High)가 10.66%의 순 개선도 점수로 종합 1위를 기록했으며, Claude Opus 4.7 (Thinking)이 9.47%로 그 뒤를 이었다. 평가 지표는 작업 성공 여부, 칭찬 대비 불만 비율, 조종 가능성(오류 수정 능력), bash 복구율, 도구 환각 빈도 등 5가지 핵심 신호를 종합한다. 또한, 팀은 배포 후 세션 비용을 추적하여 파레토 최적성(Pareto Optimality)을 평가하고 있다. 일부 모델은 단계별 회전 빈도나 사용자 상호작용 패턴 차이로 인해 더 높은 비용이 발생했다. Arena Team은 향후 업데이트를 통해 지표를 확장하고 트레이스 마이닝 기법을 고도화할 계획이다.