AA-Briefcase 벤치마크, AI 작업 효율성 분석 공개
Artificial Analysis
2026년 6월 26일 (금)
- •AA-Briefcase 벤치마크는 수주 단위의 장기적이고 현실적인 지식 업무 프로젝트에 대한 AI 모델 효율성을 평가한다.
- •GPT-5.5 (xhigh)은 11분 만에 작업을 완료하며 Claude Opus 4.8의 23분 대비 월등한 속도를 기록했다.
- •GLM-5.2는 Elo 점수 1261점을 획득하며 오픈 가중치 모델 중 가장 높은 성능을 보였다.
Artificial Analysis는 2026년 6월 24일, 재무 모델링이나 프레젠테이션 제작과 같은 장기적이고 현실적인 지식 업무에서 AI 모델의 성능을 평가하는 AA-Briefcase 벤치마크를 발표했다. 핵심 지표인 작업당 평균 시간은 평가 토큰 사용량, 모델 출력 속도, 도구 실행 시간을 종합하여 산출된다. 평가 결과, Claude Opus 4.8은 최상위권 점수를 기록했으나 작업당 약 23분이 소요되었다. 반면, GPT-5.5 (xhigh)은 11분 만에 작업을 완료하는 높은 효율성을 보여 AA-Briefcase Elo 순위에서 5위권을 유지했다.
분석 결과에 따르면, GLM-5.2는 Elo 점수 1261점, 작업 시간 16.3분을 기록하며 파레토 프런티어에 위치했다. 이는 1113점을 기록한 MiniMax-M3를 앞서는 오픈 가중치 모델의 최고 성적이다. 한편, 단종된 Claude Fable 5의 기록을 살펴보면, 초당 약 91토큰의 출력 속도와 작업당 139,000개의 출력 토큰을 고려할 때 작업당 28.5분이 소요되었을 것으로 추정된다. 이번 연구는 도구 실행이 전체 시간에서 차지하는 비중이 약 12%에 불과하며, 나머지 대부분은 출력의 장황함, 턴(turn) 사용 횟수, 순수 추론 속도에 의해 결정된다고 분석했다.