이 기사의 핵심 내용은?

AA-Briefcase 벤치마크는 수주 단위의 장기적이고 현실적인 지식 업무 프로젝트에 대한 AI 모델 효율성을 평가한다. GPT-5.5 (xhigh)은 11분 만에 작업을 완료하며 Claude Opus 4.8의 23분 대비 월등한 속도를 기록했다. GLM-5.2는 Elo 점수 1261점을 획득하며 오픈 가중치 모델 중 가장 높은 성능을 보였다.

AA-Briefcase 벤치마크, AI 작업 효율성 분석 공개

•AA-Briefcase 벤치마크는 수주 단위의 장기적이고 현실적인 지식 업무 프로젝트에 대한 AI 모델 효율성을 평가한다.
•GPT-5.5 (xhigh)은 11분 만에 작업을 완료하며 Claude Opus 4.8의 23분 대비 월등한 속도를 기록했다.
•GLM-5.2는 Elo 점수 1261점을 획득하며 오픈 가중치 모델 중 가장 높은 성능을 보였다.

Artificial Analysis는 2026년 6월 24일, 재무 모델링이나 프레젠테이션 제작과 같은 장기적이고 현실적인 지식 업무에서 AI 모델의 성능을 평가하는 AA-Briefcase 벤치마크를 발표했다. 핵심 지표인 작업당 평균 시간은 평가 토큰 사용량, 모델 출력 속도, 도구 실행 시간을 종합하여 산출된다. 평가 결과, Claude Opus 4.8은 최상위권 점수를 기록했으나 작업당 약 23분이 소요되었다. 반면, GPT-5.5 (xhigh)은 11분 만에 작업을 완료하는 높은 효율성을 보여 AA-Briefcase Elo 순위에서 5위권을 유지했다.

분석 결과에 따르면, GLM-5.2는 Elo 점수 1261점, 작업 시간 16.3분을 기록하며 파레토 프런티어에 위치했다. 이는 1113점을 기록한 MiniMax-M3를 앞서는 오픈 가중치 모델의 최고 성적이다. 한편, 단종된 Claude Fable 5의 기록을 살펴보면, 초당 약 91토큰의 출력 속도와 작업당 139,000개의 출력 토큰을 고려할 때 작업당 28.5분이 소요되었을 것으로 추정된다. 이번 연구는 도구 실행이 전체 시간에서 차지하는 비중이 약 12%에 불과하며, 나머지 대부분은 출력의 장황함, 턴(turn) 사용 횟수, 순수 추론 속도에 의해 결정된다고 분석했다.

Artificial Analysis는 2026년 6월 24일, 재무 모델링이나 프레젠테이션 제작과 같은 장기적이고 현실적인 지식 업무에서 AI 모델의 성능을 평가하는 AA-Briefcase 벤치마크를 발표했다. 핵심 지표인 작업당 평균 시간은 평가 토큰 사용량, 모델 출력 속도, 도구 실행 시간을 종합하여 산출된다. 평가 결과, Claude Opus 4.8은 최상위권 점수를 기록했으나 작업당 약 23분이 소요되었다. 반면, GPT-5.5 (xhigh)은 11분 만에 작업을 완료하는 높은 효율성을 보여 AA-Briefcase Elo 순위에서 5위권을 유지했다.

분석 결과에 따르면, GLM-5.2는 Elo 점수 1261점, 작업 시간 16.3분을 기록하며 파레토 프런티어에 위치했다. 이는 1113점을 기록한 MiniMax-M3를 앞서는 오픈 가중치 모델의 최고 성적이다. 한편, 단종된 Claude Fable 5의 기록을 살펴보면, 초당 약 91토큰의 출력 속도와 작업당 139,000개의 출력 토큰을 고려할 때 작업당 28.5분이 소요되었을 것으로 추정된다. 이번 연구는 도구 실행이 전체 시간에서 차지하는 비중이 약 12%에 불과하며, 나머지 대부분은 출력의 장황함, 턴(turn) 사용 횟수, 순수 추론 속도에 의해 결정된다고 분석했다.