Artificial Analysis, 장기 지식 작업 평가용 'AA-Briefcase' 공개
- •Artificial Analysis가 수주 단위의 지식 업무 프로젝트를 수행하는 AI 모델을 평가하는 벤치마크 'AA-Briefcase'를 출시했다.
- •현재 Claude Fable 5가 리더보드 1위를 기록 중이며, GLM-5.2 (max)는 비용 대비 성능 면에서 탁월한 효율을 보여준다.
- •복잡한 실무 환경에서 최고 성능의 모델들조차 모든 평가 항목을 완벽하게 통과하는 비율은 극히 낮은 것으로 나타났다.
Artificial Analysis는 2026년 6월 18일, 실무 중심의 장기 지식 작업 능력을 평가하는 새로운 벤치마크 'AA-Briefcase'를 공개했다. 이 평가는 4개의 프로젝트에 걸친 91개 과제로 구성되며, 모델은 3,500개의 이메일과 25,000개의 슬랙 메시지를 포함한 약 2,000개의 원본 파일을 처리해야 한다. 기존 벤치마크와 달리 AA-Briefcase는 사실적 정확성을 판단하는 이진 루브릭(Rubric) 점수와 분석 및 표현 품질을 평가하는 쌍대 비교 방식을 결합했다.
현재 Elo 랭킹에서는 Claude Fable 5가 종합 1위를 차지하고 있으며, 그 뒤를 Claude Opus 4.8 (max)와 GLM-5.2 (max)가 잇고 있다. Claude Fable 5는 최고 성능을 기록했으나 과제당 평균 31달러 이상의 비용이 발생한다. 반면, GLM-5.2 (max)는 오픈 웨이트 모델로서 최고 수준의 성능을 제공하며, 선두 모델 대비 25% 미만의 비용으로 운용이 가능하다. Gemini 3.5 Flash와 같은 모델들은 높은 토큰 사용량을 보였음에도 일반적인 지능 평가 지표와 비교하면 낮은 성과를 나타냈다.
조사 결과, 가장 우수한 모델조차 완벽한 작업 수행에는 어려움을 겪었다. Claude Fable 5가 모든 루브릭 기준을 충족한 작업은 3%에 불과했다. 특히 분석 결과에 따르면 입력 파일 수가 증가할수록 성능이 하락했으며, 5개 이상의 파일 참조가 필요한 항목에서는 고성능 모델들도 40%의 성공률에 그쳤다. 한편, 표현 품질은 시각적 검사 도구 활용도와 상관관계를 보였다. 표현 Elo 점수가 가장 높은 Claude Fable 5와 Claude Opus 4.8 (max)는 과제당 각각 평균 21회와 12회의 시각적 검사를 수행했다. 이번 벤치마크는 구글, 맥킨지(McKinsey & Company), 보스턴컨설팅그룹(Boston Consulting Group) 등 업계 전문가들과 공동 개발하여 기업 전략, 데이터 과학, 제품 관리 등 실제 업무 환경의 복잡성을 반영했다.