Artificial Analysis, 에이전트 워크로드 위한 하드웨어 벤치마크 출시
- •Artificial Analysis가 실제 코딩 에이전트 궤적을 활용해 하드웨어 성능을 측정하는 벤치마크 'AA-AgentPerf'를 공개했다.
- •시스템이 메가와트당 지원 가능한 동시 에이전트 수를 평가하는 '메가와트당 에이전트(Agents per Megawatt)' 지표를 도입했다.
- •초기 테스트 결과, NVIDIA의 Blackwell 아키텍처가 Hopper 대비 동시 에이전트 처리 용량 및 효율성 면에서 앞선 성능을 보였다.
Artificial Analysis가 2026년 6월 12일, 에이전트 워크로드를 위한 하드웨어 성능 측정 벤치마크 'AA-AgentPerf'를 출시했다. 이 시스템은 정적 벤치마크와 달리 최대 200번의 턴과 10만 토큰의 컨텍스트를 포함하는 실제 코딩 에이전트 세션을 재현한다. 이를 통해 특정 서비스 수준 목표(SLO)를 유지하면서 플랫폼이 지원할 수 있는 최대 동시 에이전트 수를 산출한다. 특히 핵심 지표인 '메가와트당 에이전트'는 측정된 전력량 대비 동시 처리 가능한 에이전트 수를 계산하여 전력 제약 환경에서의 효율성을 강조한다.
이번 벤치마크는 KV 캐시 재사용, 투기적 디코딩, 분리형 프리필/디코드와 같은 실제 운영 환경의 최적화 기법을 반영한다. 이를 통해 이론적인 합성 한계치가 아닌 실제 배포 성능을 측정한다. 성능 목표는 시장 요구사항에 따라 티어별로 나뉘며, 모델별로 요구되는 출력 속도(DeepSeek V4 Pro 기준 초당 20~180 토큰)와 첫 토큰 응답 시간(TTFT)을 유지해야 한다. 초기 테스트에서는 NVIDIA의 Blackwell 시스템이 Hopper 아키텍처보다 세대별 성능 향상을 입증했으며, 랙 단위 배포가 단일 노드보다 컴퓨팅 및 전력 효율성에서 우위를 보였다.
벤치마크 데이터셋은 최적화 방지를 위해 비공개로 유지되나, 벤더는 튜닝된 구성을 제출해 검증받을 수 있다. 초기 결과에는 NVIDIA와 AMD 하드웨어에서 구동된 DeepSeek V4 Pro가 포함되었으며, 향후 gpt-oss-120b 및 기타 아키텍처 지원도 계획되어 있다. AA-AgentPerf는 라이브 벤치마크로서 소프트웨어 및 하드웨어 발전에 따라 지속적으로 업데이트될 예정이다. 향후 업데이트를 통해 최대 100만 토큰의 컨텍스트 길이 지원과 모델 커버리지 확대, 총소유비용(TCO)에 대한 상세 분석이 추가될 예정이다.