Claude Opus 4.6, 에이전틱 지식 업무 벤치마크 1위 등극
- •Claude Opus 4.6가 1606 Elo를 기록하며 GPT-5.2를 약 150점 차이로 추월했다.
- •적응형 사고 모드를 도입해 쉘 및 웹 액세스를 통한 복잡한 워크플로우를 자율적으로 수행한다.
- •높은 성능만큼 토큰 소비량이 증가하여 에이전틱 AI 작업 분야에서 가장 비용이 많이 드는 모델로 꼽힌다.
Anthropic의 최신 야심작인 Claude Opus 4.6가 GDPval-AA 리더보드 정상에 오르며 압도적인 기술력을 과시했다. 이 지표는 AI 모델이 실제 환경에서 발생하는 복잡한 다단계 과업을 얼마나 정교하게 처리하는지 평가하는 엄격한 벤치마크다. Artificial Analysis가 개발한 이 테스트는 단순한 텍스트 생성을 넘어, 쉘 액세스와 웹 브라우징을 활용해 데이터 분석이나 영상 제작 일정 관리와 같은 에이전틱 AI 워크플로우의 실행력을 집중적으로 검증한다.
이러한 성능 비약은 모델이 스스로 작업을 반복하고 다듬는 '적응형 사고' 모드 덕분이다. 실제로 Opus 4.6는 이전 버전보다 토큰을 30~60% 더 많이 소모하지만, 그만큼의 연산 자원을 투입해 OpenAI의 플래그십 모델인 GPT-5.2 대비 150점이나 높은 Elo 점수를 기록했다. 특히 주목할 점은 모델이 이미지 뷰어 도구를 사용하여 자신의 결과물을 시각적으로 검수함으로써, 전문적인 디자인 감각과 구조적 완성도를 동시에 확보했다는 사실이다.
다만 기술적 우위에도 불구하고 높은 유지비용은 기업 사용자들에게 부담으로 작용할 전망이다. 입력 토큰 100만 개당 5달러, 출력 25달러라는 프리미엄 가격 정책에 늘어난 토큰 소모량까지 더해지면서 Opus 4.6는 현재 시장에서 가장 값비싼 모델로 분류된다. 그럼에도 불구하고 현대 AI가 도달할 수 있는 극한의 성능인 파레토 프런티어를 개척했다는 점에서, 고도의 정확도가 요구되는 지식 업무 분야에서는 그 비용 가치를 충분히 증명할 것으로 보인다.