이 기사의 핵심 내용은?

Claude Opus 4.6가 1606 Elo를 기록하며 GPT-5.2를 약 150점 차이로 추월했다. 적응형 사고 모드를 도입해 쉘 및 웹 액세스를 통한 복잡한 워크플로우를 자율적으로 수행한다. 높은 성능만큼 토큰 소비량이 증가하여 에이전틱 AI 작업 분야에서 가장 비용이 많이 드는 모델로 꼽힌다.

Claude Opus 4.6, 에이전틱 지식 업무 벤치마크 1위 등극

•Claude Opus 4.6가 1606 Elo를 기록하며 GPT-5.2를 약 150점 차이로 추월했다.
•적응형 사고 모드를 도입해 쉘 및 웹 액세스를 통한 복잡한 워크플로우를 자율적으로 수행한다.
•높은 성능만큼 토큰 소비량이 증가하여 에이전틱 AI 작업 분야에서 가장 비용이 많이 드는 모델로 꼽힌다.

Anthropic의 최신 야심작인 Claude Opus 4.6가 GDPval-AA 리더보드 정상에 오르며 압도적인 기술력을 과시했다. 이 지표는 AI 모델이 실제 환경에서 발생하는 복잡한 다단계 과업을 얼마나 정교하게 처리하는지 평가하는 엄격한 벤치마크다. Artificial Analysis가 개발한 이 테스트는 단순한 텍스트 생성을 넘어, 쉘 액세스와 웹 브라우징을 활용해 데이터 분석이나 영상 제작 일정 관리와 같은 에이전틱 AI 워크플로우의 실행력을 집중적으로 검증한다.

이러한 성능 비약은 모델이 스스로 작업을 반복하고 다듬는 '적응형 사고' 모드 덕분이다. 실제로 Opus 4.6는 이전 버전보다 토큰을 30~60% 더 많이 소모하지만, 그만큼의 연산 자원을 투입해 OpenAI의 플래그십 모델인 GPT-5.2 대비 150점이나 높은 Elo 점수를 기록했다. 특히 주목할 점은 모델이 이미지 뷰어 도구를 사용하여 자신의 결과물을 시각적으로 검수함으로써, 전문적인 디자인 감각과 구조적 완성도를 동시에 확보했다는 사실이다.

다만 기술적 우위에도 불구하고 높은 유지비용은 기업 사용자들에게 부담으로 작용할 전망이다. 입력 토큰 100만 개당 5달러, 출력 25달러라는 프리미엄 가격 정책에 늘어난 토큰 소모량까지 더해지면서 Opus 4.6는 현재 시장에서 가장 값비싼 모델로 분류된다. 그럼에도 불구하고 현대 AI가 도달할 수 있는 극한의 성능인 파레토 프런티어를 개척했다는 점에서, 고도의 정확도가 요구되는 지식 업무 분야에서는 그 비용 가치를 충분히 증명할 것으로 보인다.

앤스로픽이라는 회사에서 만든 최신 인공지능 '클로드 4.6'이 인공지능 실력 대결 순위표(GDPval-AA 리더보드)에서 1등에 올랐어요. 이 시험은 인공지능이 단순히 글만 쓰는 게 아니라, 실제로 컴퓨터를 다루고 인터넷을 검색하며 복잡한 심부름을 얼마나 잘하는지(에이전틱 AI 워크플로우)를 확인하는 아주 까다로운 테스트예요.

클로드가 이렇게 똑똑해진 비결은 스스로 생각을 반복하며 정답을 찾아가는 방법(적응형 사고) 덕분이에요. 클로드는 예전보다 더 많은 정보 조각(토큰)을 사용하며 깊게 고민한 결과, 경쟁자인 GPT-5.2보다 훨씬 높은 점수(Elo 점수)를 받았어요. 특히 자기가 만든 결과물을 눈으로 직접 확인하는 도구(이미지 뷰어)를 사용해서, 전문가처럼 멋진 디자인을 완성하는 능력까지 보여주었답니다.

하지만 실력이 뛰어난 만큼 유지비가 많이 드는 것이 문제예요. 인공지능이 글자를 읽고 쓰는 비용(토큰 소모량)이 다른 모델보다 훨씬 비싸서, 현재 시장에서 가장 몸값이 비싼 인공지능으로 불려요. 그래도 인공지능이 도달할 수 있는 최고의 실력(파레토 프런티어)을 보여주었기 때문에, 아주 정확한 일 처리가 필요한 회사에서는 비싼 값을 톡톡히 해낼 것으로 보여요.