Claude Opus 4.1은 2025년 8월에 출시된 Anthropic 플래그십 모델의 업데이트 버전으로, 코딩, 추론, 에이전트 작업에서 향상된 성능을 제공합니다. SWE-bench Verified에서 74.5%를 달성하며 다중 파일 코드 리팩토링, 디버깅 정밀도, 세부 사항 중심 추론에서 눈에 띄는 개선을 보여줍니다. 최대 64K 토큰의 확장 사고를 지원하며, 연구, 데이터 분석, 도구 활용 추론 워크플로에 최적화되어 있습니다.
API|비전심층 사고웹 검색파일|상용 모델
AI 성능 평가
Arena 종합 점수
1449
±4집계일 2026-04-23
종합 순위
37위
49,864 투표수
Arena 능력별 점수
한국어 능력
1418±1919위
복잡한 질문
1480±527위
전문 지식
1482±1229위
지시 이행
1459±617위
대화 기억
1473±724위
창의력
1445±822위
코딩 실력
1512±721위
수학 능력
1443±1138위
Arena 직군별 점수
문학·창작
1444±625위
생활·사회과학
1471±731위
엔터·미디어
1433±726위
경영·금융
1448±736위
의학·보건
1478±1228위
법률·행정
1463±1131위
소프트웨어·IT
1492±530위
수학·통계
1449±1240위
종합
AA Intelligence Index
42%↑4%
LiveBench
61%↑1%
ForecastBench
60%↑1%
추론·수학
AA Math Index
80%↑7%
GPQA Diamond
81%↑0%
HLE
12%↓5%
MMLU-Pro
88%↑6%
AIME 2025
80%↑7%
LB 추론
72%↑13%
LB 수학
73%↑0%
LB 데이터 분석
49%↓1%
코딩
AA Coding Index
37%↑2%
LiveCodeBench
65%↑0%
LB 코딩
75%↑1%
LB 에이전틱
48%↑5%
TAU2
71%↓2%
TerminalBench
34%↑3%
SciCode
41%↑0%
언어·지시
IFBench
55%↓1%
AA-LCR
66%↑5%
환각률 (HHEM)
12%↑2%
사실 일관성 (HHEM)
88%↓2%
LB 언어
73%↑1%
LB 지시
42%↓4%
출력 속도
일반 모드
34tok/s↓48
출력 시작 1.33s
추론 모드
45tok/s↓43
출력 시작 9.10s