Claude Sonnet 4는 2025년 5월 Opus 4와 함께 출시된 Anthropic의 균형 잡힌 중간급 모델로, 강력한 코딩·추론 능력과 연산 효율을 결합하도록 설계되었습니다. SWE-bench에서 72.7%의 최고 수준을 달성하면서 Opus 모델 대비 훨씬 낮은 비용과 빠른 응답 시간을 제공합니다. 자율적인 코드베이스 탐색, 에이전트 기반 워크플로에서의 오류율 감소, 복잡한 지시 따르기의 높은 신뢰성이 강점으로, 일상적인 개발부터 복잡한 프로젝트까지 다양한 작업에 적합합니다.
API|비전심층 사고웹 검색파일|상용 모델
AI 성능 평가
Arena 종합 점수
1399
±4집계일 2026-04-23
종합 순위
102위
35,153 투표수
Arena 능력별 점수
한국어 능력
1334±2396위
복잡한 질문
1430±685위
전문 지식
1433±1579위
지시 이행
1414±768위
대화 기억
1420±874위
창의력
1395±964위
코딩 실력
1472±860위
수학 능력
1402±1397위
Arena 직군별 점수
문학·창작
1397±777위
생활·사회과학
1418±897위
엔터·미디어
1389±876위
경영·금융
1384±8117위
의학·보건
1419±13106위
법률·행정
1410±1396위
소프트웨어·IT
1443±686위
수학·통계
1410±1398위
종합
AA Intelligence Index
39%↑0%
LiveBench
61%↑0%
ForecastBench
59%↑0%
추론·수학
AA Math Index
74%↑1%
GPQA Diamond
78%↓3%
HLE
9.6%↓8%
MMLU-Pro
84%↑2%
AIME 2025
74%↑1%
MATH-500
99%↑6%
LB 추론
69%↑9%
LB 수학
71%↓3%
LB 데이터 분석
55%↑5%
코딩
AA Coding Index
34%↑0%
LiveCodeBench
66%↑0%
LB 코딩
77%↑4%
LB 에이전틱
40%↓3%
TAU2
65%↓9%
TerminalBench
31%↑0%
SciCode
40%↓1%
언어·지시
IFBench
55%↓2%
AA-LCR
65%↑3%
환각률 (HHEM)
10%↑0%
사실 일관성 (HHEM)
90%↑0%
LB 언어
73%↑1%
LB 지시
44%↓2%
출력 속도
일반 모드
45tok/s↓37
출력 시작 0.80s
추론 모드
63tok/s↓25
출력 시작 9.28s