GPT-5는 2025년 중반에 출시된 OpenAI의 통합 프론티어 모델로, 고급 추론, 코딩, 멀티모달 기능을 하나의 시스템에 통합했습니다. 설정 가능한 사고 깊이와 테스트 시 연산 확장을 도입하여 이전 모델 대비 환각과 아부성 응답을 크게 줄였습니다. 단계별 추론, 지시 따르기, 정확한 판단이 중요한 복잡한 다단계 작업에 뛰어나며, 코딩, 글쓰기, 사실 기반 신뢰성에서 눈에 띄는 향상을 보여줍니다.
API|비전심층 사고파일|상용 모델
AI 성능 평가
Arena 종합 점수
1434
±5집계일 2026-04-23
종합 순위
54위
31,986 투표수
Arena 능력별 점수
한국어 능력
1399±2335위
복잡한 질문
1446±665위
전문 지식
1459±1647위
지시 이행
1409±772위
대화 기억
1420±973위
창의력
1375±1096위
코딩 실력
1466±867위
수학 능력
1434±1446위
Arena 직군별 점수
문학·창작
1397±876위
생활·사회과학
1443±966위
엔터·미디어
1397±860위
경영·금융
1414±976위
의학·보건
1456±1556위
법률·행정
1455±1445위
소프트웨어·IT
1452±778위
수학·통계
1441±1449위
종합
AA Intelligence Index
22%↓17%
LiveBench
71%↑11%
ForecastBench
61%↑2%
추론·수학
AA Math Index
48%↓25%
GPQA Diamond
69%↓12%
HLE
5.8%↓11%
MMLU-Pro
82%↑0%
AIME 2025
48%↓25%
LB 추론
82%↑22%
LB 수학
86%↑13%
LB 데이터 분석
57%↑7%
코딩
AA Coding Index
21%↓13%
LiveCodeBench
54%↓11%
LB 코딩
72%↓2%
LB 에이전틱
52%↑8%
TAU2
0.0%↓73%
TerminalBench
13%↓18%
SciCode
38%↓3%
언어·지시
IFBench
45%↓12%
AA-LCR
64%↑2%
환각률 (HHEM)
15%↑5%
사실 일관성 (HHEM)
85%↓5%
LB 언어
81%↑9%
LB 지시
64%↑18%
출력 속도
일반 모드
77tok/s↓5
출력 시작 1.03s
추론 모드
85tok/s↓3
출력 시작 41.72s