GPT-5.4는 2026년 3월에 출시된 OpenAI의 최신 프론티어 모델로, Codex와 GPT 제품군을 단일 시스템으로 통합했습니다. 100만 토큰 이상의 컨텍스트 창, 네이티브 컴퓨터 조작 기능, GPT-5.3-Codex에서 이어받은 최고 수준의 코딩 성능을 갖추고 있습니다. GPT-5.2 대비 토큰 효율이 크게 향상되었으며, 44개 직종에 걸친 지식 업무 벤치마크에서 전문가와 83% 동등 이상의 성과를 기록합니다. 에이전트형 코딩, 문서 이해, 도구 활용, 복잡한 다단계 워크플로에 뛰어납니다.
OpenAI PlusOpenAI ProAPI|비전심층 사고웹 검색파일|상용 모델
AI 성능 평가
Arena 종합 점수
1481
±6집계일 2026-04-23
종합 순위
9위
13,593 투표수
Arena 능력별 점수
한국어 능력
1413±3722위
복잡한 질문
1503±78위
전문 지식
1526±195위
지시 이행
1481±107위
대화 기억
1497±128위
창의력
1448±1415위
코딩 실력
1532±116위
수학 능력
1515±20🥈 2위
Arena 직군별 점수
문학·창작
1470±117위
생활·사회과학
1479±1324위
엔터·미디어
1448±1314위
경영·금융
1477±1210위
의학·보건
1475±2032위
법률·행정
1471±1925위
소프트웨어·IT
1513±99위
수학·통계
1516±22🥉 3위
종합
AA Intelligence Index
57%↑18%
LiveBench
81%↑21%
ForecastBench
58%↓1%
추론·수학
GPQA Diamond
92%↑11%
HLE
42%↑25%
LB 추론
88%↑28%
LB 수학
94%↑21%
LB 데이터 분석
79%↑30%
코딩
AA Coding Index
57%↑23%
LB 코딩
78%↑4%
LB 에이전틱
70%↑27%
TAU2
87%↑14%
TerminalBench
58%↑26%
SciCode
57%↑16%
언어·지시
IFBench
74%↑17%
AA-LCR
74%↑12%
환각률 (HHEM)
7.0%↓3%
사실 일관성 (HHEM)
93%↑3%
LB 언어
83%↑11%
LB 지시
70%↑24%
출력 속도
일반 모드
155tok/s↑73
출력 시작 0.55s
추론 모드
152tok/s↑64
출력 시작 7.32s
다국어 역량
MGSM 🇰🇷
94%
MGSM 🇯🇵
92%
KMMLU 🇰🇷
77%
JMMLU 🇯🇵
75%