GPT-OSS-120B는 OpenAI 최초의 오픈 가중치 언어 모델로, 총 1,170억 매개변수의 전문가 혼합(MoE) 구조에서 순방향 연산당 51억 개만 활성화합니다. 네이티브 MXFP4 양자화를 통해 80GB GPU 한 장에서 구동 가능하며, 핵심 추론 벤치마크에서 o4-mini에 근접하는 성능을 달성합니다. 사고 깊이 조절, 전체 사고 사슬 접근, 함수 호출과 구조화된 출력 등 도구 사용을 지원하며, Apache 2.0 라이선스로 공개되어 로컬 환경에서 자유롭게 활용할 수 있습니다.
API|심층 사고|공개 모델Apache 2.0
AI 성능 평가
Arena 종합 점수
1353
±4집계일 2026-04-23
종합 순위
149위
30,674 투표수
Arena 능력별 점수
한국어 능력
1263±25149위
복잡한 질문
1363±6156위
전문 지식
1360±17147위
지시 이행
1326±7163위
대화 기억
1328±9171위
창의력
1279±10203위
코딩 실력
1390±8154위
수학 능력
1383±14125위
Arena 직군별 점수
문학·창작
1310±8177위
생활·사회과학
1361±9160위
엔터·미디어
1287±8185위
경영·금융
1350±8154위
의학·보건
1369±15151위
법률·행정
1345±14171위
소프트웨어·IT
1386±6153위
수학·통계
1384±15125위
종합
AA Intelligence Index
25%↓14%
LiveBench
46%↓14%
추론·수학
AA Math Index
67%↓7%
GPQA Diamond
67%↓14%
HLE
5.2%↓12%
MMLU-Pro
78%↓4%
AIME 2025
67%↓7%
LB 추론
39%↓20%
LB 수학
69%↓5%
LB 데이터 분석
39%↓11%
코딩
AA Coding Index
16%↓19%
LiveCodeBench
71%↑5%
LB 코딩
60%↓13%
LB 에이전틱
17%↓27%
TAU2
45%↓28%
TerminalBench
5.3%↓26%
SciCode
36%↓5%
언어·지시
IFBench
58%↑2%
AA-LCR
44%↓18%
환각률 (HHEM)
14%↑4%
사실 일관성 (HHEM)
86%↓4%
LB 언어
49%↓23%
LB 지시
50%↑4%
출력 속도
일반 모드
86tok/s↑4
출력 시작 0.48s
추론 모드
214tok/s↑126
출력 시작 9.89s