MiniMax M2.5는 수십만 개의 복잡한 실제 환경에서 강화 학습으로 훈련된 프론티어 언어 모델로, SWE-Bench Verified 80.2%, Multi-SWE-Bench 51.3%, BrowseComp 76.3%의 최고 수준 점수를 달성합니다. M2.1의 코딩 전문성을 기반으로 일반 사무 생산성까지 확장하여 Word, Excel, PowerPoint 파일의 생성·조작, 다양한 소프트웨어 환경 간 전환, 에이전트와 사람 팀 간 협업이 가능합니다. M2.1 대비 37% 빠르게 평가를 완료하며, 시간당 1달러로 연속 실행이 가능할 만큼 비용 효율적입니다.
API|심층 사고|공개 모델Modified MIT
AI 성능 평가
Arena 종합 점수
1400
±5집계일 2026-04-23
종합 순위
100위
21,236 투표수
Arena 능력별 점수
한국어 능력
1285±33132위
복잡한 질문
1425±691위
전문 지식
1440±1571위
지시 이행
1396±892위
대화 기억
1408±1092위
창의력
1376±1094위
코딩 실력
1456±987위
수학 능력
1411±1581위
Arena 직군별 점수
문학·창작
1384±993위
생활·사회과학
1408±11107위
엔터·미디어
1382±1084위
경영·금융
1412±1083위
의학·보건
1405±16116위
법률·행정
1411±1694위
소프트웨어·IT
1442±790위
수학·통계
1416±1883위
종합
AA Intelligence Index
42%↑4%
LiveBench
60%↑0%
추론·수학
GPQA Diamond
85%↑4%
HLE
19%↑2%
LB 추론
59%↑0%
LB 수학
77%↑4%
LB 데이터 분석
50%↑0%
코딩
AA Coding Index
37%↑3%
LB 코딩
71%↓3%
LB 에이전틱
52%↑8%
TAU2
95%↑22%
TerminalBench
35%↑4%
SciCode
43%↑2%
언어·지시
IFBench
72%↑15%
AA-LCR
66%↑4%
LB 언어
55%↓17%
LB 지시
57%↑11%
출력 속도
일반 모드
104tok/s↑22
출력 시작 20.51s