이 기사의 핵심 내용은?

MiniMax-M2.5는 2,290억 개의 매개변수를 갖춘 혼합 전문가 모델(MoE) 구조를 통해 GLM-4.7 수준의 성능을 구현했다. 에이전트 성능이 비약적으로 향상되어, GDPval-AA의 Elo 점수가 1,079점에서 1,215점으로 상승했다. 작업 정확도는 개선되었으나 할루시네이션 비율이 88%까지 치솟으며 데이터 신뢰도 면에서 과제를 남겼다.

MiniMax-M2.5 공개, 에이전트 성능 대폭 강화

•MiniMax-M2.5는 2,290억 개의 매개변수를 갖춘 혼합 전문가 모델(MoE) 구조를 통해 GLM-4.7 수준의 성능을 구현했다.
•에이전트 성능이 비약적으로 향상되어, GDPval-AA의 Elo 점수가 1,079점에서 1,215점으로 상승했다.
•작업 정확도는 개선되었으나 할루시네이션 비율이 88%까지 치솟으며 데이터 신뢰도 면에서 과제를 남겼다.

•MiniMax-M2.5는 2,290억 개의 매개변수를 갖춘 혼합 전문가 모델(MoE) 구조를 통해 GLM-4.7 수준의 성능을 구현했다.
•에이전트 성능이 비약적으로 향상되어, GDPval-AA의 Elo 점수가 1,079점에서 1,215점으로 상승했다.
•작업 정확도는 개선되었으나 할루시네이션 비율이 88%까지 치솟으며 데이터 신뢰도 면에서 과제를 남겼다.

MiniMax가 모델 라인업의 전략적 후속작인 MiniMax-M2.5를 출시했다. 이번 모델은 단순한 정확도보다는 실질적인 기능적 효용성에 우선순위를 둔 것이 특징이다. 특히 에너지 효율을 위해 모델의 일부만 활성화하는 2,290억 매개변수 규모의 혼합 전문가 모델(MoE) 구조를 유지하면서도, 복잡한 다단계 워크플로우를 처리하는 능력은 크게 향상됐다. 이러한 '에이전트 AI'로의 전환 덕분에 프레젠테이션 준비나 실시간 터미널 환경에서의 웹 리서치와 같은 실제 지식 노동 업무를 더욱 능숙하게 수행할 수 있게 되었다.

이번 업데이트는 개발자들에게 명확한 득과 실을 동시에 제시한다. 우선 GDPval-AA 벤치마크 성능 측면에서 이 모델은 전 세계 오픈 가중치(Open-weight) 모델 중 상위 3위권에 이름을 올렸다. 무엇보다 주목할 점은 탁월한 토큰 효율성이다. MiniMax-M2.5는 경쟁 모델보다 훨씬 적은 수의 출력 토큰만으로도 유사한 지능 수준에 도달할 수 있다. 그 결과 자율 코딩 도구나 리서치 툴을 구축하려는 이들에게 매우 매력적이고 비용 효율적인 선택지가 될 전망이다.

다만 이러한 자율성의 향상은 신뢰도의 희생을 동반했다. 실제로 벤치마크 결과에 따르면 모델이 거짓 정보를 자신 있게 제시하는 할루시네이션 비율이 88%까지 상승하며 진실성 부문에서 퇴보를 보였다. 이는 모델이 작업 수행 능력은 뛰어나지만, 스스로의 불확실성을 인정하는 능력은 부족해졌음을 시사한다. 따라서 사용자는 20만 토큰에 달하는 방대한 컨텍스트 창과 개선된 지시 이행 능력이라는 장점과 오정보 생성 위험 사이에서 신중하게 균형을 맞춰야 한다.

MiniMax가 모델 라인업의 전략적 후속작인 MiniMax-M2.5를 출시했다. 이번 모델은 단순한 정확도보다는 실질적인 기능적 효용성에 우선순위를 둔 것이 특징이다. 특히 에너지 효율을 위해 모델의 일부만 활성화하는 2,290억 매개변수 규모의 혼합 전문가 모델(MoE) 구조를 유지하면서도, 복잡한 다단계 워크플로우를 처리하는 능력은 크게 향상됐다. 이러한 '에이전트 AI'로의 전환 덕분에 프레젠테이션 준비나 실시간 터미널 환경에서의 웹 리서치와 같은 실제 지식 노동 업무를 더욱 능숙하게 수행할 수 있게 되었다.

이번 업데이트는 개발자들에게 명확한 득과 실을 동시에 제시한다. 우선 GDPval-AA 벤치마크 성능 측면에서 이 모델은 전 세계 오픈 가중치(Open-weight) 모델 중 상위 3위권에 이름을 올렸다. 무엇보다 주목할 점은 탁월한 토큰 효율성이다. MiniMax-M2.5는 경쟁 모델보다 훨씬 적은 수의 출력 토큰만으로도 유사한 지능 수준에 도달할 수 있다. 그 결과 자율 코딩 도구나 리서치 툴을 구축하려는 이들에게 매우 매력적이고 비용 효율적인 선택지가 될 전망이다.

다만 이러한 자율성의 향상은 신뢰도의 희생을 동반했다. 실제로 벤치마크 결과에 따르면 모델이 거짓 정보를 자신 있게 제시하는 할루시네이션 비율이 88%까지 상승하며 진실성 부문에서 퇴보를 보였다. 이는 모델이 작업 수행 능력은 뛰어나지만, 스스로의 불확실성을 인정하는 능력은 부족해졌음을 시사한다. 따라서 사용자는 20만 토큰에 달하는 방대한 컨텍스트 창과 개선된 지시 이행 능력이라는 장점과 오정보 생성 위험 사이에서 신중하게 균형을 맞춰야 한다.