알리바바 Qwen3-Max-Thinking 공개, 추론 모델 경쟁 가속화
- •알리바바가 Qwen3-Max-Thinking을 출시하며 프리뷰 버전 대비 지능 지수를 8점이나 끌어올렸다.
- •지시 이행과 에이전틱 작업에서 뛰어난 역량을 보이지만, 사실 관계의 정확성 면에서는 경쟁 모델에 뒤처지는 모습이다.
- •256k 컨텍스트 윈도우를 지원하는 이 모델은 자체 가중치를 사용하며 계층별 유료 요금제로 운영된다.
알리바바가 자사의 플래그십 추론 모델인 Qwen3-Max-Thinking을 공식 공개하며 중국 AI 개발 경쟁의 새로운 서막을 알렸다. 프리뷰 버전과 비교해 지능 수준이 비약적으로 상승했다는 점은 고무적이나, 독립 벤치마크 결과는 다소 중립적인 위치에 머물렀다.
MiniMax-M2.1과는 어깨를 나란히 했지만 Kimi K2.5나 DeepSeek V3.2 같은 선두 주자들을 추월하기에는 역부족이었기 때문이다. 이번 출시는 단순히 다음 단어를 예측하는 것을 넘어 복잡한 논리 구조를 처리하도록 설계된 '사고형' 모델의 급격한 진화 속도를 여실히 보여준다.
가장 눈에 띄는 성과는 일반 추론 능력과 사용자의 세밀한 요구사항을 지키는 지시 이행 능력에서 발견됐다. Qwen3-Max-Thinking은 AI 추론의 한계를 측정하는 '인류 마지막 시험(HLE)' 벤치마크에서 기존 대비 두 배에 가까운 점수를 기록했다.
또한 다단계 지침을 수행하는 능력에서 지역 내 경쟁 모델들을 앞서기 시작했다. 특히 데이터 분석이나 보고서 초안 작성처럼 AI가 자율적인 비서 역할을 수행하는 에이전틱 AI 루프 환경에서도 한층 향상된 성능을 입증했다.
하지만 'Max Thinking'이라는 타이틀에는 명확한 한계도 존재한다. 알리바바는 이 모델의 가중치를 공개하지 않는 폐쇄형 정책을 택했으며, 논리력은 강화됐으나 사실 관계의 정확성과 할루시네이션 사이의 균형 문제는 여전한 숙제로 남았다.
256k 컨텍스트 윈도우와 텍스트 전용 인터페이스를 갖춘 이 모델은 고난도 텍스트 기반 논리 업무의 핵심 도구로 자리 잡을 전망이다. 다만 글로벌 지능 순위의 최정상을 차지하기 위해서는 아직 보완해야 할 점이 많다는 평가가 지배적이다.