StepFun, 235B급 성능의 10B 모델 STEP3-VL-10B 전격 공개
- •StepFun이 자신의 체급보다 20배 큰 거대 모델들과 대등한 성능을 자랑하는 오픈소스 모델 STEP3-VL-10B를 출시했다.
- •1.2조 개의 토큰을 활용한 통합 사전 학습과 Qwen3-8B 디코더를 통해 MMBench에서 92.2%의 고득점을 기록했다.
- •PaCoRe 기술을 도입하여 복잡한 시각 수학 문제 해결을 위한 추론 연산량 확장을 성공적으로 구현했다.
StepFun이 체급을 뛰어넘는 강력한 멀티모달 기반 모델 STEP3-VL-10B를 공개했다. 100억 개의 매개변수라는 비교적 가벼운 규모임에도 불구하고, Gemini 2.5 Pro나 235B 규모의 Qwen3-VL 같은 거대 모델과 대등하거나 이를 능가하는 퍼포먼스를 보여준다. 이러한 효율의 비결은 인식 인코더와 언어 디코더를 완전히 개방한 상태에서 1.2조 개의 토큰으로 함께 학습시킨 '통합' 사전 학습 전략에 있다. 덕분에 시각과 언어 요소가 완벽한 조화를 이루며 작동한다. 이번 혁신의 핵심은 추론 과정에서의 사고 방식에 있다. StepFun은 'Parallel Coordinated Reasoning(PaCoRe)' 기법을 통해 모델의 추론 연산량 확장을 가능케 했다. 모델이 최종 답변을 내놓기 전, 다양한 시각적 가설을 탐색하고 종합할 수 있는 충분한 '생각할 시간'을 부여하는 방식이다. 그 결과 AIME2025 벤치마크에서 94.43%라는 놀라운 성적을 거두며 뛰어난 논리력을 입증했다. 설계의 영리함과 확장 전략이 단순한 매개변수 숫자의 한계를 압도할 수 있음을 보여준 사례다. 모델의 완성도를 높이기 위한 사후 학습도 치밀했다. 1,000회 이상의 강화학습 반복을 거쳐 정확도와 정렬 수준을 극대화했다. 이러한 반복 공정은 MathVision 테스트에서 75.95%의 정확도를 기록하는 등 복잡한 시각적 과제를 수행하는 밑거름이 됐다. StepFun은 전체 모델 제품군을 오픈소스로 공개하며, 올바른 지각 추론 기술만 뒷받침된다면 소형 모델도 충분히 최첨단 멀티모달 인공지능을 구현할 수 있다는 표준을 제시했다.