이 기사의 핵심 내용은?

MiniCPM-V 4.6 1.3B Instruct, 'Artificial Analysis Intelligence Index'에서 13점 기록 MMMU-Pro에서 38% 달성하여 2B 파라미터 미만 오픈 가중치 모델 중 최고 성능 확보 조밀 아키텍처 기반의 효율성 입증, 인덱스 벤치마킹에 5.4M 출력 토큰만 소요

OpenBMB, 멀티모달 모델 MiniCPM-V 4.6 1.3B 공개

•MiniCPM-V 4.6 1.3B Instruct, 'Artificial Analysis Intelligence Index'에서 13점 기록
•MMMU-Pro에서 38% 달성하여 2B 파라미터 미만 오픈 가중치 모델 중 최고 성능 확보
•조밀 아키텍처 기반의 효율성 입증, 인덱스 벤치마킹에 5.4M 출력 토큰만 소요

OpenBMB가 2026년 5월 11일, 텍스트와 이미지, 비디오 입력을 지원하는 비전-언어 모델 'MiniCPM-V 4.6 1.3B Instruct'를 공개했다. 칭화대학교 NLP 연구소와 ModelBest가 협력하여 개발한 이 모델은 1.3B 파라미터의 조밀(dense) 아키텍처를 채택했으며, Apache 2.0 라이선스로 Hugging Face를 통해 배포된다.

이 모델은 'Artificial Analysis Intelligence Index'에서 13점을 기록하며 Qwen3.5 0.8B(10점)를 앞섰고, Qwen3.5 2B(15점)의 뒤를 이었다. 특히 시각적 추론 작업인 MMMU-Pro에서 38%를 기록해 2B 파라미터 미만의 오픈 가중치 모델 중 가장 높은 성능을 보였다. 또한, 인덱스 벤치마킹 시 5.4M 출력 토큰만을 사용하여 Qwen3.5 0.8B(101M) 대비 약 19배, 다른 0.8B 모델(233M) 대비 약 43배 적은 토큰으로 동일한 작업을 수행하는 높은 효율성을 입증했다.

다만 지식 회상 능력에는 한계가 있어 AA-Omniscience 벤치마크에서 -85점을 기록했다. 이는 Exaone 4.0 1.2B(-83점)나 Qwen3.5 0.8B(-89점) 등 유사 규모의 비추론 모델들과 유사한 수준이다. 모델은 262K 컨텍스트 윈도우와 BF16 정밀도를 지원한다.

OpenBMB가 2026년 5월 11일, 텍스트와 이미지, 비디오 입력을 지원하는 비전-언어 모델 'MiniCPM-V 4.6 1.3B Instruct'를 공개했다. 칭화대학교 NLP 연구소와 ModelBest가 협력하여 개발한 이 모델은 1.3B 파라미터의 조밀(dense) 아키텍처를 채택했으며, Apache 2.0 라이선스로 Hugging Face를 통해 배포된다.

이 모델은 'Artificial Analysis Intelligence Index'에서 13점을 기록하며 Qwen3.5 0.8B(10점)를 앞섰고, Qwen3.5 2B(15점)의 뒤를 이었다. 특히 시각적 추론 작업인 MMMU-Pro에서 38%를 기록해 2B 파라미터 미만의 오픈 가중치 모델 중 가장 높은 성능을 보였다. 또한, 인덱스 벤치마킹 시 5.4M 출력 토큰만을 사용하여 Qwen3.5 0.8B(101M) 대비 약 19배, 다른 0.8B 모델(233M) 대비 약 43배 적은 토큰으로 동일한 작업을 수행하는 높은 효율성을 입증했다.

다만 지식 회상 능력에는 한계가 있어 AA-Omniscience 벤치마크에서 -85점을 기록했다. 이는 Exaone 4.0 1.2B(-83점)나 Qwen3.5 0.8B(-89점) 등 유사 규모의 비추론 모델들과 유사한 수준이다. 모델은 262K 컨텍스트 윈도우와 BF16 정밀도를 지원한다.