ERNIE 4.5 VL 424B A47B는 Baidu가 개발한 멀티모달 비전-언어 MoE 모델입니다. 텍스트와 이미지 입력을 받아 텍스트를 출력하며, 총 424B 파라미터 중 토큰당 47B를 활성화하고 131K 토큰 컨텍스트를 지원합니다. 텍스트와 비전을 함께 사전학습한 이종(heterogeneous) MoE 구조에 모달리티 격리 라우팅(modality-isolated routing)을 적용해, 한 모달리티가 다른 모달리티의 학습을 저해하지 않도록 설계됐습니다. thinking·non-thinking 두 모드를 지원하여, non-thinking 모드에서는 시각 인지·문서/차트 이해·시각 지식에서 강점을 보이고, thinking 모드에서는 그 인지 능력을 유지하면서 MathVista·MMMU·VisualPuzzle 같은 추론 중심 벤치마크에서 한층 향상된 멀티모달 추론 능력을 발휘해 OpenAI-o1과의 격차를 좁히거나 넘어서기도 합니다. SFT·DPO·UPO·RLVR로 후처리됐으며, 영어와 중국어를 지원하고 Apache 2.0 라이선스로 공개됐습니다.