AI 모델 비교

ERNIE 4.5 VL 424B A47B는 Baidu가 개발한 멀티모달 비전-언어 MoE 모델입니다. 텍스트와 이미지 입력을 받아 텍스트를 출력하며, 총 424B 파라미터 중 토큰당 47B를 활성화하고 131K 토큰 컨텍스트를 지원합니다. 텍스트와 비전을 함께 사전학습한 이종(heterogeneous) MoE 구조에 모달리티 격리 라우팅(modality-isolated routing)을 적용해, 한 모달리티가 다른 모달리티의 학습을 저해하지 않도록 설계됐습니다. thinking·non-thinking 두 모드를 지원하여, non-thinking 모드에서는 시각 인지·문서/차트 이해·시각 지식에서 강점을 보이고, thinking 모드에서는 그 인지 능력을 유지하면서 MathVista·MMMU·VisualPuzzle 같은 추론 중심 벤치마크에서 한층 향상된 멀티모달 추론 능력을 발휘해 OpenAI-o1과의 격차를 좁히거나 넘어서기도 합니다. SFT·DPO·UPO·RLVR로 후처리됐으며, 영어와 중국어를 지원하고 Apache 2.0 라이선스로 공개됐습니다.

제공사

Baidu

출시일

2025-07-01

학습완료일

—

라이선스

공개 모델

입출력 형식

처리용량

131K

API 입출력 (1M)

—

사용 방법

—

출력 속도

—

Arena 종합

—

Intelligence Index

—

Coding Index

—

Math Index

—

LiveBench

—

ForecastBench

—

GPQA Diamond

—

HLE

—

MMLU-Pro

—

AIME 2025

—

MATH-500

—

LB 추론

—

LB 수학

—

LB 데이터 분석

—

LiveCodeBench

—

LB 코딩

—

LB 에이전틱

—

TAU2

—

TerminalBench

—

SciCode

—

IFBench

—

AA-LCR

—

환각률 (HHEM)

—

사실 일관성 (HHEM)

—

LB 언어

—

LB 지시

—

비용 계산하기 AI 모델 상세 페이지

1 / 3

좌우로 스와이프

제공사