AI 비교하기AI 사용하기AI 최신정보AI 커뮤니티
우리의 비전이용약관개인정보처리방침문의하기

ERNIE 4.5 VL 424B A47B는 Baidu가 개발한 멀티모달 비전-언어 MoE 모델입니다. 텍스트와 이미지 입력을 받아 텍스트를 출력하며, 총 424B 파라미터 중 토큰당 47B를 활성화하고 131K 토큰 컨텍스트를 지원합니다. 텍스트와 비전을 함께 사전학습한 이종(heterogeneous) MoE 구조에 모달리티 격리 라우팅(modality-isolated routing)을 적용해, 한 모달리티가 다른 모달리티의 학습을 저해하지 않도록 설계됐습니다. thinking·non-thinking 두 모드를 지원하여, non-thinking 모드에서는 시각 인지·문서/차트 이해·시각 지식에서 강점을 보이고, thinking 모드에서는 그 인지 능력을 유지하면서 MathVista·MMMU·VisualPuzzle 같은 추론 중심 벤치마크에서 한층 향상된 멀티모달 추론 능력을 발휘해 OpenAI-o1과의 격차를 좁히거나 넘어서기도 합니다. SFT·DPO·UPO·RLVR로 후처리됐으며, 영어와 중국어를 지원하고 Apache 2.0 라이선스로 공개됐습니다.

제공사
BaiduBaidu
출시일
2025-07-01
학습완료일
—
라이선스
공개 모델
입출력 형식
처리용량
131K
API 입출력 (1M)
—
사용 방법
—
출력 속도
—
Arena 종합
—
Intelligence Index
—
Coding Index
—
Math Index
—
LiveBench
—
ForecastBench
—
GPQA Diamond
—
HLE
—
MMLU-Pro
—
AIME 2025
—
MATH-500
—
LB 추론
—
LB 수학
—
LB 데이터 분석
—
LiveCodeBench
—
LB 코딩
—
LB 에이전틱
—
TAU2
—
TerminalBench
—
SciCode
—
IFBench
—
AA-LCR
—
환각률 (HHEM)
—
사실 일관성 (HHEM)
—
LB 언어
—
LB 지시
—
비용 계산하기AI 모델 상세 페이지
1 / 3
좌우로 스와이프

ERNIE 4.5 VL 424B A47B는 Baidu가 개발한 멀티모달 비전-언어 MoE 모델입니다. 텍스트와 이미지 입력을 받아 텍스트를 출력하며, 총 424B 파라미터 중 토큰당 47B를 활성화하고 131K 토큰 컨텍스트를 지원합니다. 텍스트와 비전을 함께 사전학습한 이종(heterogeneous) MoE 구조에 모달리티 격리 라우팅(modality-isolated routing)을 적용해, 한 모달리티가 다른 모달리티의 학습을 저해하지 않도록 설계됐습니다. thinking·non-thinking 두 모드를 지원하여, non-thinking 모드에서는 시각 인지·문서/차트 이해·시각 지식에서 강점을 보이고, thinking 모드에서는 그 인지 능력을 유지하면서 MathVista·MMMU·VisualPuzzle 같은 추론 중심 벤치마크에서 한층 향상된 멀티모달 추론 능력을 발휘해 OpenAI-o1과의 격차를 좁히거나 넘어서기도 합니다. SFT·DPO·UPO·RLVR로 후처리됐으며, 영어와 중국어를 지원하고 Apache 2.0 라이선스로 공개됐습니다.

제공사
BaiduBaidu
출시일
2025-07-01
학습완료일
—
라이선스
공개 모델
입출력 형식
처리용량
131K
API 입출력 (1M)
—
사용 방법
—
출력 속도
—
Arena 종합
—
Intelligence Index
—
Coding Index
—
Math Index
—
LiveBench
—
ForecastBench
—
GPQA Diamond
—
HLE
—
MMLU-Pro
—
AIME 2025
—
MATH-500
—
LB 추론
—
LB 수학
—
LB 데이터 분석
—
LiveCodeBench
—
LB 코딩
—
LB 에이전틱
—
TAU2
—
TerminalBench
—
SciCode
—
IFBench
—
AA-LCR
—
환각률 (HHEM)
—
사실 일관성 (HHEM)
—
LB 언어
—
LB 지시
—
비용 계산하기AI 모델 상세 페이지