AI 비교하기AI 사용하기AI 최신정보AI 커뮤니티
우리의 비전이용약관개인정보처리방침문의하기
Baidu
Baidu

ERNIE 4.5 VL 424B A47B

비교
2025-07-01
비교

ERNIE 4.5 VL 424B A47B는 Baidu가 개발한 멀티모달 비전-언어 MoE 모델입니다. 텍스트와 이미지 입력을 받아 텍스트를 출력하며, 총 424B 파라미터 중 토큰당 47B를 활성화하고 131K 토큰 컨텍스트를 지원합니다. 텍스트와 비전을 함께 사전학습한 이종(heterogeneous) MoE 구조에 모달리티 격리 라우팅(modality-isolated routing)을 적용해, 한 모달리티가 다른 모달리티의 학습을 저해하지 않도록 설계됐습니다. thinking·non-thinking 두 모드를 지원하여, non-thinking 모드에서는 시각 인지·문서/차트 이해·시각 지식에서 강점을 보이고, thinking 모드에서는 그 인지 능력을 유지하면서 MathVista·MMMU·VisualPuzzle 같은 추론 중심 벤치마크에서 한층 향상된 멀티모달 추론 능력을 발휘해 OpenAI-o1과의 격차를 좁히거나 넘어서기도 합니다. SFT·DPO·UPO·RLVR로 후처리됐으며, 영어와 중국어를 지원하고 Apache 2.0 라이선스로 공개됐습니다.

비전|공개 모델Apache 2.0
학습 완료일
비공개

이 AI가 학습을 마친 날짜입니다. 이후 발생한 사건이나 정보는 알지 못할 수 있습니다.

입력 형식 → 출력 형식

이 AI에게 전달할 수 있는 정보 유형과, AI가 생성할 수 있는 결과물 유형을 나타냅니다.

처리용량
131K

한 번의 요청에서 AI가 한꺼번에 읽고 처리할 수 있는 최대 분량입니다. 숫자가 클수록 긴 문서나 대화를 처리할 수 있습니다.

개별 비용(백만 글자)
—

이 AI를 직접 연동해 사용할 때 발생하는 비용입니다. 텍스트 100만 단위(토큰)당 달러 기준으로 표시됩니다.

비용 계산하기
BaiduBaidu