AIモデル比較

ERNIE 4.5 VL 424B A47Bは、Baiduが開発したマルチモーダルなビジョン・言語MoEモデルです。テキストと画像の入力に対応してテキストを出力し、総パラメータ424Bのうちトークンあたり47Bを活性化し、131Kトークンのコンテキストウィンドウを備えています。テキストとビジョンを共同で事前学習した異種（heterogeneous）MoE構造にモダリティ分離ルーティング（modality-isolated routing）を採用し、一方のモダリティが他方の学習を妨げないよう設計されています。thinkingとnon-thinkingの2つのモードに対応しており、non-thinkingモードでは視覚認識・文書/チャート理解・視覚知識に強みを発揮し、thinkingモードではその認識能力を維持しつつ、MathVista・MMMU・VisualPuzzleといった推論中心のベンチマークでより高度なマルチモーダル推論能力を示し、OpenAI-o1との差を縮め、場合によっては上回ります。SFT・DPO・UPO・RLVRでポストトレーニングされ、英語と中国語に対応し、Apache 2.0ライセンスで公開されています。

提供元

Baidu

リリース日

2025-07-01

学習完了日

—

ライセンス

公開モデル

入出力形式

コンテキスト長

131K

API入出力 (1M)

—

利用方法

—

出力速度

—

Arena 総合

—

Intelligence Index

—

Coding Index

—

Math Index

—

LiveBench

—

ForecastBench

—

GPQA Diamond

—

HLE

—

MMLU-Pro

—

AIME 2025

—

MATH-500

—

LB 推論

—

LB 数学

—

LB データ分析

—

LiveCodeBench

—

LB コーディング

—

LB エージェンティック

—

TAU2

—

TerminalBench

—

SciCode

—

IFBench

—

AA-LCR

—

幻覚率 (HHEM)

—

事実一貫性 (HHEM)

—

LB 言語

—

LB 指示

—

コスト計算 AIモデル詳細ページ

1 / 3

左右にスワイプ

提供元