AI比較AIを使うAI最新情報AIコミュニティ
私たちのビジョン利用規約プライバシーお問い合わせ

ERNIE 4.5 VL 424B A47Bは、Baiduが開発したマルチモーダルなビジョン・言語MoEモデルです。テキストと画像の入力に対応してテキストを出力し、総パラメータ424Bのうちトークンあたり47Bを活性化し、131Kトークンのコンテキストウィンドウを備えています。テキストとビジョンを共同で事前学習した異種(heterogeneous)MoE構造にモダリティ分離ルーティング(modality-isolated routing)を採用し、一方のモダリティが他方の学習を妨げないよう設計されています。thinkingとnon-thinkingの2つのモードに対応しており、non-thinkingモードでは視覚認識・文書/チャート理解・視覚知識に強みを発揮し、thinkingモードではその認識能力を維持しつつ、MathVista・MMMU・VisualPuzzleといった推論中心のベンチマークでより高度なマルチモーダル推論能力を示し、OpenAI-o1との差を縮め、場合によっては上回ります。SFT・DPO・UPO・RLVRでポストトレーニングされ、英語と中国語に対応し、Apache 2.0ライセンスで公開されています。

提供元
BaiduBaidu
リリース日
2025-07-01
学習完了日
—
ライセンス
公開モデル
入出力形式
コンテキスト長
131K
API入出力 (1M)
—
利用方法
—
出力速度
—
Arena 総合
—
Intelligence Index
—
Coding Index
—
Math Index
—
LiveBench
—
ForecastBench
—
GPQA Diamond
—
HLE
—
MMLU-Pro
—
AIME 2025
—
MATH-500
—
LB 推論
—
LB 数学
—
LB データ分析
—
LiveCodeBench
—
LB コーディング
—
LB エージェンティック
—
TAU2
—
TerminalBench
—
SciCode
—
IFBench
—
AA-LCR
—
幻覚率 (HHEM)
—
事実一貫性 (HHEM)
—
LB 言語
—
LB 指示
—
コスト計算AIモデル詳細ページ
1 / 3
左右にスワイプ

ERNIE 4.5 VL 424B A47Bは、Baiduが開発したマルチモーダルなビジョン・言語MoEモデルです。テキストと画像の入力に対応してテキストを出力し、総パラメータ424Bのうちトークンあたり47Bを活性化し、131Kトークンのコンテキストウィンドウを備えています。テキストとビジョンを共同で事前学習した異種(heterogeneous)MoE構造にモダリティ分離ルーティング(modality-isolated routing)を採用し、一方のモダリティが他方の学習を妨げないよう設計されています。thinkingとnon-thinkingの2つのモードに対応しており、non-thinkingモードでは視覚認識・文書/チャート理解・視覚知識に強みを発揮し、thinkingモードではその認識能力を維持しつつ、MathVista・MMMU・VisualPuzzleといった推論中心のベンチマークでより高度なマルチモーダル推論能力を示し、OpenAI-o1との差を縮め、場合によっては上回ります。SFT・DPO・UPO・RLVRでポストトレーニングされ、英語と中国語に対応し、Apache 2.0ライセンスで公開されています。

提供元
BaiduBaidu
リリース日
2025-07-01
学習完了日
—
ライセンス
公開モデル
入出力形式
コンテキスト長
131K
API入出力 (1M)
—
利用方法
—
出力速度
—
Arena 総合
—
Intelligence Index
—
Coding Index
—
Math Index
—
LiveBench
—
ForecastBench
—
GPQA Diamond
—
HLE
—
MMLU-Pro
—
AIME 2025
—
MATH-500
—
LB 推論
—
LB 数学
—
LB データ分析
—
LiveCodeBench
—
LB コーディング
—
LB エージェンティック
—
TAU2
—
TerminalBench
—
SciCode
—
IFBench
—
AA-LCR
—
幻覚率 (HHEM)
—
事実一貫性 (HHEM)
—
LB 言語
—
LB 指示
—
コスト計算AIモデル詳細ページ