ERNIE 4.5 VL 424B A47Bは、Baiduが開発したマルチモーダルなビジョン・言語MoEモデルです。テキストと画像の入力に対応してテキストを出力し、総パラメータ424Bのうちトークンあたり47Bを活性化し、131Kトークンのコンテキストウィンドウを備えています。テキストとビジョンを共同で事前学習した異種(heterogeneous)MoE構造にモダリティ分離ルーティング(modality-isolated routing)を採用し、一方のモダリティが他方の学習を妨げないよう設計されています。thinkingとnon-thinkingの2つのモードに対応しており、non-thinkingモードでは視覚認識・文書/チャート理解・視覚知識に強みを発揮し、thinkingモードではその認識能力を維持しつつ、MathVista・MMMU・VisualPuzzleといった推論中心のベンチマークでより高度なマルチモーダル推論能力を示し、OpenAI-o1との差を縮め、場合によっては上回ります。SFT・DPO・UPO・RLVRでポストトレーニングされ、英語と中国語に対応し、Apache 2.0ライセンスで公開されています。
ERNIE 4.5 VL 424B A47Bは、Baiduが開発したマルチモーダルなビジョン・言語MoEモデルです。テキストと画像の入力に対応してテキストを出力し、総パラメータ424Bのうちトークンあたり47Bを活性化し、131Kトークンのコンテキストウィンドウを備えています。テキストとビジョンを共同で事前学習した異種(heterogeneous)MoE構造にモダリティ分離ルーティング(modality-isolated routing)を採用し、一方のモダリティが他方の学習を妨げないよう設計されています。thinkingとnon-thinkingの2つのモードに対応しており、non-thinkingモードでは視覚認識・文書/チャート理解・視覚知識に強みを発揮し、thinkingモードではその認識能力を維持しつつ、MathVista・MMMU・VisualPuzzleといった推論中心のベンチマークでより高度なマルチモーダル推論能力を示し、OpenAI-o1との差を縮め、場合によっては上回ります。SFT・DPO・UPO・RLVRでポストトレーニングされ、英語と中国語に対応し、Apache 2.0ライセンスで公開されています。