SenseNova-U1がマルチモーダル理解と生成を統合
HuggingFace
2026年5月14日 (木)
- •研究チームはNEO-unifyアーキテクチャを採用したビジョン・言語モデル「SenseNova-U1」を発表した。
- •同シリーズは8Bの密なモデルと、30BのMoE(混合エキスパート)モデルの2種類で構成される。
- •画像生成やエージェントの意思決定、視覚・言語・行動の推論において高い性能を示す。
5月12日、研究チームはマルチモーダルな理解と生成を単一の統合アーキテクチャで実現する「SenseNova-U1」シリーズを発表した。現在の大型ビジョン・言語モデル(VLM)は視覚認識と生成を別々の処理として扱い、パイプラインが断片化しやすいという構造的課題を抱えている。今回導入されたNEO-unifyアーキテクチャは、理解と生成を単一の知能プロセスとして統合することで、これまでの非効率を解消した。
リリースされたモデルは、8Bパラメータを持つ密な構成の「SenseNova-U1-8B-MoT」と、30Bの混合エキスパート(MoE)による「SenseNova-U1-A3B-MoT」の2種類である。これらのモデルは、アダプターや多段システムを介さず、ネイティブなマルチモーダル推論を実行可能だ。評価の結果、テキスト理解、視覚・言語認識、知識推論、エージェントの意思決定、空間認識といった各カテゴリーで、従来の理解特化型VLMと同等の性能を実証した。
標準ベンチマークを超えて、知識集約型の画像生成(X2I)、テキストを含むインフォグラフィックの作成、視覚・言語の混在コンテンツ生成においても優れた能力を発揮する。さらに、視覚・言語・行動(VLA)やワールドモデル(WM)のシナリオでも有効に機能することが示唆された。研究チームは、統合型マルチモーダルパラダイムの研究を促進するため、モデル設計やデータ前処理、学習戦略の詳細を公開している。