PerceptionDLM:並列領域認識によるマルチモーダル生成の高速化
- •PerceptionDLMは、マルチモーダル視覚キャプションタスクにおいて並列領域認識を可能にし、遅延を低減する。
- •ベースラインモデルは16のベンチマークのうち15でLLaDA-Vを上回り、Qwen2.5-VLと競合する性能を示す。
- •研究チームは、キャプションの品質と推論速度のトレードオフを測定するためのParaDLC-Benchデータセットを導入した。
ByteDanceおよびMSALabの研究者らは、視覚理解タスクにおける効率的な並列領域認識のためのマルチモーダル拡散言語モデル「PerceptionDLM」を発表した。2026年6月17日に公開された本フレームワークは、画像領域を順次処理する従来の自己回帰型モデルの課題を、拡散ベースのアーキテクチャが持つ並列デコーディング機能によって解決する。このモデルは、構造的アテンションマスキングと効率的なプロンプティングを活用し、単一のノイズ除去パスで複数のマスクされた画像領域に対する記述を同時に生成する。
アーキテクチャの基盤である「PerceptionDLM-Base」は、既存のLLaDA-Vモデルを16のマルチモーダルベンチマークのうち15で上回ると報告されている。本研究によれば、PerceptionDLMはQwen2.5-VLやInternVL3といった主要な自己回帰型モデルと同等の性能を維持しつつ、複数領域のキャプション生成に伴う遅延を大幅に削減した。著者らはこれらの機能を評価するため、1画像あたりの領域マスク数を増やして生成精度と推論効率を測定する「ParaDLC-Bench」を開発した。プロジェクトチームは2026年6月22日にソースコード、事前学習済みモデルの重み、評価スイートを公開した。
PerceptionDLMは、領域キャプション生成における標準的な手法を転換し、領域ごとに順次出力することで生じる線形的な遅延増大を排除する。指定された全領域を同時に処理することで、キャプションの正確性と計算効率のより良好なバランスを実現した。本研究は、拡散言語モデルを通じて並列領域認識を実装する初の取り組みであり、多数の画像セグメントを個別に記述する必要がある高密度な視覚認識タスクにおいて、本アーキテクチャがより効果的に拡張できる可能性を示している。