Qwen-Image-2.0が発表
HuggingFace
2026年5月13日 (水)
- •Qwen-Image-2.0は、高忠実度の画像生成と精密な編集を単一の先進的な基盤モデルフレームワークに統合した。
- •モデルは条件エンコーダーとしてQwen3-VLを採用し、マルチモーダル拡散トランスフォーマーを用いてターゲットの共同モデリングを行う。
- •Qwen-Image-2.0は1Kトークンのプロンプトをサポートし、テキストが豊富なコンテンツや多言語タイポグラフィ、写真のようなリアリズムを向上させた。
Qwen-Image-2.0は、高忠実度の合成と精密な編集を一つのフレームワークに統合した全能型画像生成基盤モデルである。2026年5月11日に研究者チームによって発表されたこのモデルは、入力プロンプトを処理してガイドするコンポーネントであるQwen3-VLを条件エンコーダーとして活用し、マルチモーダル拡散トランスフォーマーと組み合わせて条件とターゲットの共同モデリングを実現している。このアーキテクチャの統合と大規模なデータキュレーション、そして多段階の学習パイプラインにより、超長文テキストのレンダリングや多言語タイポグラフィ、複雑な視覚構成といった課題に対応可能となった。
このモデルは最大1Kトークンのプロンプトをサポートするように設計されており、ポスターやインフォグラフィック、漫画といったテキストを多く含むアセットの作成を容易にする。多言語テキストの再現性や多様なスタイルにおける指示追従性が向上したほか、より豊かなディテールやリアルな質感、整合性のとれたライティングによって写真のような生成品質を高めた。人間による評価において、Qwen-Image-2.0は生成および編集の両タスクで従来のQwen-Imageを大幅に上回っており、信頼性が高く多機能な画像生成基盤モデルの開発に向けた前進を示している。