InterleaveThinker、テキストと画像の連続生成を実現
HuggingFace
2026年6月13日 (土)
- •InterleaveThinkerは、新しいマルチエージェント計画および評価パイプラインを通じて、テキストと画像を交互に生成する。
- •本システムは、Interleave-Planner-SFT-80kやInterleave-Critic-RL-13kといった専門データセットを利用して強化学習を行っている。
- •InterleaveThinkerは、確立された視覚および推論ベンチマークにおいて、GPT-5やNano Bananaと同等の性能を達成した。
ディアン・チェン(Dian Zheng)らの研究チームは、2026年6月11日にInterleaveThinkerを発表した。これは既存の画像生成モデルに対して、テキストと画像を交互に生成する連続的なシーケンス構築を可能にするマルチエージェントフレームワークである。従来のモデルでは困難であった一貫性のある視覚的な物語生成に対し、本パイプラインは計画エージェントが入力シーケンスを整理し、評価エージェントが出力の指示遵守を改善する仕組みを採用している。
開発にあたり、チームは初期学習用にInterleave-Planner-SFT-80kとInterleave-Critic-SFT-112kデータセットを作成した。さらに、GRPO(生成ポリシーを最適化するための強化学習手法)を用いた指示修正の強化を目的に、Interleave-Critic-RL-13kデータセットを開発した。生成プロセスが25回以上の生成呼び出しを伴う場合があるため、研究チームは精度とステップ単位の報酬を導入し、効率的なシングルステップ強化学習を実現している。
InterleaveThinkerは、主要な視覚ベンチマークにおいてNano BananaやGPT-5と同等の性能を示した。また、4ステップのFLUX.2-kleinモデルアーキテクチャを用いたWISEおよびRISEベンチマークにおいて、ベースモデルの推論能力が大幅に向上したことが確認されている。現在、研究成果はGitHubで公開されており、プロジェクトの詳細はInterleaveThinkerのページで確認可能だ。