이 기사의 핵심 내용은?

InterleaveThinker는 멀티 에이전트 계획 및 비평 파이프라인을 통해 순차적인 텍스트-이미지 생성을 가능하게 한다. 이 시스템은 Interleave-Planner-SFT-80k와 Interleave-Critic-RL-13k 등 특화된 데이터셋을 사용하여 강화학습을 수행한다. InterleaveThinker는 주요 시각 및 추론 벤치마크에서 GPT-5 및 Nano Banana와 대등한 성능을 기록했다.

InterleaveThinker, 순차적 텍스트-이미지 생성 기술 공개

HuggingFace

2026년 6월 13일 (토)

•InterleaveThinker는 멀티 에이전트 계획 및 비평 파이프라인을 통해 순차적인 텍스트-이미지 생성을 가능하게 한다.
•이 시스템은 Interleave-Planner-SFT-80k와 Interleave-Critic-RL-13k 등 특화된 데이터셋을 사용하여 강화학습을 수행한다.
•InterleaveThinker는 주요 시각 및 추론 벤치마크에서 GPT-5 및 Nano Banana와 대등한 성능을 기록했다.

•InterleaveThinker는 멀티 에이전트 계획 및 비평 파이프라인을 통해 순차적인 텍스트-이미지 생성을 가능하게 한다.
•이 시스템은 Interleave-Planner-SFT-80k와 Interleave-Critic-RL-13k 등 특화된 데이터셋을 사용하여 강화학습을 수행한다.
•InterleaveThinker는 주요 시각 및 추론 벤치마크에서 GPT-5 및 Nano Banana와 대등한 성능을 기록했다.

다이앤 정(Dian Zheng)과 연구진은 2026년 6월 11일, 기존 이미지 생성 모델을 활용해 텍스트와 이미지가 혼합된 순차적 시퀀스를 생성하는 멀티 에이전트 프레임워크인 InterleaveThinker를 공개했다. 기존 모델들이 순차적인 시각적 내러티브 생성에 어려움을 겪는 반면, 이 시스템은 입력 시퀀스를 구성하는 플래너 에이전트와 지시 사항 준수 여부를 확인해 결과물을 개선하는 비평 에이전트를 도입했다.

프레임워크 구축을 위해 연구진은 초기 학습용 데이터셋인 Interleave-Planner-SFT-80k와 Interleave-Critic-SFT-112k를 제작했다. 이후 GRPO를 활용해 지시 사항 교정을 강화하는 Interleave-Critic-RL-13k 데이터셋을 개발했다. 생성 과정에서 25회 이상의 호출이 발생하는 경우가 많아, 연구진은 효율적인 단일 단계 강화학습을 위해 정확도 기반의 단계별 보상 체계를 구현했다.

InterleaveThinker는 주요 시각 벤치마크에서 Nano Banana 및 GPT-5와 대등한 성능을 보였다. 또한 4단계 FLUX.2-klein 모델 아키텍처를 사용하여 WISE 및 RISE 벤치마크에서 추론 능력이 크게 향상되었다. 해당 연구는 깃허브(GitHub)에 공개되었으며, 상세 프로젝트 문서는 InterleaveThinker 페이지에서 확인할 수 있다.

원문 보기 (영어)·2026년 6월 13일

#interleavethinker #multimodal #grpo #image generation #reinforcement learning

InterleaveThinker, 순차적 텍스트-이미지 생성 기술 공개

HuggingFace

2026년 6월 13일 (토)

•InterleaveThinker는 멀티 에이전트 계획 및 비평 파이프라인을 통해 순차적인 텍스트-이미지 생성을 가능하게 한다.
•이 시스템은 Interleave-Planner-SFT-80k와 Interleave-Critic-RL-13k 등 특화된 데이터셋을 사용하여 강화학습을 수행한다.
•InterleaveThinker는 주요 시각 및 추론 벤치마크에서 GPT-5 및 Nano Banana와 대등한 성능을 기록했다.

•InterleaveThinker는 멀티 에이전트 계획 및 비평 파이프라인을 통해 순차적인 텍스트-이미지 생성을 가능하게 한다.
•이 시스템은 Interleave-Planner-SFT-80k와 Interleave-Critic-RL-13k 등 특화된 데이터셋을 사용하여 강화학습을 수행한다.
•InterleaveThinker는 주요 시각 및 추론 벤치마크에서 GPT-5 및 Nano Banana와 대등한 성능을 기록했다.

원문 보기 (영어)·2026년 6월 13일

#interleavethinker #multimodal #grpo #image generation #reinforcement learning