Qwen-Image-2.0 파운데이션 모델 공개
HuggingFace
2026년 5월 13일 (수)
- •Qwen-Image-2.0은 고충실도 이미지 생성과 정교한 편집 기능을 단일 파운데이션 모델 프레임워크로 통합했다.
- •해당 모델은 Qwen3-VL 조건 인코더와 멀티모달 디퓨전 트랜스포머를 결합해 타겟 모델링을 수행한다.
- •1K 토큰 프롬프트를 지원하며, 텍스트가 많은 콘텐츠나 다국어 타이포그래피, 실사 이미지 생성 능력을 개선했다.
Qwen-Image-2.0은 고충실도 이미지 생성과 정교한 편집을 단일 프레임워크 내에서 통합한 만능형 이미지 생성 파운데이션 모델이다. 2026년 5월 11일 연구팀에 의해 발표된 이 모델은 Qwen3-VL을 조건 인코더(입력 프롬프트를 처리해 생성 가이드를 제공하는 구성 요소)로 사용하며, 이를 멀티모달 디퓨전 트랜스포머와 결합하여 조건과 대상을 동시에 모델링한다. 이러한 아키텍처 통합은 대규모 데이터 큐레이션 및 다단계 학습 파이프라인과 결합되어 초장문 텍스트 렌더링, 다국어 타이포그래피, 복잡한 시각적 구성 문제를 해결한다.
이 모델은 최대 1K 토큰의 프롬프트를 지원하도록 설계되어 포스터, 인포그래픽, 만화와 같이 텍스트가 풍부한 결과물을 생성하는 데 적합하다. 또한 다국어 텍스트 충실도를 높였고, 다양한 스타일 전반에서 명령 수행의 신뢰성을 확보했다. 나아가 세밀한 디테일과 사실적인 질감, 일관된 조명을 구현해 실사 이미지 생성 성능을 강화했다. 인간 평가 결과에 따르면, 이 모델은 이전 버전의 Qwen-Image 대비 생성 및 편집 작업 모두에서 눈에 띄는 성능 향상을 보이며 더 신뢰할 수 있고 범용적인 이미지 생성 모델로 나아가고 있다.