16배 큰 모델 압도한 5B 모델 DeepGen 1.0
HuggingFace
2026년 2월 15일 (일)
- •이미지 생성과 편집을 통합 수행하는 50억(5B) 매개변수 규모의 멀티모달 모델 DeepGen 1.0이 공개됐다.
- •새로운 'Stacked Channel Bridging'과 '생각 토큰' 기술을 도입해 800억 규모의 대형 모델보다 뛰어난 성능을 입증했다.
- •단 5,000만 개의 데이터 샘플로 학습을 마쳤으며, 모델 가중치와 코드를 오픈소스로 배포했다.
DeepGen 1.0은 멀티모달 AI 분야의 효율성을 극대화하며, 고품질 결과물을 얻기 위해 반드시 방대한 매개변수가 필요하지 않음을 증명했다. 상하이 혁신 연구소(Shanghai Innovation Institute)가 개발한 이 50억(5B) 규모의 모델은 이미지 생성과 편집 작업을 동시에 수행한다. 특히 자기보다 5배에서 16배나 큰 경쟁 모델들조차 구현하기 힘든 수준의 정밀한 작업 처리가 가능하다는 점이 특징이다.
아키텍처 설계에는 'Stacked Channel Bridging(SCB)'이라는 새로운 프레임워크가 사용됐다. 이는 시각 언어 모델의 여러 계층에서 풍부한 정보를 추출해 결합하는 방식이다. 여기에 모델의 추론 과정을 돕는 특수 가이드인 '생각 토큰(think tokens)'을 더했다. 그 결과 DeepGen 1.0은 복잡한 프롬프트를 더욱 구조적으로 이해하게 되었으며, 시각적 정보와 이미지 수정을 위한 복잡한 논리 사이의 간극을 효과적으로 메웠다.
연구팀은 모델 성능을 높이기 위해 GRPO를 활용한 강화학습 등 총 3단계의 학습 전략을 시행했다. 이 과정에서 다양한 보상 함수를 활용해 인간의 선호도를 반영한 덕분에, 시각적 오류가 거의 없는 고화질 결과물을 안정적으로 생성한다. 상하이 혁신 연구소의 자키 왕(Jiaqi Wang, 연구원)과 팀원들은 현재 모델의 가중치와 코드를 오픈소스로 공개했다. 이는 막대한 컴퓨팅 자원이 없는 연구자들도 고성능 멀티모달 도구를 개발할 수 있도록 돕기 위한 결정이다.