바이트댄스, 텍스트·이미지 통합한 혁신 AI '넥스트플로우' 공개
- •단일 모델 내에서 텍스트 이해와 이미지 생성을 동시에 구현하여 멀티모달 처리 효율을 극대화했다.
- •하위 규모 예측 전략을 통해 기존 방식보다 수십 배 빠른 5초 이내의 고해상도 이미지 생성을 실현했다.
- •6조 개의 토큰 학습과 강화학습 최적화를 통해 이미지 편집 및 영상 제작 등 전문적인 작업까지 지원한다.
바이트댄스(ByteDance) 연구진이 텍스트와 이미지를 단일 프레임워크 내에서 원활하게 처리할 수 있는 획기적인 통합 AI 모델인 '넥스트플로우(NextFlow)'를 전격 공개했다. 기존 기술들이 언어와 시각 작업을 수행하기 위해 서로 별개의 모델을 결합해 사용했던 것과 달리, 이번 연구는 두 영역을 하나의 거대한 신경망 아키텍처로 완전하게 통합하는 데 성공했다. 무려 6조 개의 토큰이라는 방대한 데이터를 바탕으로 학습된 넥스트플로우는 단순한 문장 이해의 수준을 넘어 정교한 이미지 편집과 고품질 비디오 생성까지 모두 수행할 수 있다. 특히 이러한 통합 구조는 멀티모달 AI의 정보 처리 효율성을 극대화하여 차세대 인공지능의 표준을 제시했다는 평가를 받는다.
이번 발표에서 가장 눈에 띄는 성과는 이미지 생성 속도의 비약적이고 기하급수적인 향상이다. 기존의 자기회귀(Autoregressive) 모델들은 이미지를 아주 미세한 조각 단위로 순차적으로 예측하며 처리했기에 고해상도 결과물을 얻기까지 긴 대기 시간이 필수적이었다. 반면 넥스트플로우는 모델이 전체적인 이미지 윤곽과 구조를 먼저 파악한 뒤 세부적인 디테일을 단계별로 덧입히는 혁신적인 '하위 규모 예측(sub-scale prediction)' 전략을 도입했다. 실제로 이러한 기술적 돌파구를 통해 기존 방식보다 수십 배 빠른 단 5초 만에 고해상도 이미지를 생성할 수 있게 되었으며, 이는 실시간 서비스 도입의 가능성을 강력하게 시사한다.
서로 이질적인 형태의 데이터를 완벽하게 조화시키기 위해 연구팀은 독창적이고 고도화된 학습 기법을 적용했다. 텍스트 데이터는 전통적인 순차 형식을 따르도록 설계된 한편, 이미지 데이터는 계층적으로 처리하여 언어와 시각 정보 간의 교차 모달 시너지를 극대화하는 방식을 취했다. 또한 강화학습(Reinforcement Learning) 기반의 최적화 알고리즘을 구현하여 사용자의 복잡한 의도를 더욱 정확하게 파악하고 출력물의 시각적 품질을 정교하게 다듬었다. 이에 따라 단순한 벤치마크 성능 수치를 넘어 실제 복잡한 요구사항이 존재하는 산업 현장에서도 높은 실용성을 발휘할 것으로 기대된다.
이러한 기술적 이정표는 인간과 인공지능이 상호작용하는 패러다임을 근본적으로 변화시킬 수 있는 잠재력을 지니고 있다. 사용자는 이제 텍스트와 각종 미디어가 혼잡하게 섞인 복잡한 문서를 매개로 AI와 자연스럽게 실시간 대화를 나누며 즉각적인 시각적 피드백을 확인할 수 있다. 한편 이러한 변화는 시각적 커뮤니케이션의 비중이 절대적인 교육, 콘텐츠 제작, 전문 디자인 등 다양한 산업 분야에서 AI의 활용 범위를 획기적으로 확장할 전망이다. 결과적으로 넥스트플로우의 등장은 인간과 기계가 창의적인 아이디어를 실시간으로 공유하며 발전시키는 협업적 창의성의 새로운 시대를 앞당길 것으로 보인다.