텍스트 생성의 새로운 패러다임: Cola 잠재 공간 확산 모델
- •Cola DLM은 전통적인 자기회귀 언어 모델을 대체할 계층적 확산 기반 모델을 제시한다.
- •글로벌 의미론적 계획과 로컬 텍스트 생성을 두 단계로 분리하여 효율적으로 처리한다.
- •8개 벤치마크에서 강력한 확장성을 입증하며 토큰 단위 예측의 한계를 넘어서고 있다.
대부분의 현대 대규모 언어 모델(LLM)은 이전에 생성된 단어를 기반으로 다음 단어를 예측하는 엄격한 자기회귀 방식을 따른다. 이러한 좌측에서 우측으로 흐르는 생성 방식은 AI 혁명을 이끌었으나, 첫 토큰부터 선형적인 사고의 흐름을 따라야 한다는 경직된 제약을 안고 있다. 그 결과, 모델은 문장 전체의 구조를 미리 계획하지 못하고 눈앞의 단어에만 집중하는 근시안적 패턴에 갇히곤 한다. 이러한 한계를 극복하기 위해 등장한 'Cola 잠재 공간 확산 모델(Cola DLM)'은 의미 조직과 텍스트 생성을 분리하여 새로운 패러다임을 제시한다.
연구진은 계층적인 2단계 접근 방식을 제안한다. 첫 번째 단계에서 모델은 텍스트 변분 오토인코더(Text VAE)를 사용하여 원시 텍스트를 고차원적인 '잠재 공간'으로 변환한다. 이는 단순히 문자를 나열하는 대신, 글의 핵심 개념을 하나의 지도처럼 압축된 수학적 표현으로 바꾸는 과정이다. 이를 통해 모델은 철자나 문법에 얽매이지 않고 언어의 근본적인 구조를 먼저 학습하게 된다.
텍스트가 잠재 공간에 매핑되면 두 번째 단계인 블록 인과적 확산 트랜스포머(DiT)가 작동한다. 이 단계에서 모델은 단순히 다음 단어를 추측하는 것이 아니라, 노이즈에서 시작하여 잠재 개념을 점진적으로 정교화하며 일관된 구조를 완성한다. 연속적이고 압축된 공간에서 작동하기 때문에 기존 모델보다 유연한 비자기회귀적 귀납적 편향을 가지며, 전체적인 맥락을 먼저 고려한 뒤 최종 텍스트를 출력할 수 있게 된다.
학계에서는 이 접근 방식이 가져올 구조적 변화에 주목하고 있다. 초기 연구 논의에서 모델이 잠재 변수를 무시하고 단순한 예측으로 회귀하는 '사후 붕괴' 현상에 대한 우려가 제기되었으나, 저자들은 적절한 압축과 충실도 사이의 균형을 통해 잠재 공간의 유용성을 유지할 수 있음을 입증했다. 특히 잠재 블록 크기가 일종의 구조적 병목 역할을 하므로, 이를 정밀하게 설계하는 것이 모델의 성능을 결정짓는 핵심 하이퍼파라미터가 된다.
무엇보다 Cola DLM의 가장 고무적인 점은 강력한 확장성과 교차 모달 적용 가능성이다. 약 2000 EFLOPs까지의 확장 실험 결과, 이 계층적 방식은 성공적으로 작동하며 대규모 환경에서도 효율성을 유지했다. 토큰 단위 관찰에서 벗어난 이번 연구는 텍스트와 이미지, 오디오 생성이 동일한 수학적 기반을 공유하는 통합 모델링 아키텍처로 나아가는 이정표가 될 것으로 기대된다.