구글, 생성 모델 효율성 높이는 ‘Unified Latents’ 제안
- •구글 연구진이 잠재 표현 학습 효율을 극대화하는 Unified Latents(UL) 프레임워크를 공개했다.
- •ImageNet-512 벤치마크에서 1.4 FID를 달성하며 훈련에 필요한 연산량을 대폭 절감했다.
- •Kinetics-600 비디오 데이터셋에서 1.3 FVD라는 역대 최고 수준의 성과를 기록했다.
현재 대다수의 생성 모델은 이미 학습된 잠재 공간(Latent space)에 의존하고 있지만, 최근 구글 연구진은 이러한 근본적인 파이프라인에 의문을 제기하며 새로운 방식을 제안했다. 새롭게 공개된 Unified Latents(UL) 프레임워크는 확산 모델의 사전 정보를 정규화 과정에 직접 통합하여 잠재 표현의 학습 방식을 근본적으로 바꾼다. 이는 기존의 고정된 인코더에서 벗어나, 수행하려는 생성 작업에 최적화된 통합 시스템으로 잠재 공간을 조정하는 접근법이다.
기술적 핵심은 인코더의 출력 노이즈를 확산 사전 정보의 최소 노이즈 수준과 직접 연결하는 데 있다. 이를 통해 압축된 표현에 담기는 정보량을 수학적으로 측정하는 단위인 '잠재 비트 전송률(Latent Bitrate)'에 엄격한 상한선을 설정할 수 있게 된다. 특히 확산 모델을 활용해 복원을 수행함으로써, 이전 모델들보다 적은 연산량으로도 높은 복원 품질(PSNR)을 유지하며 데이터 처리 효율을 극대화했다.
실제 성능 지표에서도 뛰어난 성과를 보였다. ImageNet-512 벤치마크에서 UL은 1.4 FID라는 경쟁력 있는 점수를 기록했으며, 무엇보다 널리 쓰이는 Stable Diffusion의 잠재 공간 기반 모델보다 적은 훈련 연산량(FLOPs)으로도 이를 달성했다. 또한 Kinetics-600 데이터셋의 비디오 품질(FVD) 측정에서도 압도적인 성능을 보이며 업계 최고 수준의 기록을 경신했다.
이번 연구는 인코더와 확산 기반 사전 정보를 공동으로 최적화하는 것이 단순한 이론적 탐구를 넘어 고품질 생성 AI를 위한 실질적인 경로임을 시사한다. 특히 압축과 생성 사이의 연결고리를 강화함으로써, 향후 고해상도 이미지 및 비디오 모델의 훈련 속도를 획기적으로 높일 수 있는 발판을 마련했다는 평가다.