비디오 AI 생성 최적화 프레임워크, Stream-R1 등장
- •Stream-R1은 적응형 가중치 방식을 통해 비디오 확산 모델의 증류 성능을 개선했다.
- •추론 비용을 늘리지 않으면서도 시각적 품질과 동작의 자연스러움을 극대화한다.
- •VBench 등 주요 벤치마크에서 기존의 다단계 교사 모델보다 뛰어난 성능을 입증했다.
생성형 비디오 기술은 놀라운 속도로 발전하고 있지만, 고질적인 병목 현상인 추론 속도가 여전히 발목을 잡고 있다. 부드러운 영상미를 구현하기 위해서는 막대한 연산 자원이 필요하며, 이를 해결하기 위해 연구진은 대규모 모델(교사)의 능력을 작고 빠른 모델(학생)에게 전수하는 증류 기법을 주로 활용한다. 그러나 기존 방식은 성능의 한계에 부딪히는 경우가 많았다.
일반적으로 스트리밍 비디오 생성 모델은 모든 프레임과 픽셀을 동일한 비중으로 학습한다. 교사 모델의 출력을 학생 모델이 무비판적으로 모방하는 방식은 불필요한 데이터까지 과도하게 학습하게 만들어 효율성을 떨어뜨린다. 특히 모델이 고품질 데이터에 집중해야 할 상황에서 노이즈에 매몰되는 결과를 초래하곤 한다.
이러한 문제를 해결하기 위해 등장한 Stream-R1은 적응형 가중치라는 차별화된 접근 방식을 제안한다. 연구진은 비디오 생성 과정에서 특정 순간과 화면 내 특정 영역이 품질 유지에 훨씬 더 중요하다는 점에 주목했다. 시스템은 신뢰도가 높은 데이터를 선별하고 학습 과정을 지능적으로 조율함으로써 학습 효율을 극대화한다.
구체적으로는 '상호 신뢰성'과 '내부 복잡도'라는 두 가지 필터를 활용한다. 이를 통해 모델은 학습이 필요한 프레임과 픽셀에 집중하며, 이미 품질이 충분한 영역에는 자원을 낭비하지 않는다. 그 결과, 기본 아키텍처를 변경하거나 별도의 연산 비용을 추가하지 않고도 시각적 품질과 텍스트 정렬 정확도를 획기적으로 개선할 수 있었다.
AI 생성 콘텐츠가 일상이 된 오늘날, 하드웨어 요구 사양을 높이지 않으면서 모델의 성능을 최적화하는 기술은 산업적으로 매우 중요한 의미를 갖는다. 단순한 '데이터와 연산력 투입'을 넘어 더욱 똑똑한 학습 방식을 고민하는 Stream-R1의 접근법은 생성형 AI가 단순한 실험을 넘어 실용적인 기술로 도약하는 데 중요한 토대가 될 것이다.