Astrolabe, 강화학습으로 비디오 AI 미적 품질 높인다
- •Astrolabe 프레임워크는 효율적인 강화학습을 통해 증류된 비디오 모델을 인간의 시각적 선호도에 맞춰 정렬한다.
- •훈련 과정에서 비용이 많이 드는 역방향 언롤링 과정을 제거한 새로운 전방 프로세스 방식을 도입하여 메모리 사용량을 절감했다.
- •스트리밍 훈련 기법을 통해 로컬 윈도우 업데이트를 수행함으로써 시간적 일관성을 유지하며 긴 비디오를 생성할 수 있다.
증류된 자기회귀 모델(Autoregressive Model) 기반 비디오 모델은 실시간 스트리밍이 가능할 정도로 압도적인 생성 속도를 자랑한다. 다만 이러한 모델은 속도를 확보하는 과정에서 품질을 희생하는 경우가 많으며, 그 결과 시각적 아티팩트가 발생하거나 인간이 매력적이라고 느끼는 미적 기준에 부합하지 않는 장면이 생성되기도 한다.
이를 해결하기 위한 기존의 방식은 주로 강화학습을 활용하지만, 비디오 생성의 모든 단계를 재계산해야 하기에 막대한 연산 능력이 필요하다는 단점이 있었다. 이에 Astrolabe 연구진은 '전방 프로세스' 강화학습 접근법을 새롭게 도입했다. 생성 체인 전체를 역으로 추적하는 대신, 최종 출력 단계에서 성공적인 프레임과 그렇지 않은 프레임을 비교하는 방식을 취한 것이다. 이러한 지름길을 통해 메모리 부담 없이 모델의 개선 방향을 명확히 제시할 수 있게 되었다.
또한 긴 비디오의 일관성을 유지하기 위해 Astrolabe는 스트리밍 훈련 기술을 활용한다. 이는 비디오의 짧은 구간에 집중하면서도 순환형 '메모리 뱅크'(KV-cache)를 통해 이전 문맥을 기억하는 방식이다. 실제로 이 기법을 적용하면 장면 중간에 캐릭터의 의상 색상이 갑자기 바뀌는 것과 같은 오류 없이 안정적인 영상 생성이 가능하다.
특히 AI가 실제 결과물 개선 대신 높은 점수만을 얻기 위해 편법을 찾는 '보상 해킹' 문제도 효과적으로 해결했다. 여러 목표 사이의 균형을 맞추고 안정적인 기준점을 사용함으로써, Astrolabe는 특유의 빠른 속도를 유지하면서도 다양한 비디오 모델의 미적 품질을 일관되게 향상시킨다.