SAMA 프레임워크, 비디오 편집의 정밀도를 혁신하다
- •SAMA는 비디오 편집을 시맨틱 앵커링과 모션 모델링으로 분해하여 편집 내용과 움직임의 균형을 최적화한다.
- •오픈소스 모델 중 최고 수준의 성능을 기록하며 주요 상용 비디오 시스템에 필적하는 경쟁력을 확보했다.
- •새로운 2단계 학습 방식을 통해 초기 비디오-지시어 쌍 데이터 없이도 제로샷 학습(Zero-shot learning) 기반의 편집이 가능하다.
현재의 AI 비디오 편집 기술은 사용자 지시를 완벽히 이행하는 것과 원본 영상의 움직임을 자연스럽게 보존하는 것 사이의 고질적인 충돌을 겪곤 한다. 예를 들어 AI에게 캐릭터의 의상을 바꿔달라고 요청하면, 모델이 의도치 않게 캐릭터의 움직임을 변형하거나 배경의 안정성을 해치는 경우가 빈번했다. SAMA는 이러한 병목 현상을 해결하기 위해 편집 과업을 외형을 담당하는 프로세스와 움직임을 담당하는 프로세스로 분리하여 독립적으로 처리하는 방식을 택했다.
첫 번째 단계인 시맨틱 앵커링은 편집을 위한 일종의 구조적 기획자 역할을 수행한다. 이 단계에서는 영상 내의 드문드문한 프레임들 사이에서 핵심적인 시각적 앵커를 식별하여, 복잡한 배경 속에서도 새로운 콘텐츠가 장면의 논리에 맞게 안착되도록 보장한다. 특히 시맨틱 토큰을 먼저 예측하여 움직임을 고려하기 전 수정 사항에 대한 정교한 청사진을 수립하는데, 이는 기존 도구들에서 흔히 나타나는 화면 왜곡 현상을 방지하는 견고한 토대가 된다.
두 번째 단계인 모션 얼라이먼트는 비디오의 유체 역학에만 온전히 집중한다. 연구진은 영상의 빈 부분을 채우는 인페인팅이나 재생 속도 조절 등 모션 중심의 과업으로 모델을 사전 학습시켰으며, 이를 통해 AI가 현실 세계의 자연스러운 움직임을 내면화하도록 유도했다. 이처럼 기능을 이원화한 결과, SAMA는 Kling-Omni와 같은 강력한 상용 모델에 버금가는 고화질 결과물을 생성하면서도 오픈소스 프레임워크로서의 높은 접근성과 투명성을 동시에 제공하게 되었다.