daVinci-MagiHuman: 초고속 단일 스트림 시청각 생성 모델
- •daVinci-MagiHuman은 혁신적인 단일 스트림 Transformer 아키텍처를 통해 텍스트, 비디오, 오디오를 동시에 동기화한다.
- •H100 하드웨어 기준, 256p 해상도의 동기화된 5초 분량 영상을 단 2초 만에 생성하는 압도적인 성능을 자랑한다.
- •연구진은 베이스 모델부터 증류 모델, 초해상도 모델 및 추론 코드까지 포함된 전체 스택을 오픈소스로 공개했다.
SII-GAIR와 Sand.ai 연구진이 고속 인체 중심 콘텐츠 생성을 위한 획기적인 생성형 파운데이션 모델인 daVinci-MagiHuman을 선보였다. 기존 모델들이 서로 다른 데이터 유형을 연결하기 위해 복잡한 멀티 스트림이나 크로스 어텐션 구조에 의존했던 것과 달리, 이 모델은 단일 스트림 Transformer 아키텍처를 채택한 것이 특징이다. 이는 모델이 이해하는 데이터의 기본 단위인 토큰의 통합된 시퀀스 내에서 텍스트와 비디오, 오디오를 처리함을 의미하며, 오직 Self-attention만을 사용하여 데이터 간의 복잡한 관계를 관리한다.
이러한 간소화된 접근 방식은 출력 품질을 희생하지 않으면서도 효율성을 대폭 끌어올렸다. 특히 자연스러운 음성과 얼굴 표정, 사실적인 신체 움직임을 정교하게 조율하며 영어와 중국어, 프랑스어를 포함한 다국어를 지원한다. 또한 추론 과정을 가속화하기 위해 거대 모델의 성능을 모방하는 모델 증류 기술과 더불어 더욱 빠른 처리가 가능한 Turbo Variational Autoencoder 디코더를 통합하여 효율을 극대화했다.
이러한 최적화 덕분에 시스템은 전문 하드웨어에서 단 2초 만에 5초 분량의 동기화된 영상과 오디오를 생성할 수 있다. 실제로 벤치마크 결과에 따르면 daVinci-MagiHuman은 시각적 일치도와 음성 명료도 측면 모두에서 기존 오픈소스 경쟁 모델들을 상회하는 성능을 보였다. 연구진은 전체 기술 스택을 오픈소스로 공개함으로써 개발자들이 사실적인 대화형 아바타나 고충실도 미디어 도구를 구축할 수 있는 강력한 토대를 마련했다.