이 기사의 핵심 내용은?

Wan-Streamer v0.1은 실시간 시청각 상호작용을 위해 설계된 엔드투엔드 모델로 출시됐다. 통합 트랜스포머 아키텍처를 통해 모델 측 지연 시간 200ms와 총 상호작용 시간 550ms를 구현했다. 시스템은 풀 듀플렉스 방식으로 25fps의 동기화된 영상과 오디오를 동시에 인식 및 생성한다.

실시간 멀티모달 상호작용 모델 Wan-Streamer v0.1 공개

•Wan-Streamer v0.1은 실시간 시청각 상호작용을 위해 설계된 엔드투엔드 모델로 출시됐다.
•통합 트랜스포머 아키텍처를 통해 모델 측 지연 시간 200ms와 총 상호작용 시간 550ms를 구현했다.
•시스템은 풀 듀플렉스 방식으로 25fps의 동기화된 영상과 오디오를 동시에 인식 및 생성한다.

리앙화 황(Lianghua Huang)과 연구팀은 2026년 6월 23일, 실시간 저지연 시청각 상호작용을 위한 네이티브 스트리밍 엔드투엔드 파운데이션 모델인 Wan-Streamer v0.1을 선보였다. 이 모델은 언어, 오디오, 비디오를 하나의 트랜스포머 아키텍처에 통합해 인식, 추론, 생성 및 턴 관리를 독자적으로 수행한다. 특히 ASR이나 TTS와 같은 외부 모듈형 시스템에 의존하지 않으며, 블록 인과적 주의(block-causal attention) 메커니즘을 사용해 교차 입력 및 출력 토큰을 관리함으로써 25fps 환경에서 160ms 단위의 점진적 스트리밍을 지원한다.

실제 성능을 살펴보면 모델 측 응답 지연 시간은 약 200ms이며, 350ms의 양방향 네트워크 지연을 포함한 총 상호작용 지연 시간은 약 550ms다. 이러한 설계는 시스템이 사용자 입력을 지속적으로 수용함과 동시에 동기화된 시청각 응답을 실시간으로 생성하는 풀 듀플렉스 통신을 가능케 한다. 이는 비전, 음성, 렌더링 모델을 별도로 연결하는 기존 캐스케이드 방식보다 파이프라인 오류와 동기화 지연을 크게 줄인다.

연구팀에 따르면 Wan-Streamer는 동기화된 비디오 콘텐츠를 출력하면서 1초 미만의 성능을 유지하는 유일한 엔드투엔드 상호작용 모델이다. 다른 시스템들이 언어 모델이나 음성 처리 등 하부 의존성을 배제하고 지연 시간을 측정하는 것과 달리, 이 모델은 단일 통합 프레임워크 내에서 작동한다. 연구진은 이러한 구조가 복잡한 인간의 입력을 고효율로 이해하고 응답할 수 있게 함으로써 스트리밍 상호작용 모델의 새로운 지향점을 제시한다고 설명했다.

리앙화 황(Lianghua Huang)과 연구팀은 2026년 6월 23일, 실시간 저지연 시청각 상호작용을 위한 네이티브 스트리밍 엔드투엔드 파운데이션 모델인 Wan-Streamer v0.1을 선보였다. 이 모델은 언어, 오디오, 비디오를 하나의 트랜스포머 아키텍처에 통합해 인식, 추론, 생성 및 턴 관리를 독자적으로 수행한다. 특히 ASR이나 TTS와 같은 외부 모듈형 시스템에 의존하지 않으며, 블록 인과적 주의(block-causal attention) 메커니즘을 사용해 교차 입력 및 출력 토큰을 관리함으로써 25fps 환경에서 160ms 단위의 점진적 스트리밍을 지원한다.

실제 성능을 살펴보면 모델 측 응답 지연 시간은 약 200ms이며, 350ms의 양방향 네트워크 지연을 포함한 총 상호작용 지연 시간은 약 550ms다. 이러한 설계는 시스템이 사용자 입력을 지속적으로 수용함과 동시에 동기화된 시청각 응답을 실시간으로 생성하는 풀 듀플렉스 통신을 가능케 한다. 이는 비전, 음성, 렌더링 모델을 별도로 연결하는 기존 캐스케이드 방식보다 파이프라인 오류와 동기화 지연을 크게 줄인다.

연구팀에 따르면 Wan-Streamer는 동기화된 비디오 콘텐츠를 출력하면서 1초 미만의 성능을 유지하는 유일한 엔드투엔드 상호작용 모델이다. 다른 시스템들이 언어 모델이나 음성 처리 등 하부 의존성을 배제하고 지연 시간을 측정하는 것과 달리, 이 모델은 단일 통합 프레임워크 내에서 작동한다. 연구진은 이러한 구조가 복잡한 인간의 입력을 고효율로 이해하고 응답할 수 있게 함으로써 스트리밍 상호작용 모델의 새로운 지향점을 제시한다고 설명했다.