이 기사의 핵심 내용은?

SARAH 시스템은 VR 환경에서 디지털 휴먼의 실시간 전신 움직임과 공간 인식을 가능케 한다. 인과적 트랜스포머 기반 VAE와 Flow matching을 결합해 300 FPS의 고속 성능을 달성했다. 사용자가 눈 맞춤의 강도를 직접 제어할 수 있는 시선 점수화 메커니즘을 도입했다.

VR 속 디지털 휴먼, 공간 지각력으로 생동감을 얻다

•SARAH 시스템은 VR 환경에서 디지털 휴먼의 실시간 전신 움직임과 공간 인식을 가능케 한다.
•인과적 트랜스포머 기반 VAE와 Flow matching을 결합해 300 FPS의 고속 성능을 달성했다.
•사용자가 눈 맞춤의 강도를 직접 제어할 수 있는 시선 점수화 메커니즘을 도입했다.

가상 현실(VR) 속 디지털 휴먼은 사용자의 물리적 존재에 반응하지 못하거나 부자연스러운 시선을 보여 ‘로봇 같다’는 인상을 주기 쉽다. 에본 응(Evonne Ng, 주요 연구원) 등이 참여한 새로운 연구 프로젝트인 SARAH(Spatially Aware Real-time Agentic Humans)는 이러한 문제를 해결하기 위해 등장했다. 이 시스템은 음성과 공간 맥락에 모두 정렬된 전신 움직임을 생성하는 완전 인과적 방식을 도입했다. 단순히 오디오에 맞춰 제스처를 동기화하는 기존 모델과 달리, SARAH는 에이전트가 사용자를 향해 몸을 돌리거나 3D 공간 내의 움직임에 역동적으로 반응하게 한다.

기술적 핵심은 인과적 트랜스포머 기반의 Variational autoencoder와 Flow matching 모델을 정교하게 결합한 아키텍처에 있다. 특히 과거와 현재의 데이터만을 활용해 의사결정을 내리는 ‘인과적’ 처리 방식을 채택하여 초당 300프레임(FPS)이라는 놀라운 속도를 달성했다. 이러한 고효율 성능은 지연 시간이 몰입감을 방해하거나 멀미를 유발할 수 있는 VR 환경에서 매우 결정적인 요소다. 실제로 SARAH는 높은 동작 품질을 유지하면서도 기존의 비인과적 모델보다 3배나 빠른 처리 속도를 보여준다.

무엇보다 인상적인 점은 Classifier-free guidance를 활용한 시선 점수화 메커니즘의 도입이다. 개발자는 이를 통해 모델을 재학습시키지 않고도 에이전트가 유지하는 눈 맞춤의 강도를 세밀하게 조정할 수 있다. 캐릭터의 성격이 내성적이든 외향적이든, AI는 데이터로부터 자연스러운 공간 정렬을 포착하는 동시에 하드웨어에서 실시간으로 구동되는 동안 사회적 역동성을 정밀하게 제어할 수 있는 자유도를 사용자에게 제공한다.

가상 현실(VR) 속 디지털 휴먼은 사용자의 물리적 존재에 반응하지 못하거나 부자연스러운 시선을 보여 ‘로봇 같다’는 인상을 주기 쉽다. 에본 응(Evonne Ng, 주요 연구원) 등이 참여한 새로운 연구 프로젝트인 SARAH(Spatially Aware Real-time Agentic Humans)는 이러한 문제를 해결하기 위해 등장했다. 이 시스템은 음성과 공간 맥락에 모두 정렬된 전신 움직임을 생성하는 완전 인과적 방식을 도입했다. 단순히 오디오에 맞춰 제스처를 동기화하는 기존 모델과 달리, SARAH는 에이전트가 사용자를 향해 몸을 돌리거나 3D 공간 내의 움직임에 역동적으로 반응하게 한다.

기술적 핵심은 인과적 트랜스포머 기반의 Variational autoencoder와 Flow matching 모델을 정교하게 결합한 아키텍처에 있다. 특히 과거와 현재의 데이터만을 활용해 의사결정을 내리는 ‘인과적’ 처리 방식을 채택하여 초당 300프레임(FPS)이라는 놀라운 속도를 달성했다. 이러한 고효율 성능은 지연 시간이 몰입감을 방해하거나 멀미를 유발할 수 있는 VR 환경에서 매우 결정적인 요소다. 실제로 SARAH는 높은 동작 품질을 유지하면서도 기존의 비인과적 모델보다 3배나 빠른 처리 속도를 보여준다.

무엇보다 인상적인 점은 Classifier-free guidance를 활용한 시선 점수화 메커니즘의 도입이다. 개발자는 이를 통해 모델을 재학습시키지 않고도 에이전트가 유지하는 눈 맞춤의 강도를 세밀하게 조정할 수 있다. 캐릭터의 성격이 내성적이든 외향적이든, AI는 데이터로부터 자연스러운 공간 정렬을 포착하는 동시에 하드웨어에서 실시간으로 구동되는 동안 사회적 역동성을 정밀하게 제어할 수 있는 자유도를 사용자에게 제공한다.