이 기사의 핵심 내용은?

연구진은 실시간 음성 지시 수행과 오프라인 작업 실행이 모두 가능한 통합 스트리밍 모델인 Audio-Interaction을 개발했다. SoundFlow 프레임워크는 비동기식 저지연 추론과 이해 중심 학습을 통해 실시간 '인지-결정-응답' 루프를 구현한다. 연구팀은 260만 개의 데이터로 구성된 StreamAudio-2M 데이터셋과 능동적 음성 개입 능력을 평가하는 Proactive-Sound-Bench를 공개했다.

실시간 음성 상호작용 가능한 통합 스트리밍 모델 'Audio-Interaction' 개발

•연구진은 실시간 음성 지시 수행과 오프라인 작업 실행이 모두 가능한 통합 스트리밍 모델인 Audio-Interaction을 개발했다.
•SoundFlow 프레임워크는 비동기식 저지연 추론과 이해 중심 학습을 통해 실시간 '인지-결정-응답' 루프를 구현한다.
•연구팀은 260만 개의 데이터로 구성된 StreamAudio-2M 데이터셋과 능동적 음성 개입 능력을 평가하는 Proactive-Sound-Bench를 공개했다.

•연구진은 실시간 음성 지시 수행과 오프라인 작업 실행이 모두 가능한 통합 스트리밍 모델인 Audio-Interaction을 개발했다.
•SoundFlow 프레임워크는 비동기식 저지연 추론과 이해 중심 학습을 통해 실시간 '인지-결정-응답' 루프를 구현한다.
•연구팀은 260만 개의 데이터로 구성된 StreamAudio-2M 데이터셋과 능동적 음성 개입 능력을 평가하는 Proactive-Sound-Bench를 공개했다.

싱가포르 국립대학교(National University of Singapore) 연구진이 실시간 음성 상호작용을 위해 설계된 통합 스트리밍 모델인 Audio-Interaction을 선보였다. 기존의 대형 오디오 언어 모델(LALMs)은 주로 오프라인 모드로 작동하거나 음성 인식과 같은 독립적인 작업에 국한되었으나, 이번 프레임워크는 연속적인 실시간 음성 지시 수행을 가능하게 한다. 이 시스템은 '인지-결정-응답' 루프를 통해 환경음과 사용자의 지시사항을 동시에 처리하며, 즉각적이고 맥락을 고려한 반응을 제공한다.

연구진은 데이터 구축부터 훈련, 배포까지 전체 주기를 관리하는 SoundFlow 프레임워크를 개발했다. SoundFlow는 스트리밍 기반 데이터 구축, 이해 중심 학습, 비동기식 저지연 추론 기술을 결합하여 실시간 환경에서도 시스템 안정성을 유지한다. 이러한 기술들은 모델이 입력되는 오디오 스트림의 의미론적 정보를 파악하여 스스로 응답 생성 시점을 결정하도록 돕는다.

또한 훈련과 평가를 지원하기 위해 7가지 핵심 오디오 능력과 28개 하위 작업을 포함하는 260만 개 규모의 StreamAudio-2M 데이터셋을 구축했다. 이와 함께 능동적 음성 개입 능력을 평가할 수 있는 Proactive-Sound-Bench도 공개되었다. 8개 벤치마크 테스트 결과, Audio-Interaction은 기존 오디오 작업의 성능을 유지하면서도 표준 오프라인 LALM에서는 불가능했던 실시간 자동 음성 인식(ASR) 및 능동적 어시스턴트 기능을 효과적으로 구현하는 것으로 나타났다.

싱가포르 국립대학교(National University of Singapore) 연구진이 실시간 음성 상호작용을 위해 설계된 통합 스트리밍 모델인 Audio-Interaction을 선보였다. 기존의 대형 오디오 언어 모델(LALMs)은 주로 오프라인 모드로 작동하거나 음성 인식과 같은 독립적인 작업에 국한되었으나, 이번 프레임워크는 연속적인 실시간 음성 지시 수행을 가능하게 한다. 이 시스템은 '인지-결정-응답' 루프를 통해 환경음과 사용자의 지시사항을 동시에 처리하며, 즉각적이고 맥락을 고려한 반응을 제공한다.

연구진은 데이터 구축부터 훈련, 배포까지 전체 주기를 관리하는 SoundFlow 프레임워크를 개발했다. SoundFlow는 스트리밍 기반 데이터 구축, 이해 중심 학습, 비동기식 저지연 추론 기술을 결합하여 실시간 환경에서도 시스템 안정성을 유지한다. 이러한 기술들은 모델이 입력되는 오디오 스트림의 의미론적 정보를 파악하여 스스로 응답 생성 시점을 결정하도록 돕는다.

또한 훈련과 평가를 지원하기 위해 7가지 핵심 오디오 능력과 28개 하위 작업을 포함하는 260만 개 규모의 StreamAudio-2M 데이터셋을 구축했다. 이와 함께 능동적 음성 개입 능력을 평가할 수 있는 Proactive-Sound-Bench도 공개되었다. 8개 벤치마크 테스트 결과, Audio-Interaction은 기존 오디오 작업의 성능을 유지하면서도 표준 오프라인 LALM에서는 불가능했던 실시간 자동 음성 인식(ASR) 및 능동적 어시스턴트 기능을 효과적으로 구현하는 것으로 나타났다.