OpenAI, 실시간 음성 인프라 최적화로 지연 시간 혁신
- •OpenAI, WebRTC 스택 재설계 통해 대규모 사용자 환경에서의 대화 지연 시간 획기적 단축
- •미디어 라우팅과 연결 상태를 분리하는 '스플릿 릴레이(Split Relay)' 아키텍처 도입
- •복잡한 포트 관리 없이 전 세계적인 트래픽을 효율적으로 제어하는 시스템 구현
음성 기반 인공지능이 매끄럽게 작동하려면 인간의 대화 속도와 자연스럽게 어우러져야 한다. 만약 기술적 지연이 발생해 찰나의 순간이라도 응답이 늦어지면, 사용자는 즉각적인 이질감을 느끼며 대화의 몰입도가 떨어진다. 개발자와 사용자 모두에게 있어 마이크에서 입력된 음성이 모델을 거쳐 다시 출력되기까지의 시간, 즉 왕복 지연 시간(Round-trip latency)을 최소화하는 것은 현대 대화형 인터페이스의 핵심 과제다. OpenAI는 최근 자사 음성 모델이 대규모 글로벌 트래픽 환경에서도 즉각적으로 반응할 수 있도록 내부 인프라를 전면 재설계했다.
이 과정에서 가장 큰 난제는 WebRTC였다. WebRTC는 브라우저와 모바일 앱 간의 실시간 통신을 가능하게 하는 표준 기술이지만, 수억 명의 사용자가 클라우드 환경에서 접속하는 대규모 상황을 상정해 설계된 것은 아니었다. 특히 기존 방식으로는 활성 사용자 세션마다 개별 네트워크 포트가 할당되어야 하므로, 사용자가 급증할 경우 관리해야 할 포트와 방화벽 자원이 한계치에 다다르는 '포트 고갈' 현상이 빈번하게 발생했다.
이를 해결하고자 OpenAI 엔지니어링 팀은 '스플릿 릴레이' 아키텍처를 도입했다. 통신 스택 전체가 모든 작업을 처리하게 하는 대신, 이를 데이터 패킷을 단순 전달하는 '가벼운 릴레이'와 세션 정보를 관리하는 '상태 유지 트랜시버'라는 두 계층으로 분리한 것이다. 릴레이는 대화 내용을 이해할 필요 없이 패킷을 목적지로 전달하는 역할만 수행하므로 매우 가볍고, 덕분에 사용자가 늘어날수록 수평적으로 확장하기 용이하다.
반면 트랜시버는 암호화 키와 네트워크 연결 정보 등 WebRTC 세션의 심층적인 상태를 유지하는 브레인 역할을 수행한다. 라우팅과 세션 관리 기능을 분리함으로써, 팀은 기존 네트워크 인프라의 제약을 효과적으로 우회할 수 있었다. 그 결과, 클라우드 환경에서 대규모 소프트웨어 배포를 동적으로 관리하는 Kubernetes와 같은 시스템 위에서도 음성 인프라를 안정적으로 운영하게 되었다.
이번 아키텍처 변화는 군더더기를 뺀 효율적인 시스템 설계의 정석을 보여준다. 릴레이는 연결 과정에서 설정된 ICE 자격 증명 같은 최소한의 정보만을 확인하여 트래픽을 즉시 트랜시버로 전달한다. 사용자 입장에서는 기존 WebRTC와 다를 바 없는 환경이지만, 내부적으로는 오버헤드를 대폭 줄이고 대화 흐름을 최적화했다. 결과적으로 실시간 AI를 다룰 때 복잡한 시스템을 덧붙이는 것보다, 가장 중요한 데이터가 이동할 최단 경로를 효율적으로 확보하는 것이 최선의 해결책임을 입증한 사례다.