이 기사의 핵심 내용은?

Novita AI가 SGLang 추론 전략을 통해 GLM4-MoE 모델의 응답 속도를 65% 개선했다. Shared Experts Fusion과 Async Transfer 기술로 하드웨어 효율을 높이고 데이터 병목 현상을 해결했다. 모델 없는 Suffix Decoding을 도입해 AI 에이전트의 코딩 및 도구 호출 성능을 22% 가속화했다.

SGLang으로 GLM4-MoE 응답 속도 65% 가속

•Novita AI가 SGLang 추론 전략을 통해 GLM4-MoE 모델의 응답 속도를 65% 개선했다.
•Shared Experts Fusion과 Async Transfer 기술로 하드웨어 효율을 높이고 데이터 병목 현상을 해결했다.
•모델 없는 Suffix Decoding을 도입해 AI 에이전트의 코딩 및 도구 호출 성능을 22% 가속화했다.

Novita AI가 GLM4-MoE 모델을 위한 고효율 최적화 기술 패키지를 공개했다. 아키텍처의 전략적 수정이 실제 AI 성능을 얼마나 극적으로 끌어올릴 수 있는지 증명한 사례다. 대규모 모델 서비스 프레임워크인 SGLang에 이러한 개선 사항을 통합한 결과, TTFT를 65%나 줄이는 데 성공했다. 사용자 질문에 AI가 응답을 시작하는 속도가 빨라지면서 서비스의 전체적인 체감 속도가 크게 향상된 셈이다. 핵심 기술 중 하나인 Shared Experts Fusion은 혼합 전문가 모델 (MoE) 구조를 최적화한다. 모든 작업에 전체 신경망을 사용하는 대신 특정 분야의 전문가 경로로 정보를 전달하는 방식이다. 공유 전문가와 개별 전문가를 통합해 NVIDIA H200과 같은 고성능 하드웨어 활용도를 극대화했다. 여기에 프로세서 작동 중 데이터를 백그라운드에서 전송하는 Async Transfer 기술을 더했다. 복잡한 다층 구조 모델에서 흔히 발생하는 성능 저하 현상을 효과적으로 방지했다. AI 에이전트의 프로그래밍 능력 향상을 위한 연구 성과도 눈에 띈다. 별도의 초안 모델 없이도 기존 코드 패턴을 분석해 다음 단어를 예측하는 Suffix Decoding 기법을 도입했다. 이를 통해 반복적인 코딩이나 도구 호출 작업 속도를 22% 높였다. 이번 최적화 전략은 낮은 지연 시간과 대규모 처리량 사이의 균형을 고민하는 개발자들에게 실질적인 가이드라인을 제시한다.