초거대 언어 모델을 위한 Cloudflare 인프라 확장
- •Cloudflare는 하드웨어와 소프트웨어의 시너지를 통해 Kimi K2.5와 같은 초거대 모델을 위한 Workers AI 최적화
- •연산 중심 작업과 메모리 중심 작업을 분리하는 'prefill-decode disaggregation' 도입으로 효율성 증대
- •투기적 디코딩 및 고급 KV-Cache 관리 기법을 적용하여 토큰 지연 시간 3배 단축
파라미터가 1조 개를 넘어서는 거대 언어 모델을 운영하는 것은 강력한 하드웨어 이상의 정교한 소프트웨어와 실리콘 배치가 필요하다. 특히 긴 문맥 이해와 지속적인 도구 활용을 요구하는 AI 에이전트 서비스가 늘어나면서, 단순히 텍스트를 생성하는 문제를 넘어 거대한 메모리 상태를 관리하는 것이 핵심 과제로 떠올랐다. Cloudflare는 최근 GPU 자원 할당 방식을 근본적으로 재설계하며 Workers AI 플랫폼을 초거대 모델 처리에 최적화했다.
이 최적화의 핵심은 'prefill-decode disaggregation'이다. 모델이 텍스트를 생성할 때는 입력 프롬프트를 처리하는 prefill 단계와 실제 출력을 생성하는 decode 단계로 나뉘는데, 각 단계가 요구하는 GPU 자원의 성격이 다르다. prefill은 연산력이 중요하지만 decode는 메모리 대역폭이 중요하기 때문에, 이를 하나의 머신에서 처리하면 하드웨어 활용도가 떨어진다. Cloudflare는 이 작업들을 서로 다른 서버로 분리하여 각 노드를 역할에 맞게 튜닝함으로써 지연 시간을 줄이고 대규모 입력 트래픽에 대응한다.
메모리 관리, 특히 KV-Cache를 다루는 것 또한 중요한 기술적 관문이다. 모델이 여러 GPU에 걸쳐 분산되어 있을 때 이 메모리 상태를 고속으로 유지하는 것이 성능을 결정짓는다. Cloudflare는 고성능 전송 엔진과 저장 프로토콜을 구현하여 일반적인 VRAM 영역을 넘어 세션을 유지할 수 있도록 했다. 결과적으로 별도의 물리적 한계를 극복하는 통합 메모리 구조를 통해, 다중 노드 확장 시 발생하는 통신 성능 저하를 방지한다.
또한 투기적 디코딩 기법을 통해 클러스터의 처리량을 극대화했다. 이는 작고 가벼운 모델이 예상 답변을 제시하고 더 큰 모델이 이를 검증하는 방식이다. 출력 패턴이 정형화된 도구 호출 작업에서 특히 효과적이며, 주 모델은 복잡한 계산에만 집중할 수 있어 효율적이다.
마지막으로 독자적인 추론 엔진인 Infire는 하드웨어 제약이 있는 환경에서도 뛰어난 성능을 발휘한다. 메모리 오버헤드를 최적화하고 시작 지연 시간을 최소화하여, 보다 범용적인 하드웨어에서도 높은 처리량을 유지할 수 있게 했다. 이는 AI의 미래가 단순히 거대한 모델을 만드는 데 그치지 않고, 이를 효율적으로 운용하기 위한 실무적인 공학적 설계에 있음을 보여준다.