이 기사의 핵심 내용은?

Cohere가 멀티테넌트 SaaS 환경에서 노이즈 이웃 문제로 인한 지연 시간을 방지하기 위해 4단계 스케줄링 시스템을 배포했다. 이 아키텍처는 Deficit Round Robin 알고리즘을 활용해 여러 테넌트 조직 간 GPU 자원을 공평하게 배분한다. 해당 공정성 프레임워크는 현재 모든 Cohere 모델의 SaaS API 및 AWS 배포 환경에 적용됐다.

Cohere, 멀티테넌트 추론을 위한 공정 스케줄링 도입

•Cohere가 멀티테넌트 SaaS 환경에서 노이즈 이웃 문제로 인한 지연 시간을 방지하기 위해 4단계 스케줄링 시스템을 배포했다.
•이 아키텍처는 Deficit Round Robin 알고리즘을 활용해 여러 테넌트 조직 간 GPU 자원을 공평하게 배분한다.
•해당 공정성 프레임워크는 현재 모든 Cohere 모델의 SaaS API 및 AWS 배포 환경에 적용됐다.

•Cohere가 멀티테넌트 SaaS 환경에서 노이즈 이웃 문제로 인한 지연 시간을 방지하기 위해 4단계 스케줄링 시스템을 배포했다.
•이 아키텍처는 Deficit Round Robin 알고리즘을 활용해 여러 테넌트 조직 간 GPU 자원을 공평하게 배분한다.
•해당 공정성 프레임워크는 현재 모든 Cohere 모델의 SaaS API 및 AWS 배포 환경에 적용됐다.

Cohere가 SaaS 플랫폼 내 '노이즈 이웃(noisy neighbor)' 성능 병목 현상을 방지하기 위한 새로운 멀티테넌트 추론 스케줄링 시스템을 구축했다. 다수의 조직이 동일한 GPU 자원을 공유할 경우, 특정 테넌트의 급격한 트래픽 증가가 타 테넌트의 지연 시간을 높이는 문제가 발생해왔다. 이를 해결하고자 도입된 4단계 요청 관리 아키텍처는 공정성과 서비스 수준 협약(SLA), 하드웨어 가동률 사이의 균형을 맞춘다.

시스템은 고정된 순서에 따라 요청을 처리한다. 1단계인 속도 제한기(Rate Limiter)는 테넌트 할당량이나 지연 시간 목표를 초과하는 요청을 차단한다. 2단계인 성능 계층 선택기는 상위 유료 고객이 우선 처리되도록 요청 우선순위를 조정한다. 3단계인 Deficit Round Robin 알고리즘은 각 조직에 '퀀텀(quantum)'이라 불리는 작업 예산을 할당해 계층 내 자원 분배를 관리한다. 이를 통해 특정 테넌트가 GPU 시간을 독점하지 못하도록 제어하며, 예산이 소진되면 재충전될 때까지 처리가 제한된다.

Cohere는 엔드포인트 유형에 따라 두 가지 예산 모델을 사용한다. 생성형 모델에는 요청당 비용 1을 부과하는 요청 기반 모델을 적용하며, 임베딩이나 리랭커(reranker)처럼 배치를 사용하는 엔드포인트에는 토큰 수에 비례하는 예산 모델을 적용해 실제 GPU 자원 소비량을 반영한다. 마지막 4단계인 우선순위 선택기는 우선순위, 마감 기한, 도착 시간 등을 기준으로 테넌트별 할당 내에서 요청 순서를 결정한다. 이 설계는 테넌트 간 간섭을 분리하면서도 긴급한 요청을 처리할 수 있게 하며, 현재 모든 API 및 외부 마켓플레이스 배포 환경에 적용 완료된 상태다.

Cohere가 SaaS 플랫폼 내 '노이즈 이웃(noisy neighbor)' 성능 병목 현상을 방지하기 위한 새로운 멀티테넌트 추론 스케줄링 시스템을 구축했다. 다수의 조직이 동일한 GPU 자원을 공유할 경우, 특정 테넌트의 급격한 트래픽 증가가 타 테넌트의 지연 시간을 높이는 문제가 발생해왔다. 이를 해결하고자 도입된 4단계 요청 관리 아키텍처는 공정성과 서비스 수준 협약(SLA), 하드웨어 가동률 사이의 균형을 맞춘다.

시스템은 고정된 순서에 따라 요청을 처리한다. 1단계인 속도 제한기(Rate Limiter)는 테넌트 할당량이나 지연 시간 목표를 초과하는 요청을 차단한다. 2단계인 성능 계층 선택기는 상위 유료 고객이 우선 처리되도록 요청 우선순위를 조정한다. 3단계인 Deficit Round Robin 알고리즘은 각 조직에 '퀀텀(quantum)'이라 불리는 작업 예산을 할당해 계층 내 자원 분배를 관리한다. 이를 통해 특정 테넌트가 GPU 시간을 독점하지 못하도록 제어하며, 예산이 소진되면 재충전될 때까지 처리가 제한된다.

Cohere는 엔드포인트 유형에 따라 두 가지 예산 모델을 사용한다. 생성형 모델에는 요청당 비용 1을 부과하는 요청 기반 모델을 적용하며, 임베딩이나 리랭커(reranker)처럼 배치를 사용하는 엔드포인트에는 토큰 수에 비례하는 예산 모델을 적용해 실제 GPU 자원 소비량을 반영한다. 마지막 4단계인 우선순위 선택기는 우선순위, 마감 기한, 도착 시간 등을 기준으로 테넌트별 할당 내에서 요청 순서를 결정한다. 이 설계는 테넌트 간 간섭을 분리하면서도 긴급한 요청을 처리할 수 있게 하며, 현재 모든 API 및 외부 마켓플레이스 배포 환경에 적용 완료된 상태다.