클라우드플레어, AI 에이전트를 위한 통합 추론 레이어 출시
- •클라우드플레어의 통합 API를 통해 개발자는 12개 이상 제공업체의 70개 넘는 모델에 연결 가능
- •자동 장애 조치 및 복잡한 워크플로우를 위한 짧은 Latency 구현
- •'Bring Your Own Model' 지원으로 사용자 고유 AI 모델의 컨테이너화 및 배포 가능
인공지능 생태계는 매우 빠른 속도로 변화하고 있다. 개발자들은 코딩, 창작, 데이터 분석 등 특정 작업에 가장 적합한 모델을 선별해야 하는 거대한 과제에 직면해 있다. 특히 품질 높은 애플리케이션을 완성하려면 여러 모델이 조화를 이루어 작동해야 한다.
예를 들어, 고객 지원 에이전트는 기초 분류를 위한 빠르고 저렴한 모델, 기획을 위한 강력한 추론 모델, 작업 수행을 위한 경량 모델을 동시에 필요로 한다. 이러한 서로 다른 공급업체를 개별적으로 관리하고, 파편화된 계정의 비용을 추적하며, 갑작스러운 중단 상황에 대응하는 것은 복잡한 AI 에이전트를 구축하는 팀에게 큰 걸림돌이었다.
클라우드플레어는 자사 플랫폼을 통합 추론 레이어로 전환하며 이 문제에 대응하고 있다. 구글, OpenAI, Anthropic 등 주요 기업을 포함한 12개 공급업체의 70개 이상 모델을 단일 API로 통합하여 운영 부담을 대폭 완화했다. 개발자는 모델마다 복잡한 로직을 작성할 필요 없이 AI.run() 명령어 하나로 모델 간 원활한 전환과 비용 모니터링을 수행할 수 있게 되었다.
이번 업데이트는 '에이전트' 형태의 워크플로우를 구축하는 이들에게 매우 중요하다. 일반적인 챗봇과 달리 AI 에이전트는 수십 개의 요청을 연결하여 작업을 수행하므로, 특정 공급업체의 작은 지연도 전체 시스템의 연쇄적인 실패를 유발할 수 있다. 클라우드플레어는 전 세계 330개 도시의 인프라를 활용하여 첫 토큰 생성 시간을 단축하고 사용자 경험을 쾌적하게 유지한다.
또한 특정 공급업체에서 서비스 중단이 발생하더라도 자동 장애 조치 기능이 에이전트의 지속적인 작동을 보장한다. 모델 오케스트레이션을 넘어 기업용으로 미세 조정된 모델을 직접 운영하려는 수요를 위해 오픈소스 도구인 'Cog'를 통합했다. 이는 모델 패키징과 배포 방식을 표준화하여 복잡한 하드웨어 의존성을 자동으로 관리하며, 개발부터 실전 배치까지 아우르는 포괄적인 플랫폼으로서의 입지를 다지고 있다.