AI 비교하기AI 사용하기AI 최신정보AI 커뮤니티
우리의 비전이용약관개인정보처리방침문의하기

Cloudflare, Ensemble AI 팀 인수… AI 인프라 확장

Cloudflare, Ensemble AI 팀 인수… AI 인프라 확장

Cloudflare AI
2026년 6월 16일 (화)
  • •Cloudflare가 2026년 6월 15일 Ensemble AI 팀을 인수하며 AI 인프라 역량 강화에 나섰다.
  • •이번 인수를 통해 NdLinear와 NdLinear-LoRA 기술을 통합하여 모델 압축 및 추론 효율을 높인다.
  • •Cloudflare는 GPU 비용 절감과 인프라 효율화를 통해 개발자들의 AI 워크로드 확장을 지원할 계획이다.
  • •Cloudflare가 2026년 6월 15일 Ensemble AI 팀을 인수하며 AI 인프라 역량 강화에 나섰다.
  • •이번 인수를 통해 NdLinear와 NdLinear-LoRA 기술을 통합하여 모델 압축 및 추론 효율을 높인다.
  • •Cloudflare는 GPU 비용 절감과 인프라 효율화를 통해 개발자들의 AI 워크로드 확장을 지원할 계획이다.

Cloudflare는 2023년 설립된 샌프란시스코 기반의 Ensemble AI 팀을 2026년 6월 15일 인수했다고 밝혔다. 합류한 인력은 Cloudflare의 Workers AI 사업부에서 거대 모델의 속도를 높이고 크기를 줄이며 비용 효율성을 개선하는 AI 인프라 개발을 가속화할 예정이다. Ensemble AI는 거대언어모델(LLM)과 멀티모달 아키텍처의 메모리, 연산, 배포 부하를 줄이기 위한 모델 압축 및 효율적 추론 기술을 전문으로 다뤄왔다.

Ensemble AI 팀은 표준 하드웨어 최적화나 양자화를 넘어선 구조적 수준의 모델 빌딩 블록 설계 역량을 갖췄다. 핵심 기술인 NdLinear는 트랜스포머 모델의 표준 선형 계층(Linear layers)을 대체하는 기술로, 기존 방식과 달리 다차원 활성화 데이터에서 헤드, 채널, 공간 차원 등 의미 있는 축을 보존하면서도 파라미터 수를 줄인다. 또한 이들은 대규모 모델의 파인튜닝 시 필요한 학습 가능 파라미터 수를 획기적으로 낮추는 NdLinear-LoRA 방식도 개발했다.

Cloudflare는 이러한 기술을 추론 엔진인 Infire 및 텐서 압축 기술인 Unweight를 포함한 기존 AI 스택에 통합할 계획이다. 이를 자사의 글로벌 네트워크와 결합해 AI 에이전트나 개인화 모델 등 확장 단계에서 발생하는 추론 비용 문제를 해결하겠다는 전략이다. 이러한 효율성 제고는 개발자들이 보다 낮은 메모리 요구 사항과 복잡성으로 서버리스 플랫폼에서 AI 워크로드를 배포할 수 있도록 돕는다.

이번 인수는 개발자 중심의 AI 역량을 강화하려는 Cloudflare의 인프라 투자 일환이다. 양사 통합 팀은 고객의 워크로드 확대에 맞춰 AI 서비스의 접근성과 경제성을 유지할 수 있도록 GPU 활용률 개선과 확장 가능한 배포 패턴 구축에 주력한다. 현재 Cloudflare Workers AI를 이용하는 개발자들은 향후 비용이나 구조적 한계에 구애받지 않고 다양한 모델 크기와 배포 방식을 실험할 수 있게 될 전망이다.

Cloudflare는 2023년 설립된 샌프란시스코 기반의 Ensemble AI 팀을 2026년 6월 15일 인수했다고 밝혔다. 합류한 인력은 Cloudflare의 Workers AI 사업부에서 거대 모델의 속도를 높이고 크기를 줄이며 비용 효율성을 개선하는 AI 인프라 개발을 가속화할 예정이다. Ensemble AI는 거대언어모델(LLM)과 멀티모달 아키텍처의 메모리, 연산, 배포 부하를 줄이기 위한 모델 압축 및 효율적 추론 기술을 전문으로 다뤄왔다.

Ensemble AI 팀은 표준 하드웨어 최적화나 양자화를 넘어선 구조적 수준의 모델 빌딩 블록 설계 역량을 갖췄다. 핵심 기술인 NdLinear는 트랜스포머 모델의 표준 선형 계층(Linear layers)을 대체하는 기술로, 기존 방식과 달리 다차원 활성화 데이터에서 헤드, 채널, 공간 차원 등 의미 있는 축을 보존하면서도 파라미터 수를 줄인다. 또한 이들은 대규모 모델의 파인튜닝 시 필요한 학습 가능 파라미터 수를 획기적으로 낮추는 NdLinear-LoRA 방식도 개발했다.

Cloudflare는 이러한 기술을 추론 엔진인 Infire 및 텐서 압축 기술인 Unweight를 포함한 기존 AI 스택에 통합할 계획이다. 이를 자사의 글로벌 네트워크와 결합해 AI 에이전트나 개인화 모델 등 확장 단계에서 발생하는 추론 비용 문제를 해결하겠다는 전략이다. 이러한 효율성 제고는 개발자들이 보다 낮은 메모리 요구 사항과 복잡성으로 서버리스 플랫폼에서 AI 워크로드를 배포할 수 있도록 돕는다.

이번 인수는 개발자 중심의 AI 역량을 강화하려는 Cloudflare의 인프라 투자 일환이다. 양사 통합 팀은 고객의 워크로드 확대에 맞춰 AI 서비스의 접근성과 경제성을 유지할 수 있도록 GPU 활용률 개선과 확장 가능한 배포 패턴 구축에 주력한다. 현재 Cloudflare Workers AI를 이용하는 개발자들은 향후 비용이나 구조적 한계에 구애받지 않고 다양한 모델 크기와 배포 방식을 실험할 수 있게 될 전망이다.

원문 보기 (영어)·2026년 6월 15일
#cloudflare#ensemble ai#workers ai#inference#model compression#ndlinear#ai infrastructure