Arista Networks, 통합 AI 패브릭 아키텍처 발표
- •Arista Networks가 scale-up, scale-out, scale-across 인프라 전반의 성능을 최적화하는 통합 AI 패브릭을 공개했다.
- •7800 AI Spine 플랫폼은 고밀도 메트로 메시 토폴로지를 지원해 대규모 AI 환경의 클러스터 간 트래픽을 효율적으로 관리한다.
- •새로운 패브릭 설계는 하드웨어 가속 패킷 트리밍과 MRC 프로토콜을 활용해 대규모 학습 환경의 지연 시간을 줄인다.
AI 작업 부하가 증가함에 따라 네트워크 병목 현상은 성능 및 효율성을 저해하는 주요 요소가 되었다. 이에 Arista Networks는 AI 인프라의 핵심 설계 전략으로 scale-up, scale-out, scale-across를 제시했다. Scale-up은 랙 내부 연결성을 강화해 다수의 가속기(XPU)가 공유 메모리에 접근하도록 하여 컴퓨팅 밀도를 높인다. 이 과정에서 발생하는 발열과 전력 문제를 해결하기 위해 액체 냉각 및 CPC/CPO와 같은 저전력 상호 연결 기술이 필수적이다.
Scale-out은 다수의 서버 노드를 수평적으로 확장해 병렬 학습과 추론을 수행한다. 고밀도 리프-스파인 네트워크 토폴로지를 적용하면 추가 계층 없이도 XPU 연결성을 극대화할 수 있다. 한편, scale-across는 지리적으로 분산된 AI 클러스터를 통합해 대규모 작업을 처리한다. 이는 분산 환경에서 발생하는 일시적인 트래픽 폭주를 제어하기 위한 복잡한 라우팅과 계층적 대용량 버퍼를 필요로 한다.
Arista Networks는 이 세 가지 단계를 하나의 시스템으로 통합한 AI 패브릭을 선보였다. Arista Etherlink 플랫폼은 MRC 프로토콜을 통해 하드웨어 가속 패킷 트리밍과 지능형 버퍼링을 수행하여 지연 시간을 감소시킨다. 또한, 7800 AI Spine은 고밀도 메트로 메시 토폴로지를 통해 클러스터 간 트래픽을 최적화한다. 전체 시스템은 EOS 운영체제를 통해 제어되며, SRv6 마이크로 세그먼트 식별자(uSID)를 지원해 AI 트래픽을 정밀하게 경로 설정한다.
이번 지능형 패브릭으로의 전환은 기존의 경직된 3계층 레거시 네트워크에서 탈피하여 적응형 다중 평면 설계로 나아가는 변화를 의미한다. AI 모델 통신이 올-투-올(all-to-all) 방식으로 동기화됨에 따라 네트워크는 대규모 학습 트래픽과 실시간 추론 요청을 동시에 처리해야 한다. 현재 112G SerDes에서 224G, 그리고 향후 448G 속도까지 지원하도록 설계된 이 기술은 하드웨어와 소프트웨어의 결합을 통해 수백만 개의 가속기를 안정적으로 연결할 수 있는 인프라를 제공한다.