アリスタネットワークス、AI向け統合ネットワーク基盤を発表
- •アリスタネットワークスは、スケールアップ、スケールアウト、スケールアクロス層全体で性能を最適化する統合AIファブリックを発表した。
- •「7800 AI Spine」プラットフォームは、高密度メトロメッシュ構成を可能にし、大規模AI環境におけるクラスタ間トラフィックを効率的に振り分ける。
- •ハードウェア加速によるパケットトリミングとMRCプロトコルを導入し、大規模学習環境でのテイルレイテンシ(遅延のばらつき)を低減する。
AIワークロードの増大に伴い、ネットワーク性能が全体の効率を左右する支配的な要素となっており、パケットの滞留は収益性に直結する。アリスタネットワークスは、AIインフラの設計においてスケールアップ、スケールアウト、スケールアクロスの3要素を重視する。スケールアップでは、高速スイッチを用いて複数のアクセラレータ(XPU)が共有メモリへアクセスし、計算密度を高める。これに伴い、高密度ラックでの熱管理として液冷や、Co-packaged Optics(CPO)といった低消費電力の相互接続技術が重要となる。
スケールアウトでは、並列学習や推論に対応するため、大規模なラディックス(スイッチのポート密度)を持つフラットな2層リーフ・スパイン構成を採用する。これにより、電力消費を抑えつつ、XPU間の帯域幅を最大化できる。スケールアクロスは、地理的に離れたAIクラスタを統合し、巨大なAIモデルのジョブに対応する。ここでは、分散環境特有の突発的な混雑を制御するために、複雑なルーティング機能と階層的な深層バッファが不可欠だ。
今回導入される統合AIファブリックは、これらの規模を単一のシステムに統合する。新たな「Etherlink」プラットフォームは、「MRC」プロトコルによりパケットトリミングをハードウェアレベルで加速し、遅延を最小限に抑える。また、「7800 AI Spine」は、メトロメッシュ構成を通じたクラスタ間トラフィックの円滑なオフロードを実現する。システム全体は「EOS」により運用され、SRv6のuSID技術を通じてトラフィックの精密な経路制御を可能にする。
これらのインテリジェントな基盤への移行により、AIデータセンターは静的な従来の3層ネットワークから、動的かつマルチプレーンな設計へと進化する。現在、AIモデルの通信はオール・ツー・オール型の同期通信へと移行しており、学習バーストとリアルタイム推論が共存する環境への対応が求められている。現状では112Gから224Gのレーン速度をサポートし、将来的な448Gへの拡張も視野に入れている。ハードウェアとソフトウェアの統合により、数千から数百万規模のAIアクセラレータへ対応しつつ、2層構成の経済的なシンプルさを維持する設計を目指す。