AWS、基盤モデル学習に向けたインフラスタックを公開
- •AWSはNVIDIAのGPU高速化を活用した基盤モデル学習のための多層インフラストラクチャ詳細を公開した。
- •新EC2インスタンスはB200およびB300アーキテクチャを採用し、GPUあたり最大288 GBのHBM3eメモリを提供する。
- •SlurmおよびKubernetesによるオーケストレーションにより、数千基のアクセラレータを用いた大規模分散学習の管理を実現する。
基盤モデルのスケーリングは、単純な事前学習用の計算リソース増強から、事後学習手法やテスト時計算を含む多次元的なアプローチへと移行している。この変化には、高帯域幅のネットワーク、分散ストレージ、そして緊密に結合されたアクセラレータによる計算基盤が不可欠である。AWSでは、これらをハードウェアからリソース管理層まで統合し、PyTorchやJAXといったフレームワークを通じたモデル開発環境を構築している。
ハードウェアの基盤にはNVIDIAのGPUを搭載したAmazon EC2インスタンスが採用されている。P5シリーズがH100やH200 GPUを活用する一方、P6シリーズはBlackwell B200およびBlackwell Ultra B300アーキテクチャを統合した。B300はGPUあたり最大288 GBのHBM3e容量と8 TB/sの帯域幅を誇る。ノード内通信には低遅延のNVLinkを、ノード間通信にはElastic Fabric Adapter(EFA)を使用しており、P6インスタンスで利用可能なEFAv4はEFAv3比で集合通信性能を18%向上させた。
ストレージ管理には、ローカルNVMe SSD、高スループットな分散ファイルアクセスのためのAmazon FSx for Lustre、そして耐久性の高い保存先であるAmazon S3による階層化が用いられる。高密度通信を要するワークロードにはAmazon EC2 UltraClustersが対応し、ペタビット規模のノンブロッキングネットワークを提供している。さらに、NVIDIA GB200 NVL72プラットフォームに基づくP6e-GB200 UltraServersは、NVLinkの範囲を最大72基のBlackwell GPUまで拡大し、NVLink-C2CによりCPUとGPUメモリ間のキャッシュコヒーレントなアクセスを可能にした。これらのシステムは、ジョブスケジューリングに優れたSlurmや、宣言的APIを活用したKubernetesで管理され、AWS Parallel Computing ServiceやAmazon SageMaker HyperPodといったマネージドサービスが大規模学習のデプロイを支援する。