この記事の要点は？

Amazon SageMaker AIが、8基のNVIDIA Blackwell GPUを搭載したP6-B200インスタンスのサポートを開始した。 Blackwell GPUは最大268 GBのメモリを提供し、学習時のバッチサイズ拡大とシーケンス長の大幅な向上を可能にする。開発者はアクティベーションチェックポインティングやMXFP8形式を活用し、14Bパラメータ超のモデルで処理性能を最適化できる。

Amazon SageMaker、NVIDIA Blackwell GPUのサポートを開始

•Amazon SageMaker AIが、8基のNVIDIA Blackwell GPUを搭載したP6-B200インスタンスのサポートを開始した。
•Blackwell GPUは最大268 GBのメモリを提供し、学習時のバッチサイズ拡大とシーケンス長の大幅な向上を可能にする。
•開発者はアクティベーションチェックポインティングやMXFP8形式を活用し、14Bパラメータ超のモデルで処理性能を最適化できる。

•Amazon SageMaker AIが、8基のNVIDIA Blackwell GPUを搭載したP6-B200インスタンスのサポートを開始した。
•Blackwell GPUは最大268 GBのメモリを提供し、学習時のバッチサイズ拡大とシーケンス長の大幅な向上を可能にする。
•開発者はアクティベーションチェックポインティングやMXFP8形式を活用し、14Bパラメータ超のモデルで処理性能を最適化できる。

Amazon SageMaker AIは、8基のNVIDIA Blackwell GPUを搭載したP6-B200インスタンスのサポートを開始し、大規模機械学習モデルの学習効率を向上させた。Blackwellアーキテクチャはメモリ帯域幅を拡大し、新しい精度形式を導入することで、メモリ制限や通信オーバーヘッドといった学習上のボトルネックを解消する。SageMaker AIが計算インフラを管理することで、開発者は予測可能な容量を確保できるFlexible Training Planなどを利用しつつ、アルゴリズムの調整やデータ準備に注力できる。

学習の最適化には、バッチサイズ、シーケンス長、モデルシャーディングの均衡が不可欠である。Blackwell B200およびB300 GPUはそれぞれ180 GBと268 GBのメモリを提供し、勾配同期ステップを削減する大規模バッチ処理を実現する。14Bパラメータを超えるモデルには、中間計算値を再計算してメモリを節約する手法であるアクティベーションチェックポインティングが安定学習のために不可欠だ。試験では1Bパラメータのモデルに対し、MXFP8精度と8Kシーケンス長、アクティベーションチェックポインティング、バッチサイズ16を組み合わせた結果、約51K tokens/secの処理性能を達成し、ベースラインの約6K tokens/secを大幅に上回った。

FP8、MXFP8、NVFP4などの精度形式は、Blackwellの第5世代Tensor Coreを活用してスループットを向上させる。これらは計算集約型ワークロードに有効だが、効果はモデル規模に依存する。14Bパラメータ未満のモデルではFP8が推奨される一方、メモリ制約が大きい大規模モデルではMXFP8が精度と効率を両立させる。NVFP4はより高いスループットを実現するが実装の複雑さが増す。量子化オーバーヘッドが発生するため、エンジニアは独自の構成でベンチマークを行う必要がある。

SageMakerへのデプロイには、Transformer Engine 2.11をインストールしたAWS Deep Learning Containers (DLC)ベースのカスタムDockerコンテナが必要である。設定プロセスでは、PyTorch Fully Sharded Data Parallel (FSDP)を用いた学習スクリプトを作成し、ハイパーパラメータ実行を管理するランチスクリプトを定義する。ユーザーは予約利用のためのFlexible Training Plans、またはコスト効率を重視したManaged Spot Trainingからインフラを選択できる。設定後はSageMaker Python SDKを使用してジョブを送信し、スポットインスタンス使用時の耐障害性を確保するためにAmazon S3へのチェックポイント保存が推奨される。

Amazon SageMaker AIは、8基のNVIDIA Blackwell GPUを搭載したP6-B200インスタンスのサポートを開始し、大規模機械学習モデルの学習効率を向上させた。Blackwellアーキテクチャはメモリ帯域幅を拡大し、新しい精度形式を導入することで、メモリ制限や通信オーバーヘッドといった学習上のボトルネックを解消する。SageMaker AIが計算インフラを管理することで、開発者は予測可能な容量を確保できるFlexible Training Planなどを利用しつつ、アルゴリズムの調整やデータ準備に注力できる。

学習の最適化には、バッチサイズ、シーケンス長、モデルシャーディングの均衡が不可欠である。Blackwell B200およびB300 GPUはそれぞれ180 GBと268 GBのメモリを提供し、勾配同期ステップを削減する大規模バッチ処理を実現する。14Bパラメータを超えるモデルには、中間計算値を再計算してメモリを節約する手法であるアクティベーションチェックポインティングが安定学習のために不可欠だ。試験では1Bパラメータのモデルに対し、MXFP8精度と8Kシーケンス長、アクティベーションチェックポインティング、バッチサイズ16を組み合わせた結果、約51K tokens/secの処理性能を達成し、ベースラインの約6K tokens/secを大幅に上回った。

FP8、MXFP8、NVFP4などの精度形式は、Blackwellの第5世代Tensor Coreを活用してスループットを向上させる。これらは計算集約型ワークロードに有効だが、効果はモデル規模に依存する。14Bパラメータ未満のモデルではFP8が推奨される一方、メモリ制約が大きい大規模モデルではMXFP8が精度と効率を両立させる。NVFP4はより高いスループットを実現するが実装の複雑さが増す。量子化オーバーヘッドが発生するため、エンジニアは独自の構成でベンチマークを行う必要がある。

SageMakerへのデプロイには、Transformer Engine 2.11をインストールしたAWS Deep Learning Containers (DLC)ベースのカスタムDockerコンテナが必要である。設定プロセスでは、PyTorch Fully Sharded Data Parallel (FSDP)を用いた学習スクリプトを作成し、ハイパーパラメータ実行を管理するランチスクリプトを定義する。ユーザーは予約利用のためのFlexible Training Plans、またはコスト効率を重視したManaged Spot Trainingからインフラを選択できる。設定後はSageMaker Python SDKを使用してジョブを送信し、スポットインスタンス使用時の耐障害性を確保するためにAmazon S3へのチェックポイント保存が推奨される。