この記事の要点は？

Amazon SageMaker AIは生成AIモデルの起動レイテンシを最大51%削減するコンテナイメージキャッシュを導入した。本機能はスケールアウト時にローカルインスタンスへイメージを事前キャッシュし、ダウンロード時間を排除する。サポート対象のアクセラレーターインスタンスでは、コンテナの修正や手動設定なしで自動的に適用される。

Amazon SageMaker AI、コンテナキャッシュ機能を提供開始

•Amazon SageMaker AIは生成AIモデルの起動レイテンシを最大51%削減するコンテナイメージキャッシュを導入した。
•本機能はスケールアウト時にローカルインスタンスへイメージを事前キャッシュし、ダウンロード時間を排除する。
•サポート対象のアクセラレーターインスタンスでは、コンテナの修正や手動設定なしで自動的に適用される。

•Amazon SageMaker AIは生成AIモデルの起動レイテンシを最大51%削減するコンテナイメージキャッシュを導入した。
•本機能はスケールアウト時にローカルインスタンスへイメージを事前キャッシュし、ダウンロード時間を排除する。
•サポート対象のアクセラレーターインスタンスでは、コンテナの修正や手動設定なしで自動的に適用される。

Amazon SageMaker AIは、モデルのスケールアップを加速させるコンテナイメージキャッシュ機能を発表した。これは生成AIアプリケーションにおける起動時のボトルネックを解消するために設計されている。新しいインスタンス上にコンテナイメージをローカルで事前キャッシュすることで、スケールアウト時のAmazon Elastic Container Registry（Amazon ECR）からのイメージ取得が不要となる。この最適化により、エンドツーエンドの起動レイテンシは最大51%短縮され、単一モデルおよび推論コンポーネントベースのエンドポイント双方で大幅な改善が見込める。

モデルの拡張には、インスタンスのプロビジョニング、コンテナイメージの取得、モデルアーティファクトのダウンロード、サーバーの初期化という4つの主要な段階が存在する。従来、vLLMやNVIDIA Tritonのようなフレームワークを活用する大規模な生成AIモデルは、巨大なコンテナイメージをネットワーク経由で引き出す時間に起因する大幅な遅延に直面していた。本機能により、イメージがローカルにキャッシュされている場合、取得時間は0秒に短縮される。また、ネットワーク帯域幅の競合も防止されるため、モデルアーティファクトのダウンロード自体も高速化する。例えば、ml.g6.2xlargeインスタンスでのQwen3-8Bモデルの試験では、総起動レイテンシが525秒から258秒に短縮された。

性能向上幅はインスタンスタイプ、モデルサイズ、コンテナイメージサイズによって異なる。初期利用ユーザーの報告では、ml.g4dn.xlargeやml.g5.2xlargeなどの構成において、P50で38%から65%の改善が確認された。セキュリティとテナントの分離は維持され、各キャッシュは特定の顧客エンドポイントに専用化されるため、AWSアカウント間でのデータ共有はない。キャッシュされたイメージが利用できない場合、システムは自動的にAmazon ECRからの取得にフォールバックし、デプロイが停止しないように設計されている。本機能はAmazon SageMaker AIの推論がサポートされている全ての商用AWSリージョンで利用可能であり、既存のコンテナイメージへの修正や手動の設定は不要である。

本リリースは、Amazon SageMaker AIスイートに存在する2つの既存スケーリング最適化機能を補完するものだ。1つはスケーリングの必要性を最大6倍高速に検知するサブ分単位のCloudWatchメトリクス、もう1つは既存の実行済みインスタンス上のモデルコピーを最適化するデータキャッシュソリューションである。これら3つの機能を組み合わせることで、ユーザーはより迅速かつ予測可能なオートスケーリングを実現できる。コンテナキャッシュは自動的に統合されるため、生成AIのワークロードは突発的なトラフィック急増に対しても可用性を向上させ、コールドスタート時のレイテンシを低減できる。

Amazon SageMaker AIは、モデルのスケールアップを加速させるコンテナイメージキャッシュ機能を発表した。これは生成AIアプリケーションにおける起動時のボトルネックを解消するために設計されている。新しいインスタンス上にコンテナイメージをローカルで事前キャッシュすることで、スケールアウト時のAmazon Elastic Container Registry（Amazon ECR）からのイメージ取得が不要となる。この最適化により、エンドツーエンドの起動レイテンシは最大51%短縮され、単一モデルおよび推論コンポーネントベースのエンドポイント双方で大幅な改善が見込める。

モデルの拡張には、インスタンスのプロビジョニング、コンテナイメージの取得、モデルアーティファクトのダウンロード、サーバーの初期化という4つの主要な段階が存在する。従来、vLLMやNVIDIA Tritonのようなフレームワークを活用する大規模な生成AIモデルは、巨大なコンテナイメージをネットワーク経由で引き出す時間に起因する大幅な遅延に直面していた。本機能により、イメージがローカルにキャッシュされている場合、取得時間は0秒に短縮される。また、ネットワーク帯域幅の競合も防止されるため、モデルアーティファクトのダウンロード自体も高速化する。例えば、ml.g6.2xlargeインスタンスでのQwen3-8Bモデルの試験では、総起動レイテンシが525秒から258秒に短縮された。

性能向上幅はインスタンスタイプ、モデルサイズ、コンテナイメージサイズによって異なる。初期利用ユーザーの報告では、ml.g4dn.xlargeやml.g5.2xlargeなどの構成において、P50で38%から65%の改善が確認された。セキュリティとテナントの分離は維持され、各キャッシュは特定の顧客エンドポイントに専用化されるため、AWSアカウント間でのデータ共有はない。キャッシュされたイメージが利用できない場合、システムは自動的にAmazon ECRからの取得にフォールバックし、デプロイが停止しないように設計されている。本機能はAmazon SageMaker AIの推論がサポートされている全ての商用AWSリージョンで利用可能であり、既存のコンテナイメージへの修正や手動の設定は不要である。

本リリースは、Amazon SageMaker AIスイートに存在する2つの既存スケーリング最適化機能を補完するものだ。1つはスケーリングの必要性を最大6倍高速に検知するサブ分単位のCloudWatchメトリクス、もう1つは既存の実行済みインスタンス上のモデルコピーを最適化するデータキャッシュソリューションである。これら3つの機能を組み合わせることで、ユーザーはより迅速かつ予測可能なオートスケーリングを実現できる。コンテナキャッシュは自動的に統合されるため、生成AIのワークロードは突発的なトラフィック急増に対しても可用性を向上させ、コールドスタート時のレイテンシを低減できる。