この記事の要点は？

AWSは、ワンクリックデプロイに対応したNVIDIA Nemotron 3 UltraをAmazon SageMaker JumpStartで公開した。 550Bパラメータのモデルは、Transformer-Mamba MoEアーキテクチャを採用し、推論速度を5倍に向上させた。エージェント型AI向けに設計され、1Mトークンのコンテキストウィンドウと30%の運用コスト削減を実現する。

NVIDIA Nemotron 3 Ultra、AWS SageMakerで提供開始

•AWSは、ワンクリックデプロイに対応したNVIDIA Nemotron 3 UltraをAmazon SageMaker JumpStartで公開した。
•550Bパラメータのモデルは、Transformer-Mamba MoEアーキテクチャを採用し、推論速度を5倍に向上させた。
•エージェント型AI向けに設計され、1Mトークンのコンテキストウィンドウと30%の運用コスト削減を実現する。

•AWSは、ワンクリックデプロイに対応したNVIDIA Nemotron 3 UltraをAmazon SageMaker JumpStartで公開した。
•550Bパラメータのモデルは、Transformer-Mamba MoEアーキテクチャを採用し、推論速度を5倍に向上させた。
•エージェント型AI向けに設計され、1Mトークンのコンテキストウィンドウと30%の運用コスト削減を実現する。

Amazon Web Services (AWS) は2026年6月4日、Amazon SageMaker JumpStartにてNVIDIA Nemotron 3 Ultraモデルの提供を開始した。ユーザーはSageMaker環境内のワンクリックインターフェースを通じてモデルをデプロイ可能であり、長期的な多段階推論を要する自律型エージェントの構築ができる。本モデルは最大1Mトークンのコンテキスト長をサポートし、長時間の計画立案やツール呼び出しのシーケンス管理に適している。

Nemotron 3 Ultraは総パラメータ数5500億、推論時のアクティブパラメータ数は550億である。そのアーキテクチャは、NVFP4形式に最適化されたTransformer-Mamba MoE（Mixture-of-Experts）設計を統合している。この構成により、エージェントタスクにおける推論速度は従来の密度モデル比で5倍に高速化され、運用コストは最大30%削減される。主にコーディングエージェント、高度なリサーチ統合、多段階の業務ワークフローオーケストレーションといったエンタープライズ用途を想定している。

デプロイにはAWSアカウントに加え、ml.p5en.48xlarge、ml.p5.48xlarge、ml.g7e.48xlargeなどの特定GPUインスタンスに対する十分なサービスクォータが必要となる。Amazonは、SageMakerエンドポイントがアクティブな間、これらインスタンスには時間単位の課金が発生することに注意を促している。デプロイはSageMaker StudioコンソールまたはSageMaker Python SDKから、モデルID「huggingface-reasoning-nvidia-nemotron-3-ultra-550b-a55b-nvfp4」を指定して実行可能である。不要なコスト発生を防ぐため、タスク完了後にはエンドポイントを削除するよう推奨されている。

Amazon Web Services (AWS) は2026年6月4日、Amazon SageMaker JumpStartにてNVIDIA Nemotron 3 Ultraモデルの提供を開始した。ユーザーはSageMaker環境内のワンクリックインターフェースを通じてモデルをデプロイ可能であり、長期的な多段階推論を要する自律型エージェントの構築ができる。本モデルは最大1Mトークンのコンテキスト長をサポートし、長時間の計画立案やツール呼び出しのシーケンス管理に適している。

Nemotron 3 Ultraは総パラメータ数5500億、推論時のアクティブパラメータ数は550億である。そのアーキテクチャは、NVFP4形式に最適化されたTransformer-Mamba MoE（Mixture-of-Experts）設計を統合している。この構成により、エージェントタスクにおける推論速度は従来の密度モデル比で5倍に高速化され、運用コストは最大30%削減される。主にコーディングエージェント、高度なリサーチ統合、多段階の業務ワークフローオーケストレーションといったエンタープライズ用途を想定している。

デプロイにはAWSアカウントに加え、ml.p5en.48xlarge、ml.p5.48xlarge、ml.g7e.48xlargeなどの特定GPUインスタンスに対する十分なサービスクォータが必要となる。Amazonは、SageMakerエンドポイントがアクティブな間、これらインスタンスには時間単位の課金が発生することに注意を促している。デプロイはSageMaker StudioコンソールまたはSageMaker Python SDKから、モデルID「huggingface-reasoning-nvidia-nemotron-3-ultra-550b-a55b-nvfp4」を指定して実行可能である。不要なコスト発生を防ぐため、タスク完了後にはエンドポイントを削除するよう推奨されている。