이 기사의 핵심 내용은?

AWS는 Amazon SageMaker JumpStart를 통해 원클릭 배포를 지원하는 NVIDIA Nemotron 3 Ultra 모델을 공개했다. 550B 파라미터 모델인 Nemotron 3 Ultra는 하이브리드 Transformer-Mamba MoE 구조로 기존 대비 5배 빠른 추론 속도를 구현했다. 이 모델은 에이전트 AI를 위해 설계되었으며, 1M 토큰의 컨텍스트 윈도우와 30% 낮은 운영 비용을 제공한다.

AWS, NVIDIA Nemotron 3 Ultra 모델 공개

•AWS는 Amazon SageMaker JumpStart를 통해 원클릭 배포를 지원하는 NVIDIA Nemotron 3 Ultra 모델을 공개했다.
•550B 파라미터 모델인 Nemotron 3 Ultra는 하이브리드 Transformer-Mamba MoE 구조로 기존 대비 5배 빠른 추론 속도를 구현했다.
•이 모델은 에이전트 AI를 위해 설계되었으며, 1M 토큰의 컨텍스트 윈도우와 30% 낮은 운영 비용을 제공한다.

•AWS는 Amazon SageMaker JumpStart를 통해 원클릭 배포를 지원하는 NVIDIA Nemotron 3 Ultra 모델을 공개했다.
•550B 파라미터 모델인 Nemotron 3 Ultra는 하이브리드 Transformer-Mamba MoE 구조로 기존 대비 5배 빠른 추론 속도를 구현했다.
•이 모델은 에이전트 AI를 위해 설계되었으며, 1M 토큰의 컨텍스트 윈도우와 30% 낮은 운영 비용을 제공한다.

아마존웹서비스(AWS)는 2026년 6월 4일 NVIDIA Nemotron 3 Ultra 모델을 Amazon SageMaker JumpStart에 추가했다고 발표했다. 사용자는 이제 SageMaker 환경 내에서 원클릭 인터페이스를 통해 이 오픈 모델을 배포할 수 있으며, 이를 통해 지속적인 다단계 추론이 필요한 자율 에이전트를 개발할 수 있다. 해당 모델은 최대 1M 토큰의 컨텍스트 길이를 지원하여 장기적인 계획 수립과 도구 활용 시퀀스를 관리하는 데 적합하다.

Nemotron 3 Ultra는 전체 5500억 개의 파라미터를 보유하고 있으며, 한 번의 순방향 패스당 550억 개의 활성 파라미터를 사용한다. 모델의 아키텍처는 Transformer-Mamba MoE 구조를 결합해 NVFP4 형식에 최적화되었으며, 덴스(dense) 모델 대비 에이전트 작업 시 추론 속도를 5배 높이고 운영 비용을 최대 30% 절감하도록 설계되었다. 특히 코딩 에이전트, 심층 연구 분석, 다단계 비즈니스 워크플로우 조정 등 기업용 활용 사례에 초점을 맞추고 있다.

배포를 위해서는 AWS 계정과 ml.p5en.48xlarge, ml.p5.48xlarge 또는 ml.g7e.48xlarge와 같은 특정 GPU 인스턴스에 대한 서비스 할당량이 필요하다. 아마존은 SageMaker 엔드포인트가 활성화된 동안 해당 인스턴스에 대한 시간당 요금이 발생한다고 설명했다. 사용자는 SageMaker Studio 콘솔이나 SageMaker 파이썬 SDK를 통해 'huggingface-reasoning-nvidia-nemotron-3-ultra-550b-a55b-nvfp4' 모델 ID를 참조하여 배포할 수 있으며, 비용 방지를 위해 작업 완료 후 엔드포인트를 삭제할 것을 권장한다.

아마존웹서비스(AWS)는 2026년 6월 4일 NVIDIA Nemotron 3 Ultra 모델을 Amazon SageMaker JumpStart에 추가했다고 발표했다. 사용자는 이제 SageMaker 환경 내에서 원클릭 인터페이스를 통해 이 오픈 모델을 배포할 수 있으며, 이를 통해 지속적인 다단계 추론이 필요한 자율 에이전트를 개발할 수 있다. 해당 모델은 최대 1M 토큰의 컨텍스트 길이를 지원하여 장기적인 계획 수립과 도구 활용 시퀀스를 관리하는 데 적합하다.

Nemotron 3 Ultra는 전체 5500억 개의 파라미터를 보유하고 있으며, 한 번의 순방향 패스당 550억 개의 활성 파라미터를 사용한다. 모델의 아키텍처는 Transformer-Mamba MoE 구조를 결합해 NVFP4 형식에 최적화되었으며, 덴스(dense) 모델 대비 에이전트 작업 시 추론 속도를 5배 높이고 운영 비용을 최대 30% 절감하도록 설계되었다. 특히 코딩 에이전트, 심층 연구 분석, 다단계 비즈니스 워크플로우 조정 등 기업용 활용 사례에 초점을 맞추고 있다.

배포를 위해서는 AWS 계정과 ml.p5en.48xlarge, ml.p5.48xlarge 또는 ml.g7e.48xlarge와 같은 특정 GPU 인스턴스에 대한 서비스 할당량이 필요하다. 아마존은 SageMaker 엔드포인트가 활성화된 동안 해당 인스턴스에 대한 시간당 요금이 발생한다고 설명했다. 사용자는 SageMaker Studio 콘솔이나 SageMaker 파이썬 SDK를 통해 'huggingface-reasoning-nvidia-nemotron-3-ultra-550b-a55b-nvfp4' 모델 ID를 참조하여 배포할 수 있으며, 비용 방지를 위해 작업 완료 후 엔드포인트를 삭제할 것을 권장한다.