이 기사의 핵심 내용은?

Amazon SageMaker AI가 8개의 NVIDIA Blackwell GPU를 탑재한 P6-B200 인스턴스 지원을 시작했다. Blackwell GPU는 최대 268 GB의 메모리를 제공하여 대규모 모델 학습 시 더 큰 배치 사이즈와 시퀀스 처리를 가능하게 한다. 개발자는 14B 파라미터가 넘는 모델 학습 시 Activation Checkpointing과 MXFP8 같은 정밀도 형식을 활용해 처리량을 최적화할 수 있다.

Amazon SageMaker, NVIDIA Blackwell GPU 지원 시작

•Amazon SageMaker AI가 8개의 NVIDIA Blackwell GPU를 탑재한 P6-B200 인스턴스 지원을 시작했다.
•Blackwell GPU는 최대 268 GB의 메모리를 제공하여 대규모 모델 학습 시 더 큰 배치 사이즈와 시퀀스 처리를 가능하게 한다.
•개발자는 14B 파라미터가 넘는 모델 학습 시 Activation Checkpointing과 MXFP8 같은 정밀도 형식을 활용해 처리량을 최적화할 수 있다.

•Amazon SageMaker AI가 8개의 NVIDIA Blackwell GPU를 탑재한 P6-B200 인스턴스 지원을 시작했다.
•Blackwell GPU는 최대 268 GB의 메모리를 제공하여 대규모 모델 학습 시 더 큰 배치 사이즈와 시퀀스 처리를 가능하게 한다.
•개발자는 14B 파라미터가 넘는 모델 학습 시 Activation Checkpointing과 MXFP8 같은 정밀도 형식을 활용해 처리량을 최적화할 수 있다.

Amazon SageMaker AI가 대규모 머신러닝 모델의 학습 효율을 높이기 위해 NVIDIA Blackwell GPU 기반의 P6-B200 인스턴스 지원을 도입했다. 이 인스턴스는 Blackwell 아키텍처를 기반으로 향상된 메모리 대역폭과 새로운 연산 형식을 제공하여, 기존 학습 과정에서 발생하던 메모리 제한 및 통신 병목 현상을 해결한다. 사용자는 Amazon SageMaker AI가 제공하는 관리형 인프라를 통해 알고리즘 튜닝과 데이터 준비에 집중할 수 있으며, Flexible Training Plan을 통해 예측 가능한 리소스를 확보할 수 있다.

효율적인 학습을 위해서는 배치 사이즈, 시퀀스 길이, 모델 샤딩 간의 균형이 필수적이다. Blackwell B200과 B300 GPU는 각각 180 GB와 268 GB의 메모리를 지원하여 더 큰 배치 사이즈 설정이 가능하며, 이는 그라디언트 동기화 단계를 줄여준다. 특히 14B 파라미터 이상 모델에서는 Activation Checkpointing 기법이 학습 안정성을 위해 필수적이다. 테스트 결과, 1B 파라미터 모델에 MXFP8 정밀도와 8K 시퀀스 길이, 배치 사이즈 16을 적용했을 때 약 51K tokens/sec의 처리량을 기록해, 기존 6K tokens/sec 수준 대비 큰 성능 향상을 보였다.

FP8, MXFP8, NVFP4 등 다양한 정밀도 형식은 Blackwell의 5세대 텐서 코어를 활용해 처리량을 극대화한다. 일반적으로 14B 미만의 모델에는 FP8이 권장되며, 메모리 제약이 심한 거대 모델에는 MXFP8이 정확도와 효율성 사이의 균형을 제공한다. 한편, NVFP4는 높은 처리량을 보장하지만 구현 복잡도가 상승하므로 엔지니어는 환경에 맞춰 벤치마킹을 수행해야 한다.

배포를 위해서는 Transformer Engine 2.11이 포함된 AWS Deep Learning Containers 기반의 커스텀 Docker 컨테이너가 필요하다. 개발자는 PyTorch Fully Sharded Data Parallel을 사용하는 학습 스크립트를 작성하고, 하이퍼파라미터 실행을 관리하는 실행 스크립트를 정의해야 한다. 리소스 확보를 위해 Flexible Training Plan이나 비용 최적화가 가능한 Managed Spot Training을 선택할 수 있으며, 작업 제출 시에는 SageMaker Python SDK를 활용한다. 이때 Spot 인스턴스 사용 시 발생할 수 있는 장애에 대비해 Amazon S3를 통한 체크포인트 저장이 권장된다.

Amazon SageMaker AI가 대규모 머신러닝 모델의 학습 효율을 높이기 위해 NVIDIA Blackwell GPU 기반의 P6-B200 인스턴스 지원을 도입했다. 이 인스턴스는 Blackwell 아키텍처를 기반으로 향상된 메모리 대역폭과 새로운 연산 형식을 제공하여, 기존 학습 과정에서 발생하던 메모리 제한 및 통신 병목 현상을 해결한다. 사용자는 Amazon SageMaker AI가 제공하는 관리형 인프라를 통해 알고리즘 튜닝과 데이터 준비에 집중할 수 있으며, Flexible Training Plan을 통해 예측 가능한 리소스를 확보할 수 있다.

효율적인 학습을 위해서는 배치 사이즈, 시퀀스 길이, 모델 샤딩 간의 균형이 필수적이다. Blackwell B200과 B300 GPU는 각각 180 GB와 268 GB의 메모리를 지원하여 더 큰 배치 사이즈 설정이 가능하며, 이는 그라디언트 동기화 단계를 줄여준다. 특히 14B 파라미터 이상 모델에서는 Activation Checkpointing 기법이 학습 안정성을 위해 필수적이다. 테스트 결과, 1B 파라미터 모델에 MXFP8 정밀도와 8K 시퀀스 길이, 배치 사이즈 16을 적용했을 때 약 51K tokens/sec의 처리량을 기록해, 기존 6K tokens/sec 수준 대비 큰 성능 향상을 보였다.

FP8, MXFP8, NVFP4 등 다양한 정밀도 형식은 Blackwell의 5세대 텐서 코어를 활용해 처리량을 극대화한다. 일반적으로 14B 미만의 모델에는 FP8이 권장되며, 메모리 제약이 심한 거대 모델에는 MXFP8이 정확도와 효율성 사이의 균형을 제공한다. 한편, NVFP4는 높은 처리량을 보장하지만 구현 복잡도가 상승하므로 엔지니어는 환경에 맞춰 벤치마킹을 수행해야 한다.

배포를 위해서는 Transformer Engine 2.11이 포함된 AWS Deep Learning Containers 기반의 커스텀 Docker 컨테이너가 필요하다. 개발자는 PyTorch Fully Sharded Data Parallel을 사용하는 학습 스크립트를 작성하고, 하이퍼파라미터 실행을 관리하는 실행 스크립트를 정의해야 한다. 리소스 확보를 위해 Flexible Training Plan이나 비용 최적화가 가능한 Managed Spot Training을 선택할 수 있으며, 작업 제출 시에는 SageMaker Python SDK를 활용한다. 이때 Spot 인스턴스 사용 시 발생할 수 있는 장애에 대비해 Amazon S3를 통한 체크포인트 저장이 권장된다.