AWS, 파운데이션 모델 학습 위한 인프라 스택 공개
- •AWS가 NVIDIA GPU 가속을 활용한 파운데이션 모델 학습용 계층적 인프라 스택을 상세히 공개했다.
- •B200 및 B300 아키텍처를 탑재한 신규 EC2 인스턴스는 GPU당 최대 288 GB의 HBM3e 메모리를 제공한다.
- •Slurm과 Kubernetes를 활용한 오케스트레이션으로 수천 개의 가속기에 걸친 대규모 분산 학습 관리를 지원한다.
파운데이션 모델의 확장은 사전 학습을 위한 단순 연산 자원 증가를 넘어, 학습 후 처리 및 추론 단계의 연산까지 포함하는 다차원적 접근 방식으로 진화하고 있다. 이러한 변화에는 고대역폭 네트워크, 분산 스토리지, 그리고 긴밀하게 결합된 가속기 컴퓨팅으로 구성된 융합형 인프라 아키텍처가 필수적이다. AWS는 하드웨어 인프라 상단에서 Slurm이나 Kubernetes를 통해 자원 오케스트레이션을 지원하며, 이를 통해 PyTorch나 JAX와 같은 프레임워크가 모델 개발 과정을 관리할 수 있도록 한다.
하드웨어의 근간은 NVIDIA GPU 기반의 Amazon EC2 인스턴스다. P5 계열은 H100 및 H200 GPU를 활용하며, P6 계열은 Blackwell B200 및 Blackwell Ultra B300 아키텍처를 통합했다. 성능은 최대 텐서 처리량과 인터커넥트 대역폭을 통해 확장된다. 예를 들어, B300은 GPU당 최대 288 GB의 HBM3e 용량과 8 TB/s의 대역폭을 제공한다. 노드 내부 통신은 저지연 연결을 위해 NVLink를 사용하며, 노드 간 통신은 EFA(Elastic Fabric Adapter)가 담당한다. P6 인스턴스에서 사용 가능한 EFAv4는 EFAv3 대비 집합 통신 성능을 18% 향상시켰다.
대규모 데이터 저장을 위해 로컬 NVMe SSD, 고처리량 분산 파일 액세스를 위한 Amazon FSx for Lustre, 내구성이 뛰어난 저장을 위한 Amazon S3를 포함하는 계층적 구조를 사용한다. 통신 집약적인 워크로드를 위해 Amazon EC2 UltraClusters는 페타비트 규모의 비차단 네트워크를 제공한다. 또한, NVIDIA GB200 NVL72 플랫폼 기반의 P6e-GB200 UltraServers는 NVLink 도메인을 최대 72개의 Blackwell GPU까지 확장하며, NVLink-C2C를 사용해 CPU와 GPU 메모리 간 캐시 일관성 액세스를 구현한다. 이러한 시스템은 원자적 작업 스케줄링과 토폴로지 인식 배치가 가능한 Slurm이나, 선언적 API 기반 클러스터 관리를 제공하는 Kubernetes로 오케스트레이션된다. AWS Parallel Computing Service 및 Amazon SageMaker HyperPod와 같은 관리형 서비스는 대규모 학습 작업을 위한 배포를 최적화한다.