AWS, 딥러닝 컨테이너 구동 속도 대폭 개선
- •AWS가 모든 딥러닝 AMI 및 딥러닝 컨테이너에 SOCI 스냅샷 기술 지원을 추가했다.
- •레이지 로딩 방식을 통해 컨테이너 시작 시간을 기존 약 7분에서 21초 수준으로 단축했다.
- •병렬 풀 모드를 사용하면 I/O 집중형 AI 워크로드에서 이미지 다운로드 성능이 2.2배 향상된다.
AWS는 모든 딥러닝 AMI와 AWS 딥러닝 컨테이너에 Seekable OCI(SOCI) 스냅샷 및 인덱스 지원을 적용했다. 해당 기술은 컨테이너 구동 시 수 기가바이트에 달하는 전체 이미지를 내려받는 대신, 실행에 필요한 데이터만 선택적으로 불러오는 방식을 사용한다. 이는 프로덕션 환경에서 긴 '콜드 스타트(Cold Start)' 시간과 이미지 다운로드 대기 중 GPU 자원이 유휴 상태로 낭비되는 문제를 해결한다.
성능 평가 결과, 두 가지 최적화 모드에서 유의미한 효율 개선이 확인되었다. 레이지 로딩 모드는 데이터를 필요할 때 즉시 가져와 컨테이너를 구동한다. 실제로 32.7GB 용량의 vLLM 이미지를 실행할 때, 표준 Docker 방식으로는 6분 59.099초가 걸렸으나 SOCI 스냅샷을 적용하면 21.125초로 단축되었다. 이 모드는 초기화 속도가 중요한 저사양 인스턴스 환경에 적합하다.
병렬 풀 모드는 전체 이미지가 즉시 필요한 워크로드를 위해 다운로드 및 압축 해제 병렬성을 높인 방식이다. 60.4GB 이미지를 대상으로 테스트한 결과, 기존 4분 44.163초 소요되던 전체 풀 타임이 2분 12.846초로 줄어들어 2.2배의 성능 향상을 기록했다. 사용자는 /etc/soci-snapshotter-grpc/config.toml 설정 파일을 수정해 인스턴스 사양과 네트워크 대역폭에 맞춰 병렬 다운로드 스레드를 최적화할 수 있다.
'-soci' 태그가 붙은 AWS 딥러닝 컨테이너는 사전 생성된 SOCI 인덱스를 포함하고 있어 즉시 레이지 로딩 기능을 활용할 수 있다. 사용자 지정 이미지의 경우 별도로 인덱스를 생성해 레지스트리에 푸시해야 한다. 이러한 컨테이너 관리 최적화는 Amazon SageMaker, EC2, ECS, EKS 등 플랫폼에서 대규모 딥러닝 인프라 배포 시 네트워크 병목 현상과 운영 비용을 줄이는 데 기여한다.