AWS, S3 통합으로 LLM 미세 조정 간소화
- •AWS, 비정형 데이터의 원활한 처리를 위해 SageMaker Unified Studio와 S3 통합
- •Llama 3.2 11B Vision Instruct 미세 조정을 통한 Visual Question Answering 정확도 대폭 향상
- •서버리스 MLflow 기반의 자동 실험 추적을 통해 데이터셋 규모에 따른 성능 모니터링 구현
아마존 웹 서비스(AWS)가 Amazon S3 버킷과 SageMaker Unified Studio를 통합한 효율적인 워크플로우를 공개했다. 이번 기능 개선은 이미지나 문서와 같은 대규모 비정형 데이터를 특화된 개발 환경으로 이전할 때 발생하는 기술적 장벽을 효과적으로 제거한다. 특히 팀 단위의 사용자가 통합 인터페이스에서 S3에 저장된 데이터셋을 카탈로그화하고 구독할 수 있도록 지원하여, 원시 데이터 저장소와 고급 모델 학습 환경 사이의 간극을 성공적으로 메웠다.
해당 플랫폼의 역량은 Llama 3.2 11B Vision Instruct 모델의 미세 조정 사례에서 명확히 드러난다. 이 모델은 AI가 이미지를 해석해 영수증에 기재된 날짜를 식별하는 등 특정 질문에 답하는 Visual Question Answering 작업에 최적화되어 있다. 기본 모델도 강력한 성능을 자랑하지만, 새로운 통합 환경을 활용하면 고성능 컴퓨팅 인스턴스를 통해 학습 데이터를 최대 10,000개의 이미지까지 확장함으로써 모델의 정확도를 극대화할 수 있다.
전반적인 아키텍처는 데이터 생산자와 소비자의 역할을 분리함으로써 협업의 효율성을 강조한다. 생산자가 자산 관리를 담당하면 소비자는 해당 자산을 구독해 모델 반복 학습을 추진하는 방식이다. 모든 실험 과정은 서버리스 MLflow를 통해 기록되며, 각 실행 결과는 ANLS 지표를 기준으로 정밀하게 측정된다. 이러한 체계적인 관리를 통해 대규모 데이터셋 구축이 모델의 정밀도 향상에 기여하는 정도를 정량적으로 파악할 수 있다.