이 기사의 핵심 내용은?

AWS, Amazon SageMaker AI의 MLflow 버전 3.10 지원 업데이트 생성형 AI 워크플로우를 위한 가관측성 및 추적 기능 강화 LLM 품질 측정을 위한 프로그래밍 방식의 평가 API 도입

아마존, SageMaker AI에 고급 MLflow 지원 기능 추가

•AWS, Amazon SageMaker AI의 MLflow 버전 3.10 지원 업데이트
•생성형 AI 워크플로우를 위한 가관측성 및 추적 기능 강화
•LLM 품질 측정을 위한 프로그래밍 방식의 평가 API 도입

생성형 AI 분야가 빠르게 발전함에 따라, 실험 단계부터 실제 서비스 배포까지 애플리케이션의 전체 생애주기를 관리하는 일은 매우 복잡한 과제가 되었다. 데이터 과학자들은 이를 수많은 부품이 동시에 움직이는 시스템을 통제하는 과정에 비유하곤 한다. 이에 따라 AWS는 머신러닝 실험을 기록하고 관리하며 버전을 제어하는 도구인 MLflow의 3.10 버전을 자사 플랫폼 Amazon SageMaker AI에 통합하여 이러한 어려움을 해결하고자 했다.

MLflow는 AI 개발을 위한 일종의 버전 관리 시스템으로, 실험 과정의 모든 기록을 체계적으로 보관하는 역할을 한다. 이번 업데이트는 생성형 AI의 특성을 고려해 설계되었다. 오늘날의 워크플로우는 단순한 입력과 출력의 반복이 아니라, 복잡한 다단계 대화를 포함하기 때문이다. SageMaker와 통합된 이 도구는 개발자들이 팀 단위로 진행 상황을 모니터링하고 업무를 표준화하는 데 도움을 준다.

이번 업데이트의 핵심은 소프트웨어 엔지니어링에서 시스템의 출력을 통해 내부 동작을 이해하는 능력을 의미하는 가관측성 강화에 있다. 생성형 AI 모델은 확률에 기반해 동작하므로 동일한 입력에도 다른 결과를 내놓는 경우가 많아 기존 소프트웨어보다 디버깅이 어렵다. 새로운 버전은 정밀한 추적 필터링과 성능 대시보드를 제공하여, 개발자들이 대기 시간이나 토큰 사용량, 품질 점수 등을 수동으로 차트를 만들 필요 없이 실시간으로 시각화할 수 있도록 지원한다.

또한 자율적인 의사결정과 다단계 추론을 수행하는 에이전틱 AI 워크플로우에 대한 지원이 크게 개선되었다. 에이전틱 AI는 다양한 도구와 데이터베이스를 거치며 최종 결과를 도출하기 때문에 모니터링이 매우 까다롭다. MLflow 3.10은 향상된 추적 기능을 통해 에이전트의 의사결정 경로를 상세히 살필 수 있게 했으며, 이를 통해 논리 오류가 발생한 지점을 정확히 찾아내는 것이 가능해졌다.

마지막으로 새롭게 추가된 mlflow.genai.evaluation API는 품질 관리를 위한 프로그래밍 방식의 해결책을 제시한다. 이제 개발자들은 수동으로 결과를 검토하는 대신, 개발 파이프라인 내에서 모델의 충실도와 정확도 등을 시스템적으로 측정할 수 있다. 이러한 자동화된 평가 환경은 프로젝트를 실험실 수준에서 벗어나 기업 규모의 안정적인 운영 단계로 끌어올리는 데 필수적인 요소다.

생성형 AI 분야가 빠르게 발전함에 따라, 실험 단계부터 실제 서비스 배포까지 애플리케이션의 전체 생애주기를 관리하는 일은 매우 복잡한 과제가 되었다. 데이터 과학자들은 이를 수많은 부품이 동시에 움직이는 시스템을 통제하는 과정에 비유하곤 한다. 이에 따라 AWS는 머신러닝 실험을 기록하고 관리하며 버전을 제어하는 도구인 MLflow의 3.10 버전을 자사 플랫폼 Amazon SageMaker AI에 통합하여 이러한 어려움을 해결하고자 했다.

MLflow는 AI 개발을 위한 일종의 버전 관리 시스템으로, 실험 과정의 모든 기록을 체계적으로 보관하는 역할을 한다. 이번 업데이트는 생성형 AI의 특성을 고려해 설계되었다. 오늘날의 워크플로우는 단순한 입력과 출력의 반복이 아니라, 복잡한 다단계 대화를 포함하기 때문이다. SageMaker와 통합된 이 도구는 개발자들이 팀 단위로 진행 상황을 모니터링하고 업무를 표준화하는 데 도움을 준다.

이번 업데이트의 핵심은 소프트웨어 엔지니어링에서 시스템의 출력을 통해 내부 동작을 이해하는 능력을 의미하는 가관측성 강화에 있다. 생성형 AI 모델은 확률에 기반해 동작하므로 동일한 입력에도 다른 결과를 내놓는 경우가 많아 기존 소프트웨어보다 디버깅이 어렵다. 새로운 버전은 정밀한 추적 필터링과 성능 대시보드를 제공하여, 개발자들이 대기 시간이나 토큰 사용량, 품질 점수 등을 수동으로 차트를 만들 필요 없이 실시간으로 시각화할 수 있도록 지원한다.

또한 자율적인 의사결정과 다단계 추론을 수행하는 에이전틱 AI 워크플로우에 대한 지원이 크게 개선되었다. 에이전틱 AI는 다양한 도구와 데이터베이스를 거치며 최종 결과를 도출하기 때문에 모니터링이 매우 까다롭다. MLflow 3.10은 향상된 추적 기능을 통해 에이전트의 의사결정 경로를 상세히 살필 수 있게 했으며, 이를 통해 논리 오류가 발생한 지점을 정확히 찾아내는 것이 가능해졌다.

마지막으로 새롭게 추가된 mlflow.genai.evaluation API는 품질 관리를 위한 프로그래밍 방식의 해결책을 제시한다. 이제 개발자들은 수동으로 결과를 검토하는 대신, 개발 파이프라인 내에서 모델의 충실도와 정확도 등을 시스템적으로 측정할 수 있다. 이러한 자동화된 평가 환경은 프로젝트를 실험실 수준에서 벗어나 기업 규모의 안정적인 운영 단계로 끌어올리는 데 필수적인 요소다.