이 기사의 핵심 내용은?

AWS가 Amazon SageMaker AI에서 확장 가능하고 공정한 생성형 모델 평가를 지원하는 'Amazon Nova LLM-as-a-Judge'를 출시했다. 이 도구는 95% 신뢰구간을 포함한 자동화된 쌍체 비교를 통해 모델의 성능을 정밀하게 측정한다. Nova 평가 모델은 0.76의 평가 편향 점수를 기록하며, 다양한 작업에서 인간의 선호도를 밀접하게 반영한다.

Amazon SageMaker, 'AI 판사' Nova로 모델 평가 자동화

•AWS가 Amazon SageMaker AI에서 확장 가능하고 공정한 생성형 모델 평가를 지원하는 'Amazon Nova LLM-as-a-Judge'를 출시했다.
•이 도구는 95% 신뢰구간을 포함한 자동화된 쌍체 비교를 통해 모델의 성능을 정밀하게 측정한다.
•Nova 평가 모델은 0.76의 평가 편향 점수를 기록하며, 다양한 작업에서 인간의 선호도를 밀접하게 반영한다.

•AWS가 Amazon SageMaker AI에서 확장 가능하고 공정한 생성형 모델 평가를 지원하는 'Amazon Nova LLM-as-a-Judge'를 출시했다.
•이 도구는 95% 신뢰구간을 포함한 자동화된 쌍체 비교를 통해 모델의 성능을 정밀하게 측정한다.
•Nova 평가 모델은 0.76의 평가 편향 점수를 기록하며, 다양한 작업에서 인간의 선호도를 밀접하게 반영한다.

기존의 정확도나 BLEU 점수와 같은 지표는 창의성이나 비즈니스 정렬과 같은 생성형 AI 출력물의 미묘한 차이를 포착하기 어려운 경우가 많았다. 이에 따라 AWS는 Nova 모델의 추론 능력을 활용해 다른 AI 시스템을 평가하는 Amazon Nova LLM-as-a-Judge 기능을 Amazon SageMaker AI에 도입했다. 기업은 이러한 '판사(Judge)' 모델을 활용함으로써 경직된 규칙 기반 평가에서 벗어나, 인간의 주관적 판단을 모사하는 유연한 평가 체계를 구축할 수 있게 됐다.

이 시스템은 두 개의 출력물을 나란히 비교해 승자나 무승부를 결정하는 이진 전체 선호도 판단 방식으로 작동한다. 특히 승률과 95% 신뢰구간을 포함한 엄격한 통계 데이터를 생성하므로, 개발자는 모델 업데이트가 실제로 개선된 것인지 아니면 단순한 무작위 변동에 불과한 것인지를 명확히 판단할 수 있다. 또한 이 도구는 낮은 지연 시간에 최적화되어 있어 훈련 파이프라인 내의 자동 채점 시스템으로 활용하기에 매우 적합하다.

AWS는 공정성을 확보하기 위해 인간이 주석을 단 예시를 바탕으로 지도 학습과 강화 학습을 결합하여 Nova를 훈련시켰다. 이러한 훈련 덕분에 Nova 판사는 코딩이나 창의적 글쓰기와 같은 다양한 작업에서 객관성을 유지하며 인간의 판단과 비교해 매우 낮은 편향성을 보여준다. 특히 이러한 워크플로우를 Amazon SageMaker에 직접 통합함으로써, 개발팀은 단 몇 분 만에 신뢰할 수 있는 상용 수준의 평가 환경을 구축하고 시제품 단계에서 배포까지의 과정을 가속화할 수 있다.

기존의 정확도나 BLEU 점수와 같은 지표는 창의성이나 비즈니스 정렬과 같은 생성형 AI 출력물의 미묘한 차이를 포착하기 어려운 경우가 많았다. 이에 따라 AWS는 Nova 모델의 추론 능력을 활용해 다른 AI 시스템을 평가하는 Amazon Nova LLM-as-a-Judge 기능을 Amazon SageMaker AI에 도입했다. 기업은 이러한 '판사(Judge)' 모델을 활용함으로써 경직된 규칙 기반 평가에서 벗어나, 인간의 주관적 판단을 모사하는 유연한 평가 체계를 구축할 수 있게 됐다.

이 시스템은 두 개의 출력물을 나란히 비교해 승자나 무승부를 결정하는 이진 전체 선호도 판단 방식으로 작동한다. 특히 승률과 95% 신뢰구간을 포함한 엄격한 통계 데이터를 생성하므로, 개발자는 모델 업데이트가 실제로 개선된 것인지 아니면 단순한 무작위 변동에 불과한 것인지를 명확히 판단할 수 있다. 또한 이 도구는 낮은 지연 시간에 최적화되어 있어 훈련 파이프라인 내의 자동 채점 시스템으로 활용하기에 매우 적합하다.

AWS는 공정성을 확보하기 위해 인간이 주석을 단 예시를 바탕으로 지도 학습과 강화 학습을 결합하여 Nova를 훈련시켰다. 이러한 훈련 덕분에 Nova 판사는 코딩이나 창의적 글쓰기와 같은 다양한 작업에서 객관성을 유지하며 인간의 판단과 비교해 매우 낮은 편향성을 보여준다. 특히 이러한 워크플로우를 Amazon SageMaker에 직접 통합함으로써, 개발팀은 단 몇 분 만에 신뢰할 수 있는 상용 수준의 평가 환경을 구축하고 시제품 단계에서 배포까지의 과정을 가속화할 수 있다.