이 기사의 핵심 내용은?

Amazon SageMaker AI가 Amazon Nova 모델을 활용해 루브릭(Rubric) 기반의 LLM 심사자 기능을 공개했다. 고정된 규칙 대신 입력된 프롬프트의 특성에 맞춰 평가 기준을 실시간으로 자동 생성하는 시스템을 구축했다. 중요도 가중치와 근거가 포함된 YAML 형식의 분석 결과를 제공해 평가 과정의 투명성을 대폭 강화했다.

Amazon SageMaker, Nova 기반 맞춤형 'LLM 심사자' 출시

•Amazon SageMaker AI가 Amazon Nova 모델을 활용해 루브릭(Rubric) 기반의 LLM 심사자 기능을 공개했다.
•고정된 규칙 대신 입력된 프롬프트의 특성에 맞춰 평가 기준을 실시간으로 자동 생성하는 시스템을 구축했다.
•중요도 가중치와 근거가 포함된 YAML 형식의 분석 결과를 제공해 평가 과정의 투명성을 대폭 강화했다.

•Amazon SageMaker AI가 Amazon Nova 모델을 활용해 루브릭(Rubric) 기반의 LLM 심사자 기능을 공개했다.
•고정된 규칙 대신 입력된 프롬프트의 특성에 맞춰 평가 기준을 실시간으로 자동 생성하는 시스템을 구축했다.
•중요도 가중치와 근거가 포함된 YAML 형식의 분석 결과를 제공해 평가 과정의 투명성을 대폭 강화했다.

생성형 AI 모델을 평가하는 일은 흔히 움직이는 과녁을 맞히는 과정에 비유된다. 개발자들은 보통 '답변이 공손한가?'와 같은 고정된 규칙인 정적 루브릭에 의존해 결과물을 채점해 왔다. 하지만 창의적인 이야기에는 복잡한 파이썬 스크립트나 법률 문서와는 전혀 다른 평가 기준이 필요하기 마련이다.

Amazon SageMaker AI는 이러한 한계를 극복하기 위해 자체 파운데이션 모델인 Amazon Nova를 기반으로 한 루브릭 심사 기능을 도입했다. 이 LLM 심사자는 일편단심형의 범용적인 방식 대신, 사용자의 특정 프롬프트를 분석해 실시간으로 맞춤형 체크리스트를 생성한다. 실제로 의료 기록을 요약할 때 시스템은 수동 개입 없이도 의료적 정확성과 공감하는 어조를 자동으로 최우선 순위에 두고 평가를 진행한다.

특히 이 심사자는 구조화된 YAML 출력을 통해 딥다이브 분석 결과를 제공한다. 각 평가 항목에 중요도 가중치를 부여하고, 특정 선호도에 대한 확신을 나타내는 '가중 점수'를 산출해 근거를 제시하는 방식이다. 이러한 수준의 투명성은 엔지니어링 팀이 모델의 성능 변화를 정밀하게 추적하는 데 도움을 준다. 예를 들어 모델의 정확도는 향상되었으나 대화의 명확성이 결여되는 지점 등을 정확히 짚어낼 수 있다.

아울러 Amazon은 답변의 순서를 바꿔가며 반복 평가해 일관성을 확보하는 '조정된 합의' 방식을 도입해 인간 중심 평가의 한계를 보완했다. 이 도구는 SFT 모델의 개발 주기를 단축하고, 대규모 학습 데이터셋의 자동 품질 제어 및 최적의 체크포인트 선정을 가속화할 것으로 기대된다.

생성형 AI 모델을 평가하는 일은 흔히 움직이는 과녁을 맞히는 과정에 비유된다. 개발자들은 보통 '답변이 공손한가?'와 같은 고정된 규칙인 정적 루브릭에 의존해 결과물을 채점해 왔다. 하지만 창의적인 이야기에는 복잡한 파이썬 스크립트나 법률 문서와는 전혀 다른 평가 기준이 필요하기 마련이다.

Amazon SageMaker AI는 이러한 한계를 극복하기 위해 자체 파운데이션 모델인 Amazon Nova를 기반으로 한 루브릭 심사 기능을 도입했다. 이 LLM 심사자는 일편단심형의 범용적인 방식 대신, 사용자의 특정 프롬프트를 분석해 실시간으로 맞춤형 체크리스트를 생성한다. 실제로 의료 기록을 요약할 때 시스템은 수동 개입 없이도 의료적 정확성과 공감하는 어조를 자동으로 최우선 순위에 두고 평가를 진행한다.

특히 이 심사자는 구조화된 YAML 출력을 통해 딥다이브 분석 결과를 제공한다. 각 평가 항목에 중요도 가중치를 부여하고, 특정 선호도에 대한 확신을 나타내는 '가중 점수'를 산출해 근거를 제시하는 방식이다. 이러한 수준의 투명성은 엔지니어링 팀이 모델의 성능 변화를 정밀하게 추적하는 데 도움을 준다. 예를 들어 모델의 정확도는 향상되었으나 대화의 명확성이 결여되는 지점 등을 정확히 짚어낼 수 있다.

아울러 Amazon은 답변의 순서를 바꿔가며 반복 평가해 일관성을 확보하는 '조정된 합의' 방식을 도입해 인간 중심 평가의 한계를 보완했다. 이 도구는 SFT 모델의 개발 주기를 단축하고, 대규모 학습 데이터셋의 자동 품질 제어 및 최적의 체크포인트 선정을 가속화할 것으로 기대된다.