이 기사의 핵심 내용은?

아마존이 자동화된 평가 보상을 통해 Nova 모델을 최적화하는 '강화 미세 조정(RFT)' 기능을 도입했다. RFT는 규칙 기반 검증(RLVR)과 AI 피드백(RLAIF)을 활용해 복잡한 추론 작업의 성능을 극대화한다. 이 방식은 코딩, 수학, 브랜드 특화 소통 분야에서 효율성을 높이며 토큰 사용량을 대폭 절감한다.

아마존, Nova 모델용 '강화 미세 조정' 출시

•아마존이 자동화된 평가 보상을 통해 Nova 모델을 최적화하는 '강화 미세 조정(RFT)' 기능을 도입했다.
•RFT는 규칙 기반 검증(RLVR)과 AI 피드백(RLAIF)을 활용해 복잡한 추론 작업의 성능을 극대화한다.
•이 방식은 코딩, 수학, 브랜드 특화 소통 분야에서 효율성을 높이며 토큰 사용량을 대폭 절감한다.

아마존이 기업들의 AI 커스터마이징 방식을 번거로운 수동 데이터 라벨링 과정에서 탈피시켜 혁신하고 있다. 기존의 지도 미세 조정은 수천 개의 완벽한 정답 예시가 필요했지만, 아마존 Nova 모델을 위한 새로운 강화 미세 조정(RFT)은 '평가를 통한 학습'에 초점을 맞춘다. 개발자가 모델에게 사고방식을 일일이 가르치는 대신, 테스트 케이스나 품질 기준을 통해 무엇이 '정답'인지를 정의하는 방식이다. 이에 따라 모델은 다양한 추론 경로를 스스로 탐색하며 가장 효율적인 해결책을 독립적으로 찾아낼 수 있게 됐다.

이 시스템은 크게 두 가지 피드백 메커니즘인 RLVR과 RLAIF를 활용한다. 먼저 RLVR은 수학이나 코딩처럼 컴퓨터 스크립트로 정답 여부를 즉각 확인할 수 있는 객관적인 작업에 최적화되어 있다. 반면 RLAIF는 보조 역할을 하는 'AI 판사'를 투입해 고객 서비스 응답의 유용성이나 기업 고유의 브랜드 정체성 부합 여부와 같은 주관적인 품질을 평가한다. 특히 이러한 피드백 루프는 사람이 일일이 개입하지 않아도 모델의 성능을 지속적으로 개선할 수 있다는 장점이 있다.

이러한 접근법은 자체 추론 능력을 갖춘 Nova 2 제품군과 결합했을 때 특히 강력한 시너지를 낸다. RFT는 모델 내부의 '사고' 단계를 최적화함으로써 답변의 정확도를 높일 뿐만 아니라, 작업 완료에 필요한 토큰 사용량까지 줄여준다. 그 결과 Bedrock이나 SageMaker와 같은 AWS 플랫폼을 통해 대규모 AI 서비스를 운영하는 기업들은 응답 속도 향상과 함께 운영 비용 절감이라는 실질적인 혜택을 누리게 될 전망이다.

아마존이 기업들의 AI 커스터마이징 방식을 번거로운 수동 데이터 라벨링 과정에서 탈피시켜 혁신하고 있다. 기존의 지도 미세 조정은 수천 개의 완벽한 정답 예시가 필요했지만, 아마존 Nova 모델을 위한 새로운 강화 미세 조정(RFT)은 '평가를 통한 학습'에 초점을 맞춘다. 개발자가 모델에게 사고방식을 일일이 가르치는 대신, 테스트 케이스나 품질 기준을 통해 무엇이 '정답'인지를 정의하는 방식이다. 이에 따라 모델은 다양한 추론 경로를 스스로 탐색하며 가장 효율적인 해결책을 독립적으로 찾아낼 수 있게 됐다.

이 시스템은 크게 두 가지 피드백 메커니즘인 RLVR과 RLAIF를 활용한다. 먼저 RLVR은 수학이나 코딩처럼 컴퓨터 스크립트로 정답 여부를 즉각 확인할 수 있는 객관적인 작업에 최적화되어 있다. 반면 RLAIF는 보조 역할을 하는 'AI 판사'를 투입해 고객 서비스 응답의 유용성이나 기업 고유의 브랜드 정체성 부합 여부와 같은 주관적인 품질을 평가한다. 특히 이러한 피드백 루프는 사람이 일일이 개입하지 않아도 모델의 성능을 지속적으로 개선할 수 있다는 장점이 있다.

이러한 접근법은 자체 추론 능력을 갖춘 Nova 2 제품군과 결합했을 때 특히 강력한 시너지를 낸다. RFT는 모델 내부의 '사고' 단계를 최적화함으로써 답변의 정확도를 높일 뿐만 아니라, 작업 완료에 필요한 토큰 사용량까지 줄여준다. 그 결과 Bedrock이나 SageMaker와 같은 AWS 플랫폼을 통해 대규모 AI 서비스를 운영하는 기업들은 응답 속도 향상과 함께 운영 비용 절감이라는 실질적인 혜택을 누리게 될 전망이다.