이 기사의 핵심 내용은?

아마존 베드락이 대규모 라벨링 데이터 없이도 모델 성능을 최적화할 수 있는 자동화된 강화 파인튜닝 기능을 출시했다. 이 서비스는 검증 가능한 보상과 AI 피드백 방식을 통해 특정 작업에서 기본 모델 대비 평균 66%의 정확도 향상을 실현한다. 현재 아마존 노바 2 라이트 모델을 지원하며 기업들이 보안이 유지된 환경에서 저비용·고성능 맞춤형 AI를 구축하도록 돕는다.

아마존 베드락, 강화 파인튜닝으로 정확도 66% 향상

•아마존 베드락이 대규모 라벨링 데이터 없이도 모델 성능을 최적화할 수 있는 자동화된 강화 파인튜닝 기능을 출시했다.
•이 서비스는 검증 가능한 보상과 AI 피드백 방식을 통해 특정 작업에서 기본 모델 대비 평균 66%의 정확도 향상을 실현한다.
•현재 아마존 노바 2 라이트 모델을 지원하며 기업들이 보안이 유지된 환경에서 저비용·고성능 맞춤형 AI를 구축하도록 돕는다.

•아마존 베드락이 대규모 라벨링 데이터 없이도 모델 성능을 최적화할 수 있는 자동화된 강화 파인튜닝 기능을 출시했다.
•이 서비스는 검증 가능한 보상과 AI 피드백 방식을 통해 특정 작업에서 기본 모델 대비 평균 66%의 정확도 향상을 실현한다.
•현재 아마존 노바 2 라이트 모델을 지원하며 기업들이 보안이 유지된 환경에서 저비용·고성능 맞춤형 AI를 구축하도록 돕는다.

아마존웹서비스(AWS)가 자사의 완전 관리형 AI 플랫폼인 아마존 베드락에 '강화 파인튜닝' 기능을 새롭게 도입하며 기업용 AI 모델 성능의 획기적인 개선을 예고했다. 기존의 일반적인 AI 모델 개선 방식은 수만 개의 정답 사례를 인간이 일일이 검수하고 라벨링해야 하는 과정을 거쳐야 했기에 시간과 비용 측면에서 상당한 부담이 뒤따랐다. 이에 따라 AWS는 대규모 데이터셋을 구축하는 대신 AI가 특정 작업에 대해 수행한 결과값에 따라 보상이나 페널티를 부여해 스스로 학습하게 하는 피드백 기반의 강화학습 방식을 채택했다. 실제로 이러한 방식을 적용할 경우 특정 전문 작업 영역에서 기본 모델 대비 정확도가 평균 66% 이상 대폭 향상되는 성과를 거둘 수 있다.

이번 업데이트는 크게 두 가지 핵심 최적화 기술을 제공한다. 첫 번째인 '검증 가능한 보상을 통한 강화학습(RLVR)'은 수학 문제 풀이나 소프트웨어 코딩과 같이 정답이 명확하게 정해진 작업에 대해 객관적인 규칙을 바탕으로 점수를 매겨 학습 효율을 극대화하는 방식이다. 두 번째인 'AI 피드백 기반 강화학습(RLAIF)'은 답변의 어조 설정이나 부적절한 콘텐츠 중재처럼 인간의 주관적인 판단이 필요한 영역에서 다른 고성능 AI 모델을 평가자로 활용하여 학습을 유도한다. AWS에서 수석 개발자 옹호자로 활동 중인 도니 프라코소(Donnie Prakoso)는 전문적인 머신러닝 지식이나 복잡한 인프라 관리 경험이 없는 일반 개발자들도 베드락 콘솔을 통해 클릭 몇 번만으로 이 강력한 도구를 쉽게 사용할 수 있다고 강조했다.

현재 해당 서비스는 아마존 노바 2 라이트 모델을 우선적으로 지원하고 있으며, 기업들은 이를 통해 훨씬 거대한 모델에 필적하는 고성능을 내면서도 운영 비용은 저렴하고 속도는 빠른 최적화 모델을 직접 구축할 수 있게 되었다. 사용자는 자신이 직접 작성한 맞춤형 파이썬 코드를 통해 피드백 로직을 설계하거나 기존의 파운데이션 모델을 심사위원으로 설정해 자동화된 학습을 진행할 수 있다. 특히 모든 학습 과정이 보안이 철저하게 보장되는 AWS 클라우드 환경 내부에서만 이루어지기 때문에 기업의 고유한 지식재산권이나 민감한 내부 데이터가 외부로 유출될 우려 없이 안전하게 AI 에이전트 시스템을 고도화할 수 있다는 점이 가장 큰 특징이다. 또한 이러한 자동화된 모델 튜닝 시스템은 개발 주기를 획기적으로 단축시켜 기업들의 시장 경쟁력을 한층 강화할 것으로 전망된다.

아마존웹서비스(AWS)가 자사의 완전 관리형 AI 플랫폼인 아마존 베드락에 '강화 파인튜닝' 기능을 새롭게 도입하며 기업용 AI 모델 성능의 획기적인 개선을 예고했다. 기존의 일반적인 AI 모델 개선 방식은 수만 개의 정답 사례를 인간이 일일이 검수하고 라벨링해야 하는 과정을 거쳐야 했기에 시간과 비용 측면에서 상당한 부담이 뒤따랐다. 이에 따라 AWS는 대규모 데이터셋을 구축하는 대신 AI가 특정 작업에 대해 수행한 결과값에 따라 보상이나 페널티를 부여해 스스로 학습하게 하는 피드백 기반의 강화학습 방식을 채택했다. 실제로 이러한 방식을 적용할 경우 특정 전문 작업 영역에서 기본 모델 대비 정확도가 평균 66% 이상 대폭 향상되는 성과를 거둘 수 있다.

이번 업데이트는 크게 두 가지 핵심 최적화 기술을 제공한다. 첫 번째인 '검증 가능한 보상을 통한 강화학습(RLVR)'은 수학 문제 풀이나 소프트웨어 코딩과 같이 정답이 명확하게 정해진 작업에 대해 객관적인 규칙을 바탕으로 점수를 매겨 학습 효율을 극대화하는 방식이다. 두 번째인 'AI 피드백 기반 강화학습(RLAIF)'은 답변의 어조 설정이나 부적절한 콘텐츠 중재처럼 인간의 주관적인 판단이 필요한 영역에서 다른 고성능 AI 모델을 평가자로 활용하여 학습을 유도한다. AWS에서 수석 개발자 옹호자로 활동 중인 도니 프라코소(Donnie Prakoso)는 전문적인 머신러닝 지식이나 복잡한 인프라 관리 경험이 없는 일반 개발자들도 베드락 콘솔을 통해 클릭 몇 번만으로 이 강력한 도구를 쉽게 사용할 수 있다고 강조했다.

현재 해당 서비스는 아마존 노바 2 라이트 모델을 우선적으로 지원하고 있으며, 기업들은 이를 통해 훨씬 거대한 모델에 필적하는 고성능을 내면서도 운영 비용은 저렴하고 속도는 빠른 최적화 모델을 직접 구축할 수 있게 되었다. 사용자는 자신이 직접 작성한 맞춤형 파이썬 코드를 통해 피드백 로직을 설계하거나 기존의 파운데이션 모델을 심사위원으로 설정해 자동화된 학습을 진행할 수 있다. 특히 모든 학습 과정이 보안이 철저하게 보장되는 AWS 클라우드 환경 내부에서만 이루어지기 때문에 기업의 고유한 지식재산권이나 민감한 내부 데이터가 외부로 유출될 우려 없이 안전하게 AI 에이전트 시스템을 고도화할 수 있다는 점이 가장 큰 특징이다. 또한 이러한 자동화된 모델 튜닝 시스템은 개발 주기를 획기적으로 단축시켜 기업들의 시장 경쟁력을 한층 강화할 것으로 전망된다.