AI 모델이 모를 때는 '모른다'고 말하게 하는 방법
- •매사추세츠 공과대학교 연구팀이 AI 모델의 답변 신뢰도를 보정하는 'RLCR' 기술을 개발했다.
- •이 방법은 핵심 성능을 유지하면서도 보정 오류를 최대 90%까지 감소시켰다.
- •의료, 금융, 법률 등 고위험 분야에서 AI의 과도한 자신감 문제를 해결할 새로운 학습 기법이다.
인공지능 모델은 종종 근거가 부족한 상황에서도 지나치게 확신에 찬 답변을 내놓는 경향이 있다. 이는 마치 자신이 확실히 알고 있는지 여부와 상관없이 무조건 확신을 가지고 답하는 사람과 비슷하다. 이러한 특성은 의료 진단, 법률 분석, 금융 감사와 같이 정교함과 정확성이 무엇보다 중요한 분야에서 AI를 도입하는 데 큰 걸림돌이 된다. 사용자는 AI의 답변이 얼마나 신뢰할 수 있는지 알기 어렵고, 의심해야 할 순간조차 놓치기 쉽다.
매사추세츠 공과대학교 연구진은 현대적 추론 시스템의 일반적인 학습 방식에서 이러한 현상의 근본 원인을 찾았다. 현재의 강화학습 체계에서는 모델이 정답을 맞히면 보상을, 틀리면 벌점을 받는 이분법적인 구조가 지배적이다. 이 방식은 우연히 정답을 맞힌 경우와 논리적인 추론을 거친 경우를 구분하지 않기에, 모델은 정보를 모를 때도 답을 제시하는 것이 유리하다고 학습하게 된다.
이를 해결하기 위해 연구팀은 보정 보상 강화학습(RLCR)이라는 새로운 방식을 도입했다. 연구진은 모델의 학습 과정을 안내하는 수학적 공식인 보상 함수를 수정하여, 모델이 자신의 답변에 대한 신뢰도를 스스로 평가하도록 설계했다. 특히 확률적 예측의 정확도를 측정하는 통계 도구인 Brier score를 학습 루프에 통합하여, 모델이 제시한 신뢰도와 실제 성능 사이의 간극을 줄이도록 유도했다.
그 결과는 매우 인상적이다. 여러 벤치마크 테스트에서 RLCR 모델은 보정 오류를 최대 90%까지 낮추며 표준 학습 방식보다 뛰어난 성능을 보였다. 더욱 중요한 점은 이러한 정직함의 향상이 모델 본연의 작업 정확도를 전혀 훼손하지 않았다는 것이다. 처음 접하는 새로운 데이터셋에서도 모델은 자신의 지식 경계를 더 명확히 파악하는 모습을 보였다.
이번 성과는 더 신뢰할 수 있고 해석 가능한 AI 시스템을 구축하는 중요한 진전이다. 고위험 의사결정 분야에 AI가 깊숙이 통합되는 만큼, 근거 없는 자신감을 버리고 불확실성을 제대로 알리는 기능은 선택이 아닌 필수 안전 요구사항이다. AI가 '모른다'고 답할 줄 알게 된다는 것은, 결국 사람이 후속 검증을 하거나 전문가의 조언을 구할 타이밍을 알려주는 실질적인 가치를 제공하게 된다.