이 기사의 핵심 내용은?

MIT 연구진이 거대언어모델(LLM)의 탐색 붕괴 현상을 방지하기 위한 '희소성 인식 강화학습' 기술을 도입했다. LLM 기반 클러스터링을 통해 희귀한 추론 전략에 보상을 부여함으로써 해결책의 다양성을 높이는 방식이다. 초기 정확도를 유지하면서도 수학 및 의료 벤치마크에서 pass@k 성능을 크게 향상시켰다.

MIT, LLM의 창의성 깨우는 '희소성 강화학습' 개발

•MIT 연구진이 거대언어모델(LLM)의 탐색 붕괴 현상을 방지하기 위한 '희소성 인식 강화학습' 기술을 도입했다.
•LLM 기반 클러스터링을 통해 희귀한 추론 전략에 보상을 부여함으로써 해결책의 다양성을 높이는 방식이다.
•초기 정확도를 유지하면서도 수학 및 의료 벤치마크에서 pass@k 성능을 크게 향상시켰다.

•MIT 연구진이 거대언어모델(LLM)의 탐색 붕괴 현상을 방지하기 위한 '희소성 인식 강화학습' 기술을 도입했다.
•LLM 기반 클러스터링을 통해 희귀한 추론 전략에 보상을 부여함으로써 해결책의 다양성을 높이는 방식이다.
•초기 정확도를 유지하면서도 수학 및 의료 벤치마크에서 pass@k 성능을 크게 향상시켰다.

현재 LLM을 훈련하는 강화학습 기술은 흔히 '탐색 붕괴(exploration collapse)'라는 벽에 부딪히곤 한다. 모델이 가장 뻔한 정답을 찾는 데만 익숙해지면서 좁고 정형화된 패턴을 반복하게 되는 현상이다. 이 과정에서 모델은 창의적인 대안을 탐색하는 능력을 잃어버린다. 이는 의료나 첨단 물리학처럼 복잡한 문제에 대해 다각도의 해결책이 필요한 분야에서 AI의 잠재력을 가로막는 치명적인 약점이 되어왔다. 이러한 순환 고리를 끊기 위해 MIT(매사추세츠 공과대학교) 연구진은 '희소성 인식 강화학습(Uniqueness-Aware Reinforcement Learning)'을 개발했다. 단순히 정답 여부만 따지는 보상 체계에서 벗어난 것이 핵심이다. 별도의 AI 판독관을 두어 모델의 답변들을 그 기저에 깔린 전략에 따라 클러스터링한다. 단순한 문구의 차이가 아닌 사고방식의 차이를 구분해내는 방식이다. 시스템은 '희귀한' 그룹에 속하는 전략에 더 높은 보상을 부여한다. AI가 정답 하나를 암기하는 것에 그치지 않고 미지의 영역으로 사고를 확장하도록 독려하는 일종의 '독창성 보너스'인 셈이다. 다양한 벤치마크 테스트 결과, 첫 번째 시도의 정확도는 유지하면서도 여러 번의 시도 중 정답을 맞힐 확률인 pass@k 성능이 대폭 개선된 것으로 나타났다. 해결책의 모든 단계를 아우르는 '롤아웃(rollout)' 수준에서 다양성을 우선시한 결과다. 이번 연구는 다면적인 추론이 필요한 과업에서 AI가 훨씬 더 유연하고 창의적으로 대응할 수 있음을 입증했다.