텍스트 비평으로 AI를 최적화하다: 'Feedback Descent'의 등장
- •Stanford University(스탠포드 대학교) 연구진이 수치 점수 대신 상세한 텍스트 비평을 활용해 AI를 최적화하는 'Feedback Descent'를 발표했다.
- •분자 설계 과정에서 기존 강화 학습 대비 시뮬레이터 호출 횟수를 3.8배나 줄이며 효율성을 대폭 개선했다.
- •신약 개발, SVG 생성, 자동 프롬프트 엔지니어링 등 도메인에 구애받지 않고 지속적인 성능 향상을 가능하게 하는 프레임워크다.
기존의 강화 학습은 이른바 '스칼라 병목 현상'으로 인해 오랜 시간 골머리를 앓아왔다. 풍부한 진단 정보를 담은 데이터가 단 하나의 숫자 점수, 즉 보상값으로 압축되면서 정보의 손실이 발생하기 때문이다. 마치 제과사가 케이크에 대해 5점 만점에 4점을 받았지만, 심사위원이 사실은 체리를 더 원했다는 점을 모른 채 막연히 다음 케이크를 준비해야 하는 상황과 같다. Stanford University(스탠포드 대학교) 연구진이 개발한 Feedback Descent 알고리즘은 이러한 한계를 정면으로 돌파한다. 숫자 점수 대신 자연어 비평을 '텍스트 그래디언트(Text Gradient)'로 활용하여 모델이 구체적이고 즉각적인 개선을 수행하도록 유도하는 것이다. 이 시스템은 평가자(Evaluator)와 편집자(Editor)라는 두 가지 핵심 구성 요소가 상호작용하는 구조다. 평가자가 분자의 특정 결합 오류나 이미지의 미적 결함을 지적하면, 대규모 언어 모델인 편집자가 이 피드백의 이력을 분석해 수정안을 제안한다. 최적화 과정을 가중치 업데이트가 아닌 '의미론적 공간에서의 대화'로 정의함으로써, 새로운 지식이 기존 기술을 지워버리는 '치명적 망각(Catastrophic forgetting)' 문제도 효과적으로 방지했다. 실제 적용 사례에서 Feedback Descent는 놀라운 범용성을 입증했다. 신약 개발 분야에서는 분자의 텍스트 표현 방식인 SMILES 문자열을 정교하게 다듬어, 기존 데이터베이스 상위 0.1%에 해당하는 강력한 결합력을 가진 화합물을 찾아냈다. 이는 전문화된 화학 최적화 도구와 대등한 수준이며, 표준적인 강화 학습 기준을 크게 앞지른 성과다. 텍스트 기반 피드백이 대규모 AI 학습의 견고한 토대가 될 수 있음을 증명한 셈이다.