Salesforce, LLM 자기 개선을 위한 PMD 기술 발표
Salesforce
2026년 6월 2일 (화)
- •Salesforce가 언어 모델의 자기 개선 과정을 누적하고 재사용할 수 있도록 돕는 PMD 기술을 공개했다.
- •PMD는 SciKnowEval 정확도를 최대 5.5%, LiveCodeBench 성능을 최대 13.6%까지 향상하며 기존 SDPO를 앞섰다.
- •메모리 증강 학습을 통해 대규모 모델에서 추출된 통찰력을 소규모 모델에서도 효과적으로 활용할 수 있게 되었다.
Salesforce 연구진이 AI의 자기 개선 과정을 누적 가능한 형태의 '절차적 기억'으로 변환하는 PMD(Procedural Memory Distillation) 기술을 도입했다. 기존 강화학습은 데이터를 한 번의 업데이트에 사용하고 폐기하지만, PMD는 경험을 경험 메모리(원시 궤적), 통찰 메모리(추출된 전략), 행동 메모리(증류된 일반 기술)의 3단계로 체계화한다. 이 메모리는 학습 과정에서만 자기 주도 교사를 조건화하는 데 사용되며, 추론 시점에는 외부 검색 구성 요소가 필요 없는 독립적인 모델로 최적화된다.
SciKnowEval 및 LiveCodeBench 평가에서 PMD는 GRPO나 SDPO와 같은 기존 방법론보다 우수한 성능을 보였다. Qwen3-8B 모델에 적용했을 때 SciKnowEval 정확도는 74.4%에서 77.2%로, LiveCodeBench 성능은 47.9%에서 51.7%로 상승했다. OLMo3-Instruct-7B 모델 역시 SciKnowEval 69.5%에서 73.3%, LiveCodeBench 45.0%에서 51.1%로 개선되었다. 이는 과학 추론 작업에서 3.8–5.5%, 코딩 작업에서 7.9–13.6%의 정확도 향상을 의미한다. 나아가 PMD는 추론 시간 확장성 측면에서 뛰어난 성능을 입증했으며, Qwen3-1.7B부터 32B 모델까지 메모리의 전이 학습 효과를 확인했다.