この記事の要点は？

セールスフォースは、大規模言語モデルの自己改善を累積的かつ再利用可能にするProcedural Memory Distillation（PMD）を導入した。 PMDはSDPOと比較して、SciKnowEvalで最大5.5%、LiveCodeBenchで最大13.6%の精度向上を達成した。記憶を拡張した学習により、小規模なモデルが大規模なモデルの推論過程から得られた洞察を活用可能になる。

セールスフォース、LLM向け記憶蒸留手法を発表

Salesforce

2026年6月2日 (火)

•セールスフォースは、大規模言語モデルの自己改善を累積的かつ再利用可能にするProcedural Memory Distillation（PMD）を導入した。
•PMDはSDPOと比較して、SciKnowEvalで最大5.5%、LiveCodeBenchで最大13.6%の精度向上を達成した。
•記憶を拡張した学習により、小規模なモデルが大規模なモデルの推論過程から得られた洞察を活用可能になる。

•セールスフォースは、大規模言語モデルの自己改善を累積的かつ再利用可能にするProcedural Memory Distillation（PMD）を導入した。
•PMDはSDPOと比較して、SciKnowEvalで最大5.5%、LiveCodeBenchで最大13.6%の精度向上を達成した。
•記憶を拡張した学習により、小規模なモデルが大規模なモデルの推論過程から得られた洞察を活用可能になる。

セールスフォースの研究チームは、AIの自己改善プロセスを累積的に行う手法であるProcedural Memory Distillation（PMD）を発表した。この手法は、学習時の試行錯誤を再利用可能な手続き型記憶に変換する。従来の強化学習のようにデータを一度の更新で廃棄するのではなく、PMDは経験を経験記憶（生の推論過程）、洞察記憶（抽出された戦略）、行動記憶（蒸留された汎用スキル）の3つのレベルに分類して整理する。この記憶は学習時に自己教師役を調整するためにのみ使用されるため、推論時には外部の検索コンポーネントを必要としない。

SciKnowEvalおよびLiveCodeBenchでの評価において、PMDはGRPOやSDPOといった既存の手法を上回る性能を示した。Qwen3-8Bモデルを用いた実験では、SciKnowEvalで74.4%から77.2%へ、LiveCodeBenchでは47.9%から51.7%へ精度が向上した。また、OLMo3-Instruct-7BでもSciKnowEvalで69.5%から73.3%へ、LiveCodeBenchで45.0%から51.1%へと改善が見られた。これは科学推論タスクで3.8～5.5%、コーディングタスクで7.9～13.6%の精度向上に相当する。さらに、PMDは推論時のスケーリングにおいて優れた性能を発揮し、SDPOと比較してより高い検証能力を提供した。研究チームは、Qwen3-8Bで学習された戦略が、Qwen3-1.7BからQwen3-32Bに至るまで多様なモデルサイズに転移可能であることも確認した。

原文(英語)を読む·2026年5月28日

#procedural memory distillation #pmd #llm #self improvement #sciknoweval #livecodebench #rlvr #salesforce

セールスフォース、LLM向け記憶蒸留手法を発表

Salesforce

2026年6月2日 (火)

•セールスフォースは、大規模言語モデルの自己改善を累積的かつ再利用可能にするProcedural Memory Distillation（PMD）を導入した。
•PMDはSDPOと比較して、SciKnowEvalで最大5.5%、LiveCodeBenchで最大13.6%の精度向上を達成した。
•記憶を拡張した学習により、小規模なモデルが大規模なモデルの推論過程から得られた洞察を活用可能になる。

•セールスフォースは、大規模言語モデルの自己改善を累積的かつ再利用可能にするProcedural Memory Distillation（PMD）を導入した。
•PMDはSDPOと比較して、SciKnowEvalで最大5.5%、LiveCodeBenchで最大13.6%の精度向上を達成した。
•記憶を拡張した学習により、小規模なモデルが大規模なモデルの推論過程から得られた洞察を活用可能になる。

原文(英語)を読む·2026年5月28日

#procedural memory distillation #pmd #llm #self improvement #sciknoweval #livecodebench #rlvr #salesforce