共有メモリーAIエージェントの統治性能を評価する「GateMem」
HuggingFace
2026年6月23日 (火)
- •GateMemは医療、オフィス、教育、家庭の各分野における共有メモリーAIエージェントを評価する。
- •本ベンチマークには91のマルチパーティエピソードと2,218の隠し評価チェックポイントが含まれる。
- •現在のモデルは有用性、アクセス制御、情報の確実な削除という要件の両立に課題を抱えている。
研究者らは、マルチユーザー環境におけるAIエージェントの共有メモリー管理を評価するベンチマーク「GateMem」を発表した。シングルユーザー環境を前提とした従来のベンチマークとは異なり、GateMemは病院、職場、学校、家庭などの組織環境に導入されたエージェントの性能を検証する。これらの環境では、複数のユーザーが共通のメモリープールにアクセスするため、情報の想起だけでなく、アクセス権やプライバシーに関する厳格なガバナンスが不可欠となる。
このベンチマークは、長期的なタスクの有用性、ユーザー認証に基づくアクセス制御、そして情報の削除要請後に安全に情報を破棄する能動的忘却という3つの主要能力を評価する。4つのドメインをカバーし、91の長尺マルチパーティエピソードと2,218の隠し評価チェックポイントで構成されている。7つのメモリーエージェントベースラインと6つのバックボーンモデルによる評価結果は、現在のシステムがこれらの要件のバランスを取ることに苦心している現状を示した。ロングコンテキストプロンプティングは優れた統治性能を示す一方、コストが高騰する傾向にある。対照的に、検索ベースや外部メモリー手法は低コストだが、削除された情報や非承認の情報が漏洩するリスクが残る。