AIエージェントの記憶能力を検証する「Memeval」が登場
- •アヌパム・ゲバリヤ(Anupam Gevariya)氏が、AIエージェントの記憶性能を検証するオープンソースのテストフレームワーク「Memeval」を公開した。
- •同フレームワークは、Mem0、Zep、Letta、LangGraph、CrewAIといった各プロバイダーに対し、統一されたプロトコルを用いた標準的なベンチマークを提供する。
- •Memevalは、YAML形式のテストケースを通じて、想起精度、関連性、矛盾検出、レイテンシ、プライバシー隔離など7つの主要な評価指標を計測する。
アヌパム・ゲバリヤ氏は、AIエージェントの記憶能力を評価するためのオープンソース・テストフレームワーク「Memeval」を公開した。LangSmithやRagasなどがプロンプトやRAGパイプラインの評価に活用される一方で、記憶システムには標準化されたテスト手法が欠けており、開発者はユーザーからのフィードバックを通じてのみ不具合を特定していた。Memevalは、YAMLベースの標準的なシナリオを様々なメモリバックエンドで実行し、想起能力、一貫性、プライバシー関連の課題を識別することでこのギャップを埋める。
本フレームワークは、評価ハーネスとMem0、Zep、Letta、LangGraph、CrewAIなどの各プロバイダー間を接続する「Standard Memory Protocol(SMP)」を採用している。このプロトコルにより、開発者はテストコードを変更することなく、異なるメモリ構造に対して同一の指標を適用できる。ツールには、セッション、コアストレージ、ライフサイクル、ガバナンス、運用の5カテゴリに分類された30種類のテストケースが組み込まれている。
Memevalは、想起精度、関連性、一貫性(矛盾検出)、更新伝播、忘却品質、レイテンシとコスト、プライバシー隔離という7つの評価軸で性能を測定する。一貫性指標では、ベクトル埋め込み(Vector Embeddings)を用いた検出により、保存された事実間の数値的・構造的な矛盾を特定する。シナリオが失敗した場合には、診断ツールが更新データではなく古いデータを取得したかといった詳細なフィードバックを提供する。
ベンチマークの結果、各プロバイダーの記憶管理には差異が見られた。例えば、Mem0はLLMベースの事実抽出によって想起精度を向上させる一方、LLM依存の書き込み処理によりレイテンシが増大する傾向がある。対照的にLangGraphは想起と更新伝播において完璧な性能を示すが、関連性のランキング精度では劣る場合がある。またZepの非同期ナレッジグラフ処理は、エージェントのリアルタイム性に影響を及ぼす可能性がある。Memevalは、マルチセッション会話から抽出された500件のQAペアによる検索性能を測定する「LongMemEval」ベンチマークも統合している。本ツールはPythonパッケージとして提供されており、特定のライブラリ用のアダプターも選択可能である。