Mem0:构建具有可扩展长期记忆的生产级AI代理 - 论文学习总结2

摘要：本文提出Mem0与Mem0g两种互补记忆架构，解决大语言模型长程对话中的事实一致性问题。Mem0通过增量更新稠密文本片段实现高效查询，Mem0g额外引入图记忆支持时序推理。在LOCOMO基准测试中，二者在单跳/多跳任务上精度提升5-11%，延迟降低85-92%，存储占用比商业方案减少两个数量级。实验表明，该架构通过"先压缩-再结构化"范式，在保持低延迟（Mem0 1.44

FserSuN

451人浏览 · 2025-10-26 21:47:36

FserSuN · 2025-10-26 21:47:36 发布

一、研究背景

大语言模型（LLM）的上下文窗口长度有限，难以在持续多日的对话中保持事实一致性。现有 RAG、全上下文或商业记忆平台要么噪声大、要么延迟高、要么 token 开销爆炸。本文提出两种互补的记忆架构——Mem0 与 Mem0g，在 LOCOMO 长程对话基准上同时实现更高精度、更低延迟、更小 token 占用，并支持即插即用部署。

二、方法总览

架构	核心思想	记忆形式	适用场景
Mem0	增量提取-更新-召回稠密自然语言事实	文本片段 + 向量索引	单跳 / 多跳快速查询
Mem0g	在 Mem0 基础上增加图记忆	实体为节点、关系为边、带时间戳	时序推理 / 开放域知识融合

关键技术

双阶段流水线：
- 抽取阶段：用 LLM 从最新消息对中提炼事实集合 Ω；
- 更新阶段：以语义向量召回相似记忆，由 LLM 判断执行 ADD / UPDATE / DELETE / NOOP，保证一致性与去重。
图构建与冲突解决：关系三元组 (vs, r, vd) 实时建图；出现矛盾时旧边标记失效而非删除，支持时序回溯。
双重检索：实体中心子图扩展 + 全局三元组语义向量匹配，兼顾精准与泛化。
工程优化：异步摘要刷新、动态精筛召回、Neo4j 存储 + GPT-4o-mini 生成，实现秒级可用。

三、实验设置

数据集：LOCOMO（10 条超长对话×平均 26 k tokens×200 问/条），题型分单跳、多跳、时序、开放域。
指标：

性能：F1、BLEU-1、LLM-as-a-Judge（J，10 次平均）；
部署：搜索延迟、总延迟 p50/p95、上下文 token 数。
基线：官方榜 5 个、开源 LangMem、Zep 商业平台、RAG（128–8192 tokens, k=1/2）、全上下文 26 k、OpenAI 记忆特权模式。