一、研究背景

大语言模型(LLM)的上下文窗口长度有限,难以在持续多日的对话中保持事实一致性。现有 RAG、全上下文或商业记忆平台要么噪声大、要么延迟高、要么 token 开销爆炸。本文提出两种互补的记忆架构——Mem0Mem0g,在 LOCOMO 长程对话基准上同时实现更高精度、更低延迟、更小 token 占用,并支持即插即用部署。


二、方法总览

架构 核心思想 记忆形式 适用场景
Mem0 增量提取-更新-召回稠密自然语言事实 文本片段 + 向量索引 单跳 / 多跳快速查询
Mem0g 在 Mem0 基础上增加图记忆 实体为节点、关系为边、带时间戳 时序推理 / 开放域知识融合

关键技术

  1. 双阶段流水线
    • 抽取阶段:用 LLM 从最新消息对中提炼事实集合 Ω;
    • 更新阶段:以语义向量召回相似记忆,由 LLM 判断执行 ADD / UPDATE / DELETE / NOOP,保证一致性与去重。
  2. 图构建与冲突解决:关系三元组 (vs, r, vd) 实时建图;出现矛盾时旧边标记失效而非删除,支持时序回溯。
  3. 双重检索:实体中心子图扩展 + 全局三元组语义向量匹配,兼顾精准与泛化。
  4. 工程优化:异步摘要刷新、动态精筛召回、Neo4j 存储 + GPT-4o-mini 生成,实现秒级可用。

三、实验设置

数据集:LOCOMO(10 条超长对话×平均 26 k tokens×200 问/条),题型分单跳、多跳、时序、开放域。
指标

  • 性能:F1、BLEU-1、LLM-as-a-Judge(J,10 次平均);
  • 部署:搜索延迟、总延迟 p50/p95、上下文 token 数。
    基线:官方榜 5 个、开源 LangMem、Zep 商业平台、RAG(128–8192 tokens, k=1/2)、全上下文 26 k、OpenAI 记忆特权模式。

四、主要结果

1. 精度(J 分)
题型 原最佳 Mem0 Mem0g 相对提升
单跳 62.5 67.1 66.8 +5%
多跳 46.1 51.2 50.4 +11%
时序 52.3 55.5 58.1 +11%
开放域 76.6*(Zep) 72.9 75.7 追平差距 <1pp

*Zep 领跑开放域,但 Mem0g 紧随其后,验证结构化记忆与外部知识接口高度兼容。

2. 延迟
  • 搜索 p95:Mem0 0.20 s,Mem0g 0.48 s,均低于任何记忆对手;
  • 总 p95:Mem0 1.44 s(较全上下文↓92%),Mem0g 2.6 s(↓85%);
  • 全上下文 17 s,RAG 8 k-2chunk 约 12–15 s,难以满足实时交互。
3. Token 与存储
  • 每对话平均记忆大小:Mem0 7 k,Mem0g 14 k,Zep 高达 600 k(冗余摘要+边缓存);
  • Mem0/Mem0g 构建完成 <1 min 即可查询;Zep 需异步后台小时级索引,实时性不足。

五、结论

Mem0 与 Mem0g 以**“先压缩-再结构化”**的新范式,打破“长对话必须长上下文”的假设:

  • 在关键题型上平均提升 5–11%,同时把延迟压到原来的 1/10;
  • token 占用比商业方案少两个数量级,立等可用;
  • 形成“极速文本记忆 + 关系图记忆”工具链,可按场景灵活插拔。

六、未来工作

  1. 优化图遍历与并行化,进一步削减 Mem0g 延迟;
  2. 探索分层记忆(短时-长时- episodic)自动折中效率与表达力;
  3. 引入类脑巩固与遗忘机制,实现自适应生命周期管理
  4. 扩展至程序推理、多模态交互等更广阔任务,验证通用性。

通过解决上下文长度这一核心瓶颈,本研究使对话 AI 首次具备持续数日乃至数周、连贯且低成本的类人交互能力,为下一代持久智能体奠定坚实基础。

参考

https://arxiv.org/pdf/2504.19413

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐