Agentic Memory: A-Mem(NeurIPS Poster)
尽管大语言模型(LLM)智能体能够有效地利用外部工具完成复杂的现实世界任务,但它们仍然需要记忆系统来充分利用历史经验。现有的记忆系统虽然支持基本的存储与检索功能,但在记忆组织层面仍然较为粗糙,尽管近期已有尝试引入图数据库进行改进。此外,这些系统通常采用固定的操作方式和结构,限制了其在不同任务场景下的适应能力。为了解决上述问题,本文提出了一种新颖的、以智能体为中心(agentic)的 LLM 智能体
摘要
尽管大语言模型(LLM)智能体能够有效地利用外部工具完成复杂的现实世界任务,但它们仍然需要记忆系统来充分利用历史经验。现有的记忆系统虽然支持基本的存储与检索功能,但在记忆组织层面仍然较为粗糙,尽管近期已有尝试引入图数据库进行改进。此外,这些系统通常采用固定的操作方式和结构,限制了其在不同任务场景下的适应能力。
为了解决上述问题,本文提出了一种新颖的、以智能体为中心(agentic)的 LLM 智能体记忆系统,该系统能够以智能体驱动的方式对记忆进行动态组织。该记忆系统遵循 Zettelkasten(卡片盒)方法的基本原则,通过动态索引与链接机制,构建相互关联的知识网络。
当新的记忆被添加时,系统会生成一条包含多种结构化属性的综合笔记,其中包括上下文描述、关键词和标签等。随后,系统会分析历史记忆,识别潜在的相关性,并在存在有意义相似度的情况下建立记忆之间的连接。进一步地,该过程还支持记忆演化(memory evolution):新记忆的引入可能触发对既有历史记忆的上下文表示和属性进行更新,使记忆网络能够持续优化其对知识的理解。
该方法将 Zettelkasten 的结构化组织原则与智能体驱动决策的灵活性相结合,从而实现更加自适应且具备上下文感知能力的记忆管理机制。在六种基础模型上的实证实验结果表明,本文方法相较于现有的 SOTA(最先进)基线方法取得了显著性能提升。
贡献
在本文中,我们提出了一种新颖的智能体记忆系统——A-MEM,旨在为 LLM 智能体提供无需依赖静态、预设记忆操作的动态记忆结构能力。该方法受到了 Zettelkasten 笔记法 [15, 1] 的启发,这是一种通过原子化笔记与灵活链接机制构建互联知识网络的高级知识管理体系。
我们设计了一种智能体化的记忆架构,使 LLM 智能体能够自主且灵活地管理其记忆。对于每一条新记忆,系统都会构建一份完整的笔记表示,其中融合了多种信息形式,包括:由多个属性构成的结构化文本描述,以及用于相似性匹配的嵌入向量。随后,A-MEM 会分析历史记忆库,基于语义相似度和共享属性自动建立有意义的连接。
这一集成过程不仅能够生成新的记忆链接,还支持记忆体系的动态演化:当新记忆被引入时,它们可以触发对已有记忆上下文表示的更新,使整个记忆系统在时间推移中不断细化并加深对知识的理解。
本文的主要贡献总结如下:
-
我们提出了 A-MEM,一种面向 LLM 智能体的智能体化记忆系统,能够自主生成上下文描述、动态建立记忆连接,并基于新经验智能演化已有记忆,从而在无需预定义记忆操作的前提下,为 LLM 智能体提供长期交互能力。
-
我们设计了一种智能体记忆更新机制,其中新记忆会自动触发两个关键操作:链接生成与记忆演化。链接生成通过识别共享属性与相似的上下文描述,在记忆之间自动建立关联;记忆演化则使已有记忆能够随着新经验的引入而动态调整,从而逐步涌现出更高阶的模式与属性。
-
我们基于一个长期对话数据集对所提出系统进行了全面评估,在六种基础模型与六类评价指标下进行对比实验,结果显示 A-MEM 取得了显著性能提升。此外,我们还通过 t-SNE 可视化展示了该智能体记忆系统所形成的结构化组织效果。
02 相关工作

图 2: 我们的 A-MEM 架构在内存存储方面由三个核心部分组成。
笔记构建(Note Construction): 在此阶段,系统会处理新的交互记忆,并将其存储为具有多个属性的笔记。
链接生成(Link Generation): 该过程首先检索最相关的历史记忆,然后利用大语言模型(LLM)来判断这些记忆之间是否应该建立连接。
“盒子”概念(Concept of a ’box’): 这一概念描述了相关记忆如何通过相似的上下文描述相互关联,类似于**卢曼卡片盒(Zettelkasten)**方法。然而,我们的方法允许单个记忆同时存在于多个不同的“盒子”中。
记忆检索阶段(Memory Retrieval Stage): 我们使用文本编码模型提取查询嵌入(Query Embeddings),并在存储数据库中搜索相关的匹配项。当检索到某条相关记忆时,与其链接在同一个“盒子”中的相似记忆也会被自动获取。
2.1 LLM 智能体的内存系统
此前关于 LLM 智能体内存系统的研究探索了多种内存管理与利用机制 [23, 21, 8, 39]。部分方法实现了交互存储,通过密集检索模型 [39] 或读写内存结构 [24] 来维护详尽的历史记录。此外,MemGPT [25] 利用类似缓存的架构来优先处理近期信息。类似地,SCM [32] 提出了一种自控内存框架,通过内存流和控制器机制增强了 LLM 维持长期内存的能力。
然而,这些方法在处理多样化的现实任务时面临显著局限。虽然它们能提供基础的内存功能,但其操作通常受限于预定义的结构和固定的工作流。这些约束源于它们对僵化操作模式的依赖,尤其是在内存写入和检索过程中。这种缺乏灵活性导致其在面对新环境时泛化能力较差,且在长期交互中的效果有限。因此,设计一个支持智能体长期交互、灵活且通用的内存系统仍是一项至关重要的挑战。
2.2 检索增强生成(RAG)
检索增强生成(RAG)已成为通过引入外部知识源来增强 LLM 的一种强有力的方法 [18, 6, 10]。标准 RAG [37, 34] 流程包括:将文档索引为分块(chunks),根据语义相似度检索相关分块,并利用检索到的上下文增强 LLM 的提示词以生成内容。先进 RAG 系统 [20, 12] 已演进到包含复杂的检索前和检索后优化。基于这些基础,近期的研究引入了**智能体化 RAG(Agentic RAG)**系统,在检索过程中展现出更强的自主性和自适应行为。这些系统可以动态决定何时以及检索什么内容 [4, 14],生成假设性回复以引导检索,并根据中间结果迭代优化搜索策略 [31, 29]。
然而,尽管智能体化 RAG 方法在检索阶段表现出了自主性(即自主决定检索的时机和内容)[4, 14, 38],我们的智能体化内存系统则在更基础的层面展现了自主性——即内存结构的自主演化。受“卢曼卡片盒(Zettelkasten)”法的启发,我们的系统允许内存主动生成自身的上下文描述,与相关内存建立有意义的连接,并随着新经验的出现不断演化其内容与关系。这种在“自主检索”与“自主存储及演化”之间的根本性区别,将我们的方法与智能体化 RAG 系统区分开来,因为后者尽管拥有复杂的检索机制,其知识库本质上仍是静态的。
03 方法论
3.1 笔记构建 (Note Construction)


3.2 链接生成 (Link Generation)


3.3 内存演化 (Memory Evolution)

3.4 检索相关内存 (Retrieve Relative Memory)

4 实验
4.1 数据集与评测方式
为了评估长程对话中指令感知推荐(instruction-aware recommendation)的有效性,我们采用了 LoCoMo 数据集 [22]。与现有对话数据集 [36, 13] 相比,LoCoMo 包含显著更长的对话内容。以往的数据集通常只包含约 1K token、4–5 个会话的对话,而 LoCoMo 的对话平均长度约为 9K token,最长可覆盖 35 个会话,因此非常适合用于评估模型在长距离依赖建模以及长期对话一致性保持方面的能力。
LoCoMo 数据集包含多种类型的问题,旨在全面评估模型的不同理解能力,具体包括: 1)单跳问题(single-hop):可从单一会话中直接回答; 2)多跳问题(multi-hop):需要跨多个会话综合信息才能作答; 3)时间推理问题(temporal reasoning):考察模型对时间相关信息的理解能力; 4)开放域知识问题(open-domain knowledge):需要将对话上下文与外部知识相结合; 5)对抗性问题(adversarial):用于评估模型识别不可回答问题的能力。
总体而言,LoCoMo 数据集在上述类别下共包含 7,512 对问答样本。
此外,我们还使用了一个新的数据集 DialSim [16] 来评估所提出记忆系统的有效性。DialSim 是一个基于长期多方对话构建的问答数据集,其数据来源于多部知名电视剧(《老友记》《生活大爆炸》《办公室》)。该数据集覆盖 5 年时间、1,300 个会话,总规模约 35 万 token,并且每个会话包含 1,000 余个问题,这些问题来源于经过筛选的粉丝问答网站题目,以及基于时间知识图谱自动生成的复杂问题。在对比方法方面,我们选择了 LoCoMo [22]、ReadAgent [17]、MemoryBank [39] 和 MemGPT [25] 作为基线模型。各基线方法的详细介绍见 附录 A.1。
在评测指标上,我们主要采用两类指标:
-
F1 分数:通过综合精确率(Precision)与召回率(Recall)来评估答案准确性;
-
BLEU-1 [26]:通过计算生成回答与真实答案之间的词级重叠程度,评估生成文本质量。
此外,我们还统计了每个问题的平均生成 token 数,用于衡量回答的长度开销。
除了上述指标外,论文还报告了 ROUGE-L、ROUGE-2、METEOR 和 SBERT 相似度 等四种补充评测指标的实验结果。同时,作者在 附录 A.3 中进一步展示了在不同基础模型上的实验结果,包括 DeepSeek-R1-32B [11]、Claude 3.0 Haiku [2] 以及 Claude 3.5 Haiku [3]。

表 1: 在 LoCoMo 数据集上,不同方法在五类问答任务(多跳推理、多时间推理、开放域、单跳推理和对抗性)上的实验结果。结果以 F1 和 BLEU-1(%) 指标进行报告。最佳结果以 粗体 标注;我们提出的方法 A-MEM(以灰色高亮显示)在 六种基础语言模型上均展现出具有竞争力的性能。
4.2 实现细节
对于所有基线方法以及我们提出的方法,为保证公平性与一致性,我们统一采用相同的系统提示词(system prompt),具体内容见附录 B。 Qwen-1.5B/3B 和 Llama 3.2 1B/3B 模型均通过 Ollama 在本地进行部署,并使用 LiteLLM 来管理结构化输出的生成;对于 GPT 系列模型,则采用官方提供的结构化输出 API。
在记忆检索过程中,我们主要采用 k = 10 的 top-k 记忆选择策略,以在保证性能的同时兼顾计算效率;针对不同类别的任务,我们会对该参数进行适当调整以获得最优效果,具体的 k 值配置详见 附录 A.5。在文本嵌入方面,所有实验统一使用 all-minilm-l6-v2 模型。
4.3 实证结果
性能分析
在实证评估中,我们在 LoCoMo 数据集上将 A-MEM 与四种具有代表性的基线方法进行了对比,包括 LoCoMo [22]、ReadAgent [17]、MemoryBank [39] 以及 MemGPT [25]。 对于非 GPT 系列的基础模型,A-MEM 在各类任务中均稳定优于所有基线方法,充分验证了所提出的智能体化记忆机制的有效性。
在 GPT 系列模型上,尽管 LoCoMo 与 MemGPT 在 开放域(Open Domain) 和 对抗性(Adversarial) 等任务中表现较强,这主要得益于其预训练模型在简单事实检索方面的知识优势,但 A-MEM 在多跳(Multi-Hop)任务上表现出显著优势,在需要复杂推理链的场景中,其性能至少提升 两倍以上。
除 LoCoMo 数据集外,我们还在 DialSim 数据集上将 A-MEM 与 LoCoMo 及 MemGPT 进行了对比。实验结果显示,A-MEM 在所有评测指标上均显著优于基线方法,其 F1 分数达到 3.45,相比 LoCoMo 的 2.55 提升约 35%,相比 MemGPT 的 1.18 提升高达 192%。
A-MEM 的优越性能主要源于其新颖的智能体化记忆架构,该架构支持动态且结构化的记忆管理。与依赖静态记忆操作的传统方法不同,A-MEM 通过具有丰富上下文描述的原子化笔记构建互联的记忆网络,从而显著提升了多跳推理能力。此外,系统能够基于共享属性在记忆之间动态建立连接,并随着新上下文信息的引入持续更新已有记忆描述,使其更有效地捕捉和利用不同信息片段之间的潜在关系。
![]()
表 2: 在 DialSim [16] 数据集上,不同记忆机制在多种评测指标下的对比结果。数值越高表示性能越好,其中 A-MEM 在所有评测指标上均表现出最优性能。
成本与效率分析
在保持强性能表现的同时,A-MEM 还展现出显著的计算效率与成本优势。 每次记忆操作平均仅需约 1,200 个 token,通过选择性 top-k 检索机制,相比基线方法(LoCoMo 与 MemGPT 每次约需 16,900 token)实现了 85%–93% 的 token 用量减少。
这种显著的 token 压缩直接带来了更低的运行成本:在使用商业 API 服务的情况下,每次记忆操作的成本低于 $0.0003,使大规模部署在经济上具备可行性。在运行效率方面,使用 GPT-4o-mini 时平均处理时间为 5.4 秒,而在单卡 GPU 上运行本地部署的 Llama 3.2 1B 模型时,仅需 1.1 秒。
尽管在记忆处理过程中需要多次调用 LLM,A-MEM 依然能够在资源使用上保持高性价比,并在所有测试的基础模型上稳定超越基线方法,尤其在复杂的多跳推理任务中实现了性能翻倍。这种低计算成本与高推理能力之间的平衡,凸显了 A-MEM 在现实应用场景中的实际部署价值。

表 3: 针对 GPT-4o-mini 基础模型,我们对所提出的方法进行了消融实验。其中,“w/o” 表示在实验中移除了相应的模块;缩写 LG 和 ME 分别代表链接生成模块与记忆演化模块。
4.4 消融实验(Ablation Study)
为评估 链接生成(Link Generation,LG) 与 记忆演化(Memory Evolution,ME) 模块的有效性,我们通过系统性移除模型关键组件的方式进行了消融实验。当同时移除 LG 与 ME 模块时,系统性能出现显著下降,尤其在 多跳推理(Multi-Hop) 和 开放域(Open Domain) 任务中表现尤为明显。
仅保留 LG 模块(去除 ME,即 w/o ME)的系统表现处于中等水平,其性能显著优于同时移除两个模块的版本,表明链接生成在建立记忆间关联方面具有基础性作用。完整模型 A-MEM 在所有评测类别中均取得了最优性能,尤其在复杂推理任务上优势明显。
这些结果表明,链接生成模块为记忆组织提供了关键基础,而记忆演化模块则对记忆结构起到了必要的细化与增强作用。消融实验验证了我们架构设计的合理性,并突出了这两个模块在构建高效记忆系统时所体现出的互补性。
4.5 超参数分析(Hyperparameter Analysis)
我们进行了大量实验,以分析记忆检索参数 k(即每次交互中检索的相关记忆数量)对系统性能的影响。如图 3 所示,我们以 GPT-4o-mini 作为基础模型,在五类任务上测试了不同的 k 值(10、20、30、40、50)。
实验结果呈现出一个有趣的趋势:随着 k 的增大,模型性能整体有所提升,但在较大的 k 值下,这种提升逐渐趋于饱和,甚至在部分情况下出现轻微下降。这一现象在 多跳推理 和 开放域 任务中尤为明显。
该结果表明,记忆检索过程中存在一种微妙的权衡关系:较大的 k 值能够为推理提供更丰富的历史上下文,但同时也可能引入噪声,并加重模型对长序列信息的处理负担。综合分析表明,中等规模的 k 值在上下文信息丰富性与处理效率之间达成了较优平衡。

图 3: 以 GPT-4o-mini 作为基础模型时,记忆检索参数 k 在不同任务类别上的影响。尽管较大的 k 值通常通过提供更丰富的历史上下文来提升模型性能,但当 k 超过一定阈值后,性能增益会逐渐减弱,表明上下文丰富性与信息有效处理能力之间存在权衡关系。该趋势在所有评测类别中均保持一致,说明合理平衡的上下文检索策略对于获得最优性能至关重要。

表 4: 不同记忆方法在不同规模下的内存使用情况与检索时间对比。
4.6 扩展性分析(Scaling Analysis)
为评估随着记忆不断累积所带来的存储成本变化,我们分析了 A-MEM 与两种基线方法 MemoryBank [39] 和 ReadAgent [17] 在不同规模下的存储与检索效率。实验中,三种记忆系统使用完全相同的记忆内容,并在四个规模级别上进行测试,每一步将记忆条目数量扩大 10 倍(分别为 1,000、10,000、100,000 和 1,000,000 条)。
实验结果揭示了 A-MEM 在扩展性方面的关键特性: 在空间复杂度方面,三种系统均呈现出相同的线性增长趋势(O(N)),这符合向量检索系统的预期行为,说明 A-MEM 并未引入额外的存储开销。
在检索时间方面,A-MEM 随着记忆规模增长仅表现出极小幅度的时间增加。即使在扩展到 100 万条记忆 时,其检索时间也仅从 0.31 微秒 增加至 3.70 微秒,展现出卓越的效率表现。尽管 MemoryBank 的检索速度略快,但 A-MEM 在提供更丰富记忆表示与功能的同时,依然保持了可比的性能水平。
综合空间复杂度与检索时间的分析结果,我们认为 A-MEM 的检索机制在大规模场景下依然能够保持优秀的效率。检索时间随记忆规模增长缓慢,有效缓解了大规模记忆系统在效率方面的潜在顾虑,表明 A-MEM 是一种高度可扩展的长期对话记忆解决方案。这种高效率、高扩展性与增强型记忆能力的结合,使 A-MEM 成为构建强大 LLM 智能体长期记忆机制的重要进展。
4.7 记忆结构分析(Memory Analysis)
我们在图 4 中展示了记忆嵌入的 t-SNE 可视化结果,以直观呈现所提出智能体记忆系统在结构组织方面的优势。通过分析来自 LoCoMo [22] 长期对话中的两个示例对话,我们可以观察到:A-MEM(蓝色) 相较于基线系统(红色)呈现出更加一致且清晰的聚类结构。
这种结构化特征在对话 2 中尤为明显,记忆点在中心区域形成了清晰的聚类分布,从实证角度验证了记忆演化机制与上下文描述生成策略的有效性。相比之下,基线系统的记忆嵌入分布更为分散,表明在缺乏链接生成与记忆演化机制的情况下,记忆难以形成有效的结构组织。
这些可视化结果进一步验证了 A-MEM 能够通过动态演化与链接机制,自主维持具有语义意义的记忆结构。更多实验结果见 附录 A.4。

图 4: 记忆嵌入的 t-SNE 可视化,显示 A-MEM(蓝色) 相较于基线记忆(红色)在不同对话中呈现出更有组织的分布。基线记忆表示 未使用链接生成和记忆演化的 A-MEM。
更多推荐


所有评论(0)