【干货收藏】LLM到Agent的效率革命：构建高效智能Agent系统全面指南

论文总结了记忆、工具学习和规划三个维度的基准测试，并指出了开放挑战和未来研究方向。高效agent的核心定义是：在相似成本预算下实现更高性能，或在可比性能下实现更低成本的成本-性能权衡。这篇综述为理解和构建高效agent系统提供了系统性框架，对于关注AI系统长期可持续性和可及性的研究者和实践者具有重要参考价值。

程序汪小陈

274人浏览 · 2026-02-02 10:19:19

程序汪小陈 · 2026-02-02 10:19:19 发布

本文综述了LLM进化为Agent系统时的效率瓶颈，提出高效记忆、工具学习和规划三大核心优化方向。详细分析了记忆构建、管理与访问的全生命周期，强调Agent效率提升需减少工具调用频率、提高选择性并减少重试。高效Agent的核心目标是实现成本与性能的最优权衡，为构建可持续、高可及性的AI系统提供系统性框架。

当LLM从单轮问答进化为能够自主执行复杂任务的agent系统时，一个关键瓶颈浮出水面：效率。与标准LLM的线性单轮交互不同，agent需要进行大量记忆管理、迭代工具调用和多步规划，导致延迟飙升、上下文窗口饱和、token消耗激增。这篇综述系统梳理了高效agent的三大核心方向：高效记忆、高效工具学习、高效规划。

[Figure 1: 高效agent研究的演进轨迹] 该图按记忆、工具学习、规划和基准测试四个主要分支组织，按时间顺序展示了2023年至2025年该领域的发展和分类。

1、从LLM到Agent：效率差距从何而来

论文将LLM-based agent建模为部分可观测马尔可夫决策过程(POMDP)，并增加了外部工具接口和显式记忆组件。与纯LLM相比，agent的成本来源更加复杂。

对于纯LLM，推理成本主要由token生成主导，可近似为：CostLLM ≈ α × Ntok，其中Ntok是生成的推理token数量，α表示每token成本。而agent则会产生额外开销：Costagent ≈ α × Ntok + 工具成本 + 记忆成本 + 重试成本。

[Figure 2: 从LLM到agent] 展示了从独立推理到带有记忆、规划和工具学习的轨迹级推理的转变，同时引入了额外的成本来源。

因此，提升agent效率不仅仅是减少语言生成，更要减少工具或记忆调用的频率、提高选择性，并减少轨迹中的重试次数。

2、高效记忆：构建、管理与访问的全生命周期

记忆增强推理是缓解长上下文和长期交互带来的计算与token开销的关键机制。论文围绕agent记忆的生命周期展开，涵盖记忆构建、记忆管理和记忆访问三个阶段。

[Figure 3: 高效记忆概览] 总结了agent-记忆生命周期的三个阶段：记忆构建通过压缩工作记忆和外部记忆中的长交互上下文来缓解token爆炸；记忆管理通过基于规则、基于LLM或混合策略来整理和更新累积的记忆存储以控制延迟；记忆访问决定检索哪些记忆以及如何将其整合到模型中。

记忆构建

工作记忆分为文本记忆和潜在记忆两类。文本记忆方面，COMEDY使用LLM生成和压缩记忆，MemAgent和MEM1通过在每一步重写和更新紧凑的记忆状态来顺序处理长输入。潜在记忆方面，Activation Beacon将上下文分割成块并使用渐进压缩将KV激活蒸馏到信标中，MemoryLLM维护固定大小的记忆token池，Titans在测试时更新神经记忆模块。

外部记忆包括基于项目的记忆、基于图的记忆和层次化记忆。基于项目的记忆中，SeCom使用分割模型将长期对话划分为主题连贯的片段并应用压缩模型去噪，A-MEM将每次交互转换为带有LLM生成的上下文描述、关键词和标签的原子笔记。基于图的记忆中，Zep通过摄取带时间戳的事件、提取/对齐实体和关系来构建时间感知知识图。层次化记忆中，MemGPT通过将上下文提示分区为系统指令、可写工作上下文和FIFO消息缓冲区来构建层次化记忆。

[Table 1: 效率导向机制的记忆概览] 该表按照论文提出的分类法组织，涵盖工作记忆、外部记忆和多agent记忆，列出了各方法的类别、核心机制和资源链接。

记忆管理

基于规则的管理使用预定义规则进行更新、删除和合并。MemoryBank引入了基于艾宾浩斯遗忘曲线的记忆更新规则，随时间衰减记忆同时强化重要记忆。A-MEM的实验结果表明，基于遗忘曲线的记忆管理有效控制了记忆大小并减少了检索时间，但也导致任务性能大幅下降。

基于LLM的管理可分为操作选择和开放式生成两种形式。Memory-R1和Mem0都通过检索相似条目并在ADD、UPDATE、DELETE、NOOP中选择来更新外部记忆。A-MEM使用生成式更新：检索top-k相似笔记后，LLM创建链接并通过记忆演化重写相关笔记。

混合管理结合轻量级规则控制和选择性LLM操作。MemoryOS和LightMem都采用分层记忆的层级特定、触发驱动更新。MemGPT使用队列管理器通过记忆压力警告、驱逐和递归摘要来强制执行token限制。

记忆访问

记忆选择方面，Generative Agents和Human-like memory将时间因素纳入考虑。对于基于图的记忆，AriGraph和Mem0[g]通过锚定查询相关事实并扩展邻居到局部子图来从记忆图中检索。H-MEM中，每个记忆嵌入指向下一层的相关子记忆，递归索引到最后一层以检索相关信息，从而加速检索。

记忆整合方面，文本整合中Mem0在推理时检索最相关的项目并将其格式化为紧凑的记忆块附加到对话上下文中。潜在整合中，MemoryLLM在每个transformer层插入可训练的记忆token池，M+添加CPU驻留的长期记忆和协同训练的检索器。

3、多Agent记忆：共享与本地的权衡

多agent系统中的记忆设计面临独特挑战。共享记忆方面，MS使用共享记忆池和选择性添加，G-Memory采用三层图记忆和双向粗到细检索。本地记忆方面，AgentNet为路由/执行使用固定大小的记忆模块并进行动态剪枝，DAMCS采用去中心化的每agent短期/长期记忆和目标导向的层次化知识图。混合记忆方面，SRMT结合个人潜在记忆和全局广播的共享循环记忆。

4、高效工具学习与高效规划

论文还系统梳理了高效工具学习和高效规划两大方向。工具学习涵盖工具选择、工具调用和工具整合推理；规划涵盖单agent规划效率和多agent协作效率。这些模块的优化策略与记忆优化相辅相成，共同构成高效agent系统的完整图景。

写在最后

论文总结了记忆、工具学习和规划三个维度的基准测试，并指出了开放挑战和未来研究方向。高效agent的核心定义是：在相似成本预算下实现更高性能，或在可比性能下实现更低成本的成本-性能权衡。

这篇综述为理解和构建高效agent系统提供了系统性框架，对于关注AI系统长期可持续性和可及性的研究者和实践者具有重要参考价值。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】