AI观察 | DeepAgent：具有可扩展工具集的通用推理智能体

近日，一项名为DeepAgent的研究引发了AI社区的广泛关注。它展示了一种全新的AI智能体形态：不仅能自主思考、动态发现并调用工具，还能在复杂的长期任务中，像人类一样“整理记忆”，避免思路混乱。这究竟是如何实现的？今天，我们就来一起拆解DeepAgent的核心技术，看看它是如何让AI变得更“聪明”的。一、传统智能体的瓶颈当前，大多数AI智能体遵循着预设的固定流程。比如，先规划、再搜索、后执行，就

360智汇云

704人浏览 · 2025-11-20 16:27:43

360智汇云 · 2025-11-20 16:27:43 发布

这篇文章拆解了《DeepAgent：具有可扩展工具集的通用推理智能体》的论文，论文介绍了 DeepAgent：一个能自主思考、动态发现并调用工具、还能在长任务中通过“记忆折叠”机制整理思路的通用推理智能体。下面我们来看：

前言

近日，一项名为 DeepAgent 的研究引发了AI社区的广泛关注。它展示了一种全新的AI智能体形态：不仅能自主思考、动态发现并调用工具，还能在复杂的长期任务中，像人类一样“整理记忆”，避免思路混乱。

这究竟是如何实现的？今天，我们就来一起拆解DeepAgent的核心技术，看看它是如何让AI变得更“聪明”的。

一、传统智能体的瓶颈

当前，大多数AI智能体遵循着预设的固定流程。比如，先规划、再搜索、后执行，就像一份不能变通的“标准作业程序”。

这种模式存在明显瓶颈：

缺乏自主性：无法在任务中动态发现新工具。

难以处理长任务：随着交互步骤增多，记忆越来越长，导致模型“上下文爆炸”，最终遗忘关键信息。

工具调用学习成本高：训练AI正确使用成千上万个工具，既不稳定，成本又高。

DeepAgent的诞生，正是为了打破这些枷锁。

二、DeepAgent的“最强大脑”：自主推理 + 高效分工

DeepAgent的核心设计非常巧妙，它采用了一个 “主模型+辅模型” 的协同架构。

主推理模型（LRM）：就像团队的“总指挥”，负责核心的推理工作。它在一个连贯的思维流中，自主分析任务、决定何时找工具、何时调用工具、何时该“整理”记忆，对任务始终保持全局视角。

辅助大模型：就像“总指挥”的得力助手，负责处理繁琐杂务。包括：

对过长的工具文档进行总结提炼。

对工具返回的冗杂结果进行去噪浓缩。

执行关键的“记忆折叠” 操作。

这种分工让主模型能专注于思考，大大提升了系统的效率和稳定性。

三、核心技术揭秘：记忆折叠

面对长任务中不可避免的“上下文爆炸”问题，DeepAgent的解决方案堪称点睛之笔——记忆折叠。

1. 什么是记忆折叠？

你可以把它理解为AI的“思维导图”或“工作笔记”。当AI觉得自己走了太多弯路、思路太乱、或者信息太多时，它会主动触发一个 <fold_thought> 信号。

这时，辅助模型就会出动，将之前杂乱无章的对话历史，压缩成一张结构化的“记忆卡片”。

2. 记忆卡片的三部分

这张卡片包含三类记忆，模仿了人类的类脑记忆模式：

情景记忆：记录“我之前主要干了啥”，包括关键决策、里程碑事件和任务整体进展。

工作记忆：记录“我当前正要做什么”，包括 immediate goal、遇到的挑战和下一步计划。

工具记忆：记录“我用过哪些工具，效果如何”，沉淀工具使用的成功经验和失败教训。

通过这种方式，AI清空了“工作内存”（上下文窗口），只保留了最精炼的结构化信息，从而能轻装上阵，继续应对复杂的任务。

四、如何教会AI使用工具？ToolPO策略

为了让AI能高效、稳定地学会使用成千上万的工具，研究者提出了名为 ToolPO 的强化学习策略。它的精妙之处在于：

1. 双重奖励，既看结果也看过程

全局任务奖励：任务最终成功了吗？

局部行为奖励：工具调用得对不对？记忆折叠的时机好不好？

这意味着，即使任务侥幸成功，但如果中间工具调用得一塌糊涂，AI也不会受到“错误”的鼓励。这有效避免了“瞎猫碰上死耗子”式的学习。

2. 细粒度优势归因：功劳分得清

这是ToolPO最大的创新。传统方法任务成功时，所有步骤（包括错误的）都会得到奖励，可谓“一人得道，鸡犬升天”。

而ToolPO会将奖励精准地分配给相关的token：

全局优势分配给所有token，确保大方向正确。

局部优势只分配给“工具调用”和“记忆折叠”的具体token。

这样一来，“功劳”分得清清楚楚，模型学得更快、更稳健。

3. 用LLM模拟API，低成本训练

更实用的是，ToolPO不需要连接真实API进行训练。它使用另一个LLM来模拟真实工具的响应，极大地降低了成本、延迟和不稳定性，使得大规模训练成为可能。

五、实验效果与启示

在包括工具使用、网页操作、虚拟环境任务等八大基准测试中，DeepAgent均表现出色，证明了其强大的通用性和鲁棒性。

这项研究给我们带来了几点重要启示：

工具可以动态发现，无需预先绑定，极大释放了智能体的自主潜力。

记忆折叠是解决长上下文问题的有效路径，为后续研究提供了新思路。

工具调用训练可以通过模拟环境实现，这是一条高效且低成本的实践路径。

结语

DeepAgent的出现，是AI智能体向更自主、更通用、更类人推理迈进的重要一步。它不再是一个只会执行固定脚本的程序，而是一个真正能够“随机应变”的智能助手。

未来，随着类似技术的成熟，我们有望在更复杂的领域（如自动驾驶、科学研究、智能操作系统）看到它们的身影。

参考资料：

论文地址：https://arxiv.org/abs/2510.21618

项目代码：https://github.com/RUC-NLPIR/DeepAgent

获取完整版《DeepAgent调研报告》请至公众号后台发送“报告”

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

LangChain 流式调用、并行处理与 Runnable 组件详解

2048 AI社区

【三变量联合分布函数copula】利用AIC BIC确定单变量最优拟合函数、利用AIC确定三变量联合最优copula函数、计算联合概率（Matlab代码实现）

Copula是一种将多变量联合分布函数 F(x1,…

2048 AI社区

【三变量联合分布函数copula】利用AIC BIC确定单变量最优拟合函数、利用AIC确定三变量联合最优copula函数、计算联合概率（Matlab代码实现）

Copula是一种将多变量联合分布函数 F(x1,…

2048 AI社区

所有评论(0)

查看更多评论

360智汇云

@zyun360

已为社区贡献8条内容