这篇文章拆解了《DeepAgent:具有可扩展工具集的通用推理智能体》的论文,论文介绍了 DeepAgent:一个能自主思考、动态发现并调用工具、还能在长任务中通过“记忆折叠”机制整理思路的通用推理智能体。下面我们来看:

前言

近日,一项名为 DeepAgent 的研究引发了AI社区的广泛关注。它展示了一种全新的AI智能体形态:不仅能自主思考、动态发现并调用工具,还能在复杂的长期任务中,像人类一样“整理记忆”,避免思路混乱。

这究竟是如何实现的?今天,我们就来一起拆解DeepAgent的核心技术,看看它是如何让AI变得更“聪明”的。

一、传统智能体的瓶颈

当前,大多数AI智能体遵循着预设的固定流程。比如,先规划、再搜索、后执行,就像一份不能变通的“标准作业程序”。

这种模式存在明显瓶颈:

缺乏自主性:无法在任务中动态发现新工具。

难以处理长任务:随着交互步骤增多,记忆越来越长,导致模型“上下文爆炸”,最终遗忘关键信息。

工具调用学习成本高:训练AI正确使用成千上万个工具,既不稳定,成本又高。

DeepAgent的诞生,正是为了打破这些枷锁。

二、DeepAgent的“最强大脑”:自主推理 + 高效分工

DeepAgent的核心设计非常巧妙,它采用了一个 “主模型+辅模型” 的协同架构。

主推理模型(LRM):就像团队的“总指挥”,负责核心的推理工作。它在一个连贯的思维流中,自主分析任务、决定何时找工具、何时调用工具、何时该“整理”记忆,对任务始终保持全局视角。

辅助大模型:就像“总指挥”的得力助手,负责处理繁琐杂务。包括:

对过长的工具文档进行总结提炼

对工具返回的冗杂结果进行去噪浓缩

执行关键的“记忆折叠” 操作。

这种分工让主模型能专注于思考,大大提升了系统的效率和稳定性。

三、核心技术揭秘:记忆折叠

面对长任务中不可避免的“上下文爆炸”问题,DeepAgent的解决方案堪称点睛之笔——记忆折叠

1. 什么是记忆折叠?

你可以把它理解为AI的“思维导图”或“工作笔记”。当AI觉得自己走了太多弯路、思路太乱、或者信息太多时,它会主动触发一个 <fold_thought> 信号。

这时,辅助模型就会出动,将之前杂乱无章的对话历史,压缩成一张结构化的“记忆卡片”。

2. 记忆卡片的三部分

这张卡片包含三类记忆,模仿了人类的类脑记忆模式:

情景记忆:记录“我之前主要干了啥”,包括关键决策、里程碑事件和任务整体进展。

工作记忆:记录“我当前正要做什么”,包括 immediate goal、遇到的挑战和下一步计划。

工具记忆:记录“我用过哪些工具,效果如何”,沉淀工具使用的成功经验和失败教训。

通过这种方式,AI清空了“工作内存”(上下文窗口),只保留了最精炼的结构化信息,从而能轻装上阵,继续应对复杂的任务。

四、如何教会AI使用工具?ToolPO策略

为了让AI能高效、稳定地学会使用成千上万的工具,研究者提出了名为 ToolPO 的强化学习策略。它的精妙之处在于:

1. 双重奖励,既看结果也看过程

全局任务奖励:任务最终成功了吗?

局部行为奖励:工具调用得对不对?记忆折叠的时机好不好?

这意味着,即使任务侥幸成功,但如果中间工具调用得一塌糊涂,AI也不会受到“错误”的鼓励。这有效避免了“瞎猫碰上死耗子”式的学习。

2. 细粒度优势归因:功劳分得清

这是ToolPO最大的创新。传统方法任务成功时,所有步骤(包括错误的)都会得到奖励,可谓“一人得道,鸡犬升天”。

而ToolPO会将奖励精准地分配给相关的token:

全局优势分配给所有token,确保大方向正确。

局部优势只分配给“工具调用”和“记忆折叠”的具体token。

这样一来,“功劳”分得清清楚楚,模型学得更快、更稳健。

3. 用LLM模拟API,低成本训练

更实用的是,ToolPO不需要连接真实API进行训练。它使用另一个LLM来模拟真实工具的响应,极大地降低了成本、延迟和不稳定性,使得大规模训练成为可能。

五、实验效果与启示

在包括工具使用、网页操作、虚拟环境任务等八大基准测试中,DeepAgent均表现出色,证明了其强大的通用性和鲁棒性。

这项研究给我们带来了几点重要启示:

工具可以动态发现,无需预先绑定,极大释放了智能体的自主潜力。

记忆折叠是解决长上下文问题的有效路径,为后续研究提供了新思路。

工具调用训练可以通过模拟环境实现,这是一条高效且低成本的实践路径。

结语

DeepAgent的出现,是AI智能体向更自主、更通用、更类人推理迈进的重要一步。它不再是一个只会执行固定脚本的程序,而是一个真正能够“随机应变”的智能助手。

未来,随着类似技术的成熟,我们有望在更复杂的领域(如自动驾驶、科学研究、智能操作系统)看到它们的身影。

参考资料:

论文地址:https://arxiv.org/abs/2510.21618

项目代码:https://github.com/RUC-NLPIR/DeepAgent

获取完整版《DeepAgent调研报告》请至公众号后台发送“报告”

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐