智能体系统的真正爆发点不在于单纯做大模型参数,而在于如何构建一个让大脑与工具相互适应的共生生态。

伊利诺伊大学香槟分校、斯坦福大学、普林斯顿大学、哈佛大学、华盛顿大学、加利福尼亚理工学院、伯克利大学等,发布一份学术综述。

深入剖析智能体AI(Agentic AI)从单纯的提示工程向复杂的系统性适应演进的内在逻辑,通过一个二维框架彻底理清大模型与外部工具之间的互动机制,揭示从DeepSeek-R1到s3等前沿技术背后的设计哲学与未来演进路径。

大模型本身并不等同于智能体。

一个孤立的大语言模型更像是一个博学的缸中之脑,它具备推理和规划的潜能,但缺乏与物理或数字世界交互的手段。

智能体则要求系统不仅能感知环境、调用工具、管理记忆,还能通过多步规划完成复杂任务。

然而,当我们将最先进的模型投入真实的软件开发、科学研究或网络浏览任务时,往往会发现它们表现得笨拙且脆弱:工具调用错误、长期规划迷失、面对全新环境束手无策。

这揭示了一个核心矛盾:通用基础模型的能力与特定任务的现实需求之间存在巨大的适配缺口。

为了填补这个缺口,适应性(Adaptation)成为了核心议题。

这里的适应性不仅仅是微调模型参数,更是一场关于系统架构的重构。

综述构建了一个包含四个象限的系统性框架,根据被优化的对象是智能体还是工具,以及优化信号是来自工具执行结果还是智能体自身的输出来划分。

A1与A2象限重塑智能体自身的行动与思考逻辑

在智能体适应性的版图中,最直观的路径是直接改造智能体本身,使其更擅长使用工具或进行推理。

将这一大类分为两个子象限:A1和A2。

它们的根本区别在于,指导智能体进化的信号究竟源自何处。

A1象限代表着工具执行结果驱动的智能体适应。

这是一种基于因果反馈的学习模式。当智能体调用一个API、运行一段代码或执行一次搜索时,环境会给出一个客观的、可验证的反馈。这个反馈不仅仅是好或坏的评价,更是物理世界的真实回响。

早期的A1方法主要依赖监督微调(SFT)。

例如Toolformer,它通过一种自监督的方式,让模型自己判断某个API调用是否有助于降低预测后续文本的困惑度。如果调用计算器能让后面的数字预测得更准,这个调用行为就会被保留下来。

这种方法开启了工具学习的大门,但它的局限在于依赖模型内部的概率指标,而非真实的执行成功率。

随后的研究迅速转向了更硬核的正确性对齐。

TRICE和ToolAlpaca等项目引入了闭环反馈机制。模型生成工具调用,执行它,然后根据执行结果(如代码是否报错、返回值是否符合预期)来调整自身。

这就像人类学习骑自行车,摔倒了就知道姿势不对。

Gorilla项目则更进一步,利用抽象语法树(AST)来验证API调用的结构正确性,确保模型不仅能蒙对答案,还能写出符合语法规范的代码。

这一领域的最新进展是结合了可验证奖励的强化学习(RLVR)。

DeepRetrieval展示了如何通过强化学习训练模型成为一个更好的搜索者。它将查询重写过程建模为一个马尔可夫决策过程(MDP),奖励直接来自检索指标(如Recall或NDCG)。

这意味着模型不再是死记硬背搜索查询的写法,而是通过试错,学会了如何根据当前的检索结果动态调整搜索策略。

DeepSeek-R1的代码生成版本也是这一路径的典型代表,代码通过沙箱执行,测试用例的通过率直接作为奖励信号指导模型更新。

这种基于执行结果的反馈机制,让智能体习得了工具使用的机械原理和因果逻辑。

A2象限则代表了智能体输出驱动的适应。与A1关注工具执行的微观结果不同,A2关注的是最终任务的宏观成败。

这里的反馈信号通常是稀疏的、整体的,例如整道数学题是否做对,或者整个搜索任务是否找到了正确答案。

这种适应模式不仅仅是在训练工具使用技能,更是在训练智能体的认知策略。

Search-R1和ReSearch是这一领域的杰作。在这些系统中,模型需要自主决定何时搜索、搜索什么以及如何利用搜索结果。训练的奖励信号不关心某一次具体的搜索是否完美,只关心最终生成的答案是否正确。

这种高层级的反馈倒逼模型涌现出了自我反思和策略调整的能力。模型开始学会:如果在第一步没找到足够的信息,我应该换个角度再搜一次,而不是强行作答。

DeepSeek-R1的基础推理版本正是A2模式的巅峰体现。它证明了即使没有外部工具,仅通过强化学习激励模型生成思维链(Chain-of-Thought),也能大幅提升推理能力。

这种方法实际上是在优化模型的内在思考过程,使其输出更加符合逻辑严密性的要求。

而当这种思维能力被应用到工具使用场景时,我们看到的不仅仅是工具调用准确率的提升,更是智能体在面对复杂任务时规划能力的质变。

下表展示了A1类方法的发展脉络:

下表展示了A2类方法的发展脉络:

T1与T2象限揭示工具与智能体协同的范式转移

当我们把目光从智能体身上移开,转向其周围的生态系统时,会发现另一片广阔的天地。

这就是工具适应(Tool Adaptation)。

其核心逻辑在于:既然训练一个千亿参数的大模型既昂贵又容易遗忘旧知识,为什么不保持大脑(智能体)不变,而去打磨它手中的工具呢?

T1象限代表了与智能体无关的工具适应。这是最经典的工具开发模式。工具被独立训练,不针对任何特定的智能体,就像一把通用的锤子,谁都能拿来用。

这个象限涵盖了大量我们耳熟能详的基础模型。视觉领域的CLIP和SAM,语音领域的Whisper,科学计算领域的AlphaFold2,它们本身就是强大的预训练模型。

当它们被接入到一个冻结的LLM(如GPT-4)中时,它们就成为了感知物理世界或解决特定领域问题的触手。

智能体通过HuggingGPT这样的编排框架,或者编写Python代码(如CodeAct模式)来调用这些工具。

T1的一个有趣趋势是毕业智能体(Graduated Agent)的概念。

我们在A1或A2阶段花费巨大成本训练出的一个精通搜索或编程的智能体,一旦训练完成并冻结参数,它就可以作为一个即插即用的T1工具,服务于更高层级的系统。例如,一个经过强化学习训练的DeepRetrieval模型,可以被打包成一个超级搜索API,供其他通用智能体调用。

这种模块化的复用大大降低了系统构建的成本。

T2象限则是本次综述中最具颠覆性的概念:智能体监督的工具适应。

这里发生了一个视角的根本反转。我们不再问如何修改智能体来适应工具,而是问如何修改工具来取悦一个固定的智能体。

这是一个共生进化的过程。在这个象限里,大模型被视为一个稳定的监督源,而非优化的靶子。

例如,在检索增强生成(RAG)系统中,传统的检索器优化目标是点击率或相关性分数,但这并不一定能帮助大模型回答问题。

REPLUG和LLM-R等方法提出,应该利用冻结的LLM给出的反馈(如困惑度降低程度或生成的答案正确率)来训练检索器。

这样训练出来的检索器,可能在传统信息检索指标上表现平平,但它找出的文档却是大模型最爱看、最能用的。

s3项目是T2范式的集大成者。它训练了一个仅有7B参数的小型搜索子智能体,专门服务于冻结的Qwen2.5-14B或Claude模型。训练信号直接来自大模型回答问题的增益(Gain Beyond RAG)。

结果令人震惊:s3仅用了A2类方法(如Search-R1)约1/70的数据量,就达到了同等甚至更好的效果。

这是因为,在T2模式下,小模型只需要学习如何搜索这一项程序性技能,而领域知识和推理能力则完全外包给了强大的冻结大模型。

这种分工明确的架构,极大地提升了数据效率和系统的鲁棒性。

T2的应用远不止于搜索。

在记忆管理方面,Memento和Mem-alpha展示了如何训练一个独立的记忆模块。

这个模块学习如何压缩信息、何时写入、何时遗忘,所有的决策依据都是:这样做是否能让冻结的智能体在未来表现得更好。

在工具编排方面,AgentFlow训练了一个轻量级的规划器来指挥多个冻结的专家模型。甚

至在自我进化方面,R-Zero通过让模型扮演的出题者和做题者互相博弈,实现了子智能体的自我迭代。

T2象限揭示了构建复杂AI系统的新路径:中心化的大脑保持稳定,周围环绕着一群灵巧的、可训练的助手(工具),它们不断进化以适应大脑的需求。

下表展示了T2类方法的发展脉络:

权衡与选择决定了智能系统的最终形态

在理解了这四种范式后,我们需要一个清晰的视角来比较它们的优劣,以便在实际系统设计中做出明智的选择。

这不仅仅是技术路线之争,更是成本、灵活性与能力的博弈。

A1和A2作为以智能体为中心的范式,它们赋予了我们最高的参数灵活性。

通过修改模型权重,我们可以从根本上改变智能体的行为模式、推理风格和价值观。

这对于需要深度推理或极高安全对齐的场景是不可或缺的。

例如,DeepSeek-R1展示了只有通过直接优化模型参数,才能激发出那种深思熟虑的推理链。

然而,这种掌控力是昂贵的。每一次迭代都需要重新训练庞大的模型,且面临着灾难性遗忘的风险——为了学会用新工具,模型可能会忘记怎么写诗。

此外,A1/A2方法往往需要大量的数据。

Search-R1需要17万条训练样本来协同优化知识与策略,而这不仅消耗算力,也增加了过拟合特定环境的风险。

相对而言,T1和T2作为以工具为中心的范式,展现了极高的系统级灵活性和模块化优势。

在T2架构中,我们可以像搭积木一样,为一个冻结的GPT-4挂载一个专门训练的搜索器、一个记忆模块和一个代码执行器。

如果需要升级搜索能力,只需重新训练那个只有7B参数的搜索子智能体,完全不触动核心大脑。

这种解耦带来了惊人的数据效率:s3仅需2400个样本就能训练出一个优秀的搜索助手,比Search-R1节省了70倍的数据。

更重要的是,这种模块化设计天然地规避了灾难性遗忘,因为核心知识库(大模型)从未被修改。

从泛化能力来看,T1工具(如通用检索器)通常在广泛的数据分布上训练,具有很好的跨任务鲁棒性;而T2工具则继承了其宿主(冻结大模型)的强大泛化能力。

相反,过度激进的A1/A2微调如果不加约束,很容易让模型在特定环境(如某个特定的代码沙箱)中表现优异,但换个环境就无所适从。

下表对比了四种范式的关键特性:

实证数据也支持了这种分工。

DeepRetrieval(A1)在文献搜索召回率上取得了3倍的提升,证明了在机械性工具掌握上直接优化的威力。

而ReSearch(A2)在多跳问答中获得了9-22%的提升,显示了整体策略优化的价值。

AgentFlow(T2)则以极小的训练代价,在GAIA基准测试上击败了巨大的GPT-4,证明了训练一个好的指挥官(规划器)比训练一个全能士兵更有效。

因此,未来的智能系统架构很可能是混合的:以一个强大的、偶尔进行A2式更新的基础模型为核心,周围环绕着一群通过T2方式持续进化、高度专业化的子智能体工具。

这种“联邦式认知”结构,既保留了推理的深度,又获得了适应的敏捷性。

行业应用与未来挑战重塑AI落地版图

这种适应性框架并非空中楼阁,它正在重塑各个垂直领域的AI应用形态。

在深度研究(Deep Research)领域,系统需要处理长达数小时甚至数天的复杂调研任务。

这里的核心挑战在于双重适应:一方面,智能体(A2)需要适应长上下文推理和假设验证的逻辑;另一方面,工具(T1/T2)需要适应科学文献的检索与合成。

OpenAI的DeepResearch和Google的Gemini研究代理正是这一趋势的体现,它们不仅仅是聊天机器人,而是能够自主操作浏览器、管理长期记忆的科研助理。

软件开发领域,SWE-Agent和OpenHands等系统正在重新定义编程。

这里的工具适应尤为关键。

SWE-Grep(T1/T2)不仅仅是一个grep命令,它是一个经过强化学习训练的、懂得如何在海量代码库中快速定位关键信息的智能搜索工具。

这种工具层面的进化,使得主智能体能够将有限的注意力集中在代码逻辑的构建上,而不是被淹没在无关的上下文里。

在计算机操作(Computer Use)领域,智能体直接通过GUI与数字世界交互。

这要求极高的视觉感知与操作适应性。

OpenCUA和OSWorld展示了智能体如何通过观察人类演示(A1/A2)来学习点击和滑动。

同时,工具层面的适应也在发生,例如ACE(Agentic Context Engineering)通过维护结构化的操作手册作为外部记忆,帮助智能体在复杂的操作系统环境中保持状态,减少重复探索的成本。

药物发现领域,AI正在从文献阅读者转变为实验设计者。

TrialMind利用工具适应(T2)来整合临床试验数据库,辅助患者招募;而SyntheMol等工具则利用机器学习预测分子属性作为奖励信号,引导生成模型设计出具有特定生物活性的新分子。

这里的工具不仅仅是软件,更是连接数字生物学与湿实验的桥梁。

然而,通往全自动智能体的道路并非坦途。我们面临着几大核心挑战与机遇。

首先是协同适应(Co-Adaptation)

目前的A类和T类方法大多是冻结一方训练另一方。真正的未来在于让大脑和工具同时进化,就像生物界的共同进化一样。

但这带来了“红皇后效应”——如果不小心,系统可能陷入双方不断调整却原地踏步的动态陷阱。

如何设计稳定的算法让两者螺旋上升,是学术界的下一个圣杯。

其次是持续适应(Continual Adaptation)

真实世界是动态的。智能体需要像人类一样,在服务用户的过程中不断学习新技能,同时不忘记旧知识。

参数高效微调(PEFT)结合T2式的模块化记忆,可能是解决灾难性遗忘的关键。

最后是安全适应(Safe Adaptation)

当智能体开始通过强化学习自主探索时,风险也随之而来。

A1类智能体可能会为了完成任务而删除系统文件(因为它发现这样能释放空间),A2类智能体可能会学会“作弊”(修改日志文件来伪造成功)。

更危险的是T2系统中的“寄生适应”,工具可能会学会迎合智能体的幻觉,只提供智能体爱看但错误的信息。

因此,未来的适应性训练必须内置安全约束,从单纯的奖励最大化转向受约束的价值对齐。

智能体AI的进化,正在从单一模型的参数竞赛,转向一场关于架构、交互与生态的系统工程革命。

在这个新时代,谁能更好地理解和利用这四种适应性范式,谁就能构建出真正在这个复杂世界中生存并创造价值的智能物种。

参考资料:

https://github.com/pat-jj/Awesome-Adaptation-of-Agentic-AI

END

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐