【收藏必看】大模型智能体进阶：四大核心能力详解，让AI从“纸上谈兵“到真正互动

文章介绍了大模型智能体的四大核心能力：感知、规划、记忆和工具使用，这些能力使模型突破传统大语言模型只会"纸上谈兵"的局限。重点详细阐述了工具学习（如ToolLLaMA和TL-Training方法）、推理规划（思维链提示和由少至多提示）以及AgentTuning等提升大模型能力的方法。研究表明，更智能的训练方法比单纯扩大模型规模更能有效提升大模型与外部世界互动的能力。

和老莫一起学AI

487人浏览 · 2025-09-30 10:29:54

和老莫一起学AI · 2025-09-30 10:29:54 发布

大模型智能体想要真正“聪明”起来，离不开四大核心能力：感知、规划、记忆和工具使用。有了它们，模型才能突破传统大语言模型只会“纸上谈兵”的局限，真正学会和外部世界互动。

不过，最早的大语言模型并没有这些“外挂”。它们只是靠着海量文本训练出来的“语言高手”，擅长写作、对话和理解文字，但一旦遇到需要调用外部工具、分步骤解决复杂问题，或者记住用户长期对话内容时，就显得力不从心。

为了弥补这些短板，研究人员开始探索各种方法：怎样让模型学会熟练地使用工具？怎样让它能像人类一样进行推理和规划？又怎样给它装上“记忆”，记住更长的对话历史？这些正是大模型智能体走向更强大、更实用的关键方向。

1 工具学习

大语言模型虽然能聊天、写文章，但要真正帮我们解决问题，光靠说是不够的，还得学会用工具。比如你问它：请告诉我上海今天的天气。如果它具备工具使用能力，就不会凭空编答案，而是会调用一个天气查询API，返回最新的天气情况。

研究人员把这种能力称为 工具学习（Tool Learning）。核心目标是让模型不仅会说话，还会动手去操作外部工具，从而满足各种现实需求。

工具学习是怎么训练出来的？

以 ToolLLaMA 为例，研究者们设计了一个三步走的流程来教模型：

收集工具（API）
研究人员从 RapidAPI 这样的平台上抓取了大量真实世界的工具和接口说明，比如输入参数、调用方法和示例返回值。经过筛选，最后留下了 3451 个高质量工具，覆盖 49 大类和 500 多个细分领域。
生成指令
光有工具还不够，还要让模型知道用户可能会如何提问。于是研究人员用 ChatGPT 自动生成了各种与工具相关的任务指令，比如单一工具调用、多工具组合调用等，最后得到了近 20 万条“问题—工具”配对数据。
标注解决路径
每条任务指令对应的“调用步骤”也要明确。研究人员用 ChatGPT 的函数调用功能来生成这些路径，并引入一种类似深度优先搜索的方法，让模型能够探索多种可能的调用方式。最终得到了 12.6 万条高质量的指令-解决路径数据。

工具学习中的挑战

虽然看起来很完善，但现实中仍有不少问题：

数据错误：很多训练数据集都是用 GPT-4 自动生成的，但其中约有 17% 的调用轨迹是错误的，比如调用了不存在的工具、参数写错了等。这些错误会误导模型，降低性能。
关键词元问题：研究发现，模型在工具调用时，一旦第一个关键词（比如工具名的开头）预测错误，后面就很容易一路错下去；但如果人工纠正第一个词，后续往往就能正确生成。
性能瓶颈：即使用大规模数据集训练，像 ToolLLaMA-2-7B 的效果也只达到 GPT-4 的 80% 左右。

新方法：TL-Training

为了解决这些问题，研究人员提出了一种叫 TL-Training 的改进训练方法，它包含三大策略：

过滤错误数据
自动识别并屏蔽错误的调用轨迹，避免它们对模型产生负面影响。
重点学习关键词
对工具名称和关键参数等“关键词元”赋予更高的权重，让模型在预测时更重视这些词。
强化学习优化
引入奖励机制，不同类型的错误给出不同的扣分，例如：

调用了不存在的工具：-2
工具名称对了但参数写错：-0.5 ~ -1.5
正确调用：+1
然后用强化学习（PPO 算法）不断调整模型，使它越来越“靠谱”。

实验结果显示，只用 1217 条训练数据，TL-Training 就能让 CodeLLaMA-2-7B 的工具使用能力接近 GPT-4o。这说明，靠更聪明的训练方法，而不是一味依赖大规模数据，也能让模型更好地学会用工具。

2 推理规划

对一个智能体来说，光能聊天还不够，它必须具备推理和规划能力。只有这样，AI 才能理解环境和任务，制定合理的行动步骤，并一步步执行，最终达成目标。

不过，研究发现：单纯把模型做大，并不能显著提升它的推理能力。比如在常识推理、逻辑推理、数学题解答上，大模型还是容易犯错。那该怎么办呢？

研究人员借鉴人类的解题习惯，提出了两种特别有效的方法：思维链提示（Chain-of-Thought, CoT） 和 由少至多提示（Least-to-Most Prompting）。

1）思维链提示

方法一：思维链提示，一步一步想

人类在解题时，通常会把解题过程写下来：先分析条件，再列式子，最后得出答案。相比之下，大模型以前的做法往往是，直接蹦出答案，没有任何中间推理步骤。结果往往准确率不高，还缺乏解释性。

为了解决这个问题，Google Brain 的研究人员提出了 思维链提示（CoT）：

在给模型问题时，不只提供最终答案，还提供“中间的解题思路”；
引导模型先输出推理步骤，再得出结果。

这样，模型就像学生一样，边思考边写草稿，最后得到更靠谱的答案。

更有意思的是，后来研究人员发现，只需要在问题前面加上一句 “让我们一步一步思考”，哪怕没有示例，模型也会自动生成中间步骤。这就是所谓的 零样本思维链（Zero-shot CoT）。

在这里插入图片描述

方法二：由少至多提示，化整为零

面对一个复杂的问题，人类常常会先拆解：把大问题分成小问题，逐个解决，最后拼出答案。大模型同样可以这样做。

这种方法被称为 由少至多提示（Least-to-Most Prompting）：

先让模型把复杂任务拆成多个简单子任务；
然后逐一求解；
最后合并结果，完成整体推理。

通过这种方式，模型在处理复杂任务时的成功率大大提高。

自动化的思维链构建

虽然思维链方法很有效，但最初的研究大多依赖人工写的推理过程。问题在于，不同人写的示例质量差异很大，准确率差别甚至能达到 28%！

后来，研究人员发现：

示例的多样性 比单纯的相似度更重要；
也就是说，要让模型学得好，给它看的推理示例不能千篇一律，而要覆盖不同风格和角度。

基于这一发现，上海交通大学和 AWS 的研究团队提出了 Auto-CoT 方法：通过自动收集多样化的问题，并为它们生成推理链，来构建更有效的训练示例。

Auto-CoT 包括以下两个主要阶段：

（1）问题聚类：将给定数据集中的问题划分为几个簇（Cluster）

（2）范例采样：从每个簇中选择一个代表性问题，并基于简单的启发式方法使用 Zero-shot CoT生成问题的推理链。

在这里插入图片描述

在链式思维的研究中，Auto-CoT 算法提供了一种自动化生成推理示例的方法。它的核心思路是：通过聚类来保证示例的多样性，从而避免因为样本过于相似而带来的推理偏差。

具体来说，Auto-CoT 会先利用 Sentence-BERT 把问题集合转化为向量表示，然后使用 K-means 聚类将问题分成若干簇。在每个簇中，问题会根据与簇中心的距离排序，越接近中心的问题越优先被选为候选。

在生成推理链时，Auto-CoT 会对每个候选问题构造提示，让模型按照“让我们一步一步思考”的方式作答，并得到解释和答案。如果生成的推理步骤不超过 5 步、问题本身长度不超过 60 个词元，那么该示例就会被保留下来，作为该簇的代表性范例。这样得到的推理链示例既简洁，又具有代表性。

在此基础上，研究者还提出了几种改进方法：

Complex-CoT：优先选择那些推理过程最复杂的问题作为示例，帮助模型更好地处理复杂任务。
Self-Polish：从问题本身入手，把原本复杂、模糊甚至质量较低的问题改写成更清晰、更高质量的形式，从而提升模型理解和生成推理链的能力。

总体而言，这些方法的共同目标都是提升 CoT 的有效性：既要保证示例的多样性，又要提升示例的质量。

2）由少至多提示

在面对复杂问题时，人类通常会把大问题拆解成若干个小问题，然后逐一解决，最后再把答案拼接起来得到完整的结果。这种思维方式被称为 任务分解（Task Decomposition）。

研究人员受到这一启发，提出了一种叫做 由少至多提示 的方法。它的核心思想是利用大语言模型的规划能力，把一个复杂问题拆分成一系列更容易处理的子问题，并一步步解决它们。

整个流程大致分为两个阶段：

问题分解阶段：模型先学习如何把原始问题拆分成子问题，并形成一个子问题列表。
逐步解决阶段：模型会按照子问题的顺序逐一作答，每解决一个子问题，就把结果作为“中间答案”保存下来，帮助它继续解下一个问题，直到得出最终答案。

这种方式就像解谜游戏：先把大谜题分解成小块，再逐一拼接，最终得到完整的图景。

3. AgentTuning

为了让大语言模型在更多场景下具备动手能力，研究人员提出了一种叫做 AgentTuning 的方法。它的目标是让模型在保持通用推理能力的同时，更好地完成各种智能体任务，比如操作系统指令、网页交互、数据库查询等。

AgentTuning 的核心有两部分：

一个轻量级的数据集： AgentInstruct
它收集了 1,866 条高质量的交互数据，这些数据不仅有“答案”，还包含模型的完整推理过程（Chain-of-Thought），覆盖了六类任务：虚拟环境操作（AlfWorld）、网络购物（WebShop）、网页浏览（Mind2Web）、知识图谱、操作系统和数据库。
一种混合调优策略
通过结合不同类型的指令调优方式，提升模型的泛化性。

数据构建方式很有意思：