【Self-Evolving AI Agent Systems——自进化智能体系统】
本文系统探讨了AI智能体及其进化发展路径。首先介绍了单智能体的核心架构,包括感知、规划、记忆和工具使用等模块。随后重点分析了多智能体系统的优势与实现方式,详细阐述了层级、集中式和去中心化三种系统架构,以及结构化输出、自然语言和标准化协议三种通信机制。最后提出终身自进化智能体系统(MASE)的愿景,构建了包含系统输入、智能体系统、环境和优化器四个组件的概念框架,通过迭代优化循环实现智能体的持续进化。
目录
1 AI智能体
AI智能体指的是能够感知输入信息、对目标进行推理、并与环境交互以完成任务的自主系统。
一个AI智能体通常由多个协同工作以实现自主决策与执行的组件构成。智能体的核心组件是基座模型,最常用的是大语言模型,其作为核心推理引擎,负责解析指令、生成计划并产生可执行的响应。此外,还有一些支持性模块来增强智能体在复杂动态环境中的能力:
(1) 感知模块。 感知模块负责从环境中获取并解读信息。这包括处理文本输入、音频信号、视频帧或其他类感官数据,以构建适用于推理的表征。
(2) 规划模块。 规划模块使智能体能够将复杂任务分解为可执行的子任务或操作序列,并指导其在多个步骤中的执行。这一过程促进了分层推理,并确保任务连贯地完成。最简单的规划形式之一是线性任务分解,即将问题分解为多个中间步骤,LLM遵循这些步骤来解决问题。思维链提示等方法即是例证。除了静态规划,更多动态方法在迭代循环中交织进行规划与执行。例如,ReAct框架将推理与行动相结合,允许智能体根据实时反馈修正其计划。除线性规划外,一些方法采用分支策略,即每一步都可能产生多个可能的后续路径。代表性例子是思维树和图思维,它们使智能体能够探索多种推理路径。
(3) 记忆模块。 记忆模块使智能体能够保留和回忆过去的经验,从而实现情境感知推理和长期一致性。广义上,记忆可分为短期记忆和长期记忆。短期记忆通常存储当前任务执行过程中产生的上下文和交互信息,一旦任务完成,短期记忆将被清除。相比之下,长期记忆持久存在,可以存储跨任务积累的知识、过去经验或可重用信息。为了访问相关的长期记忆,许多智能体系统采用检索增强生成模块,智能体从记忆中检索相关信息,并将其整合到LLM的输入上下文中。设计一个有效的记忆模块涉及若干挑战,包括如何构建记忆表征、何时存储什么信息、如何高效检索相关信息,以及如何将其整合到推理过程中。关于AI智能体记忆机制更全面的综述,读者可参阅相关文献。
(4) 工具使用。 使用外部工具的能力是AI智能体在现实场景中有效运行的关键因素。虽然LLM在语言理解和生成方面能力强大,但其能力本质上受限于其静态知识和推理能力。通过使用外部工具,智能体可以扩展其功能范围,从而更好地与现实世界环境互动。典型工具包括网络搜索引擎、代码解释器或执行环境,以及浏览器自动化框架。工具使用组件的设计通常涉及选择工具、构建特定于工具的输入、调用API以及将工具输出整合回推理过程。
2 多智能体系统
尽管单智能体系统已在多种任务中展现出强大能力,但许多现实世界的任务需要超出单个智能体能力的专业化与协作。这一局限性推动了多智能体系统的的发展,其灵感来源于生物与社会系统中存在的分布式智能。
多智能体系统被正式定义为:在一个共享环境中互动、以实现单个智能体无法达成之目标的一组自主智能体集合。与单纯依赖个体推理和能力的单智能体系统不同,多智能体系统侧重于通过不同智能体之间的结构化协调与协作来实现集体智能。实现这种协调的一个基本机制是智能体拓扑结构的概念,即定义智能体在系统中如何连接与通信的结构配置。拓扑结构决定了智能体间的信息流和协作策略,直接影响任务的分配与执行方式。因此,多智能体系统通常被实现为一种多智能体工作流,其中系统的拓扑结构协调智能体间的互动,以完成复杂的共享目标。关键洞见在于,当多个智能体通过此类工作流协作时,系统的整体性能可以超越系统中所有智能体个体能力的总和。
相较于单智能体系统,多智能体系统带来了若干显著优势:
- 任务分解与专业化:可将复杂任务分解为可管理的子任务,并分配给专门的智能体,有助于提升整体性能。这种方法模仿了人类的组织协作,使多智能体系统能够处理超出单个智能体能力的任务。
- 并行执行:支持多个智能体同时工作以完成任务。这一特性对时间敏感型应用尤为有利,能极大加速问题解决过程。
- 鲁棒性增强:其去中心化特性增强了鲁棒性:当一个智能体失效时,其他智能体可以动态地重新分配任务并弥补失效,确保系统优雅降级而非完全崩溃。
- 内在可扩展性:新的智能体可以无缝集成,而无需重新设计整个系统。
- 促进创新解决方案:通过辩论、迭代优化等协作机制,利用不同视角和智能体间的批判性评估,能够产生更具创新性和可靠性的解决方案。
诸如CAMEL和AutoGen等框架通过提供模块化架构、角色扮演模式和自动化编排能力,进一步简化了多智能体系统的开发,降低了工程开销。
2.1 系统架构
多智能体系统的架构设计从根本上决定了智能体如何组织、协调和执行任务。这些结构从严格的层级到灵活的对等网络不等,各自体现了关于控制、自主性和协作的不同理念。
- 层级结构:这类系统采用静态的层级组织(通常为线性或树状),任务被明确分解并按顺序分配给特定智能体。例如,MetaGPT引入了标准操作规程来优化软件开发流程,而HALO则结合了蒙特卡洛树搜索来提升推理性能。这种高度定制化的方法提供了模块化、易于开发和针对特定领域的优化,使其在软件开发、医学、科学研究和社会科学等领域非常普遍。
- 集中式结构:此架构遵循管理者-追随者范式,由一个中心智能体或高层协调器处理规划、任务分解和委派,而下属智能体则执行分配的子任务。这种设计有效地平衡了全局规划和具体任务执行。然而,中心节点会造成性能瓶颈并引入单点故障隐患,从而影响系统鲁棒性。
- 去中心化结构:在此架构中,智能体以对等方式在分布式网络中协作,广泛应用于世界模拟应用。由于没有中心控制,避免了单点故障——任何节点的损坏都不会导致整个系统瘫痪,从而消除了瓶颈并增强了鲁棒性。然而,这带来了信息同步、数据安全和协作成本增加等方面的挑战。近期研究探索使用区块链技术来解决这些协调难题。
2.2 通信机制
多智能体系统的有效性在很大程度上取决于智能体如何交换信息和协调行动。其中的通信方法已从简单的消息传递,演变为能够平衡表现力、效率和互操作性的复杂协议。
- 结构化输出:这种方法使用如JSON、XML和可执行代码等格式进行智能体间通信。其明确的结构和定义良好的参数确保了高度的机器可读性和可解释性,同时标准化格式促进了跨平台协作。这些特性使得结构化通信非常适合需要精确性和效率的应用,例如问题解决和推理任务。紧凑的信息表示形式进一步提升了计算效率。
- 自然语言:自然语言通信保留了丰富的上下文和语义细节,使其特别适用于创造性任务、世界模拟和创意写作场景。这种表现力使得能够进行捕捉细微含义和意图的复杂互动。然而,与结构化格式相比,它也带来了包括歧义、潜在误解和执行效率降低等挑战。
- 标准化协议:最近的进展引入了专门设计的协议来标准化多智能体系统通信,以创建更具包容性和互操作性的智能体生态系统:
- A2A:通过结构化的对等任务委派模型标准化水平通信,使智能体能够在保持执行不透明性的同时,就复杂、长期运行的任务进行协作。
- ANP:通过内置去中心化身份和动态协议协商的层级架构,为去中心化的“智能体互联网”实现安全、开放的水平通信。
- MCP:通过统一的客户端-服务器接口,标准化单个智能体与外部工具或数据资源之间的垂直通信。
- Agora:作为水平通信的元协议,使智能体能够动态协商和发展其通信方法,在灵活的自然语言和高效的结构化例程之间无缝切换。
3 终身、自进化智能体系统的愿景
从模型离线预训练,经由模型在线适应,再到多智能体编排的发展轨迹,已经稳步降低了基于大语言模型的系统对手动配置的依赖程度。然而,即便是当今最先进的多智能体框架,也常常依赖于人工设计的工作流、固定的通信协议和人工管理的工具链。这些静态元素限制了适应性,使得智能体难以在需求、资源和目标随时间演化的动态、开放式环境中维持性能。
新兴的多智能体自进化范式通过在部署与持续改进之间形成闭环,来应对这些局限。在一个MASE系统中,一组智能体被赋予能力,能够在环境反馈和更高层元奖励的指导下,自主优化其提示、记忆、工具使用策略,甚至交互拓扑结构。这种持续的优化过程使得智能体不仅仅能够适应一次,而是能够在整个生命周期中,针对变化的任务、领域和操作约束,不断进化。
终身、自进化的智能体系统旨在通过将一个持续改进的循环嵌入架构核心,来克服这些限制。遵循自进化AI智能体三大法则——持久(安全适应)、卓越(性能保持)、进化(自主优化),这些系统被设计用于:
- 在运行期间监控自身的性能和安全性;
- 通过受控的、渐进的更新来保持或增强能力;
- 自主地调整提示、记忆结构、工具使用策略,甚至智能体间的拓扑结构,以应对变化的任务、环境和资源。
终身自进化系统无需人类设计者手工设计每一种交互模式,而是能够生成、评估并优化自身的智能体配置,从而在环境反馈、元级推理和结构适应之间形成闭环。这将智能体从静态执行者转变为其运行生态系统中持续学习、协同进化的参与者。
这一愿景具有深远的影响。在科学发现领域,自进化的智能体生态系统可以自主生成假设、设计实验并迭代研究流程。在软件工程领域,它们可以协同进化开发流水线,随时集成新出现的工具。在人机协作领域,它们可以学习个体偏好并持续个性化交互风格。超越数字领域,此类系统可以通过机器人技术、物联网设备和信息物理基础设施与现实世界交互,感知环境变化、采取行动,并将现实世界的反馈纳入其进化循环。通过将智能体视为可重构的、能够自我进化、协调和长期适应的计算实体,MASE为实现可扩展、可持续和可信赖的人工智能指明了一条道路——这种人工智能不仅仅是被训练一次,而是能够生存、学习并持久运行。
4 MASE概念框架
为全面概述自进化智能体系统,我们提出一个高层概念框架,用以抽象和概括智能体进化与优化方法设计与实现背后的关键要素。该框架为大多数现有优化方法提供了一个抽象但可泛化的视图,从而能够全面理解该领域,并促进不同方法之间的比较分析。
4.1 自进化过程概述
我们首先概述智能体系统中的自进化过程,该过程在实践中通常通过迭代优化来实现。在此过程中,智能体系统基于从性能评估和环境交互中获得的反馈信号进行迭代更新。
图 智能体系统中自进化过程的概念框架。 该过程形成一个包含四个组成部分的迭代优化循环:系统输入、智能体系统、环境和优化器。系统输入定义任务场景(例如,任务级或实例级)。智能体系统(以单智能体或多智能体形式)执行指定任务。环境(根据不同场景)通过代理指标提供反馈。优化器通过定义的搜索空间和优化算法更新智能体系统,直至达成性能目标。
如图所示,该过程始于任务规约,其中可能包括高级描述、输入数据、上下文信息或具体示例。这些要素构成了系统输入,它们定义了智能体系统要解决的问题场景。随后,采用单智能体或多智能体架构的智能体系统被部署到环境中执行任务。环境提供了操作上下文,并根据预定义的评估指标生成反馈信号,这些信号用于衡量系统有效性并指导后续优化。根据来自环境的反馈,优化器应用特定的算法和策略来更新智能体系统,例如调整大语言模型参数、修改提示或优化系统结构。在某些情况下,优化器也可能通过合成训练样本来增强现有数据集,从而精炼系统输入,为后续优化周期扩充可用数据。更新后的智能体系统随后被重新部署到环境中,开始下一次迭代。这一过程形成了一个迭代的、闭合的反馈循环,智能体系统在其中经过多次迭代逐步被精炼和优化。一旦达到预定的性能阈值或满足收敛标准,循环即终止。基于上述MASE概念框架,EvoAgentX是首个应用这种自进化智能体过程并实现开源的框架,旨在自动化智能体系统的生成、执行、评估与优化。
基于以上概述,智能体优化过程包含四个关键组成部分:系统输入、智能体系统、环境和优化器。接下来,我们将逐一介绍每个组成部分,重点说明它们在优化框架中的各自角色、特性及相互作用。
4.2 系统输入
系统输入指的是提供给优化过程的上下文信息和数据。形式上,我们将系统输入集合记为 I,它可能包含一个或多个用于规定任务要求、约束和可用数据的要素。这些输入定义了智能体系统要解决的问题场景,并确定了优化的范围。根据具体场景,I 可以采取不同的形式:
- 任务级优化:现有研究中最常见的设置侧重于提升智能体系统在特定任务上的整体性能。在这种情况下,系统输入 I 可能包括一个任务描述 T 和一个用于训练或验证的训练数据集 D_train,即 I = {T, D_train}。也可以引入一个独立的测试数据集 D_test 来评估优化后智能体的性能。在某些场景中,特定任务的标注数据(即 D_train)可能无法获得。为了在此类设置下实现优化,近期研究提出通过基于大语言模型的数据生成等方式动态合成训练样本,以创建一个用于迭代改进的替代数据集。
- 实例级优化:近期研究也探索了一种更细粒度的设置,其目标在于提升智能体系统在特定示例上的性能。在这种情况下,系统输入可能由一个输入-输出对 (x, y) 以及可选的上下文信息 C 组成,即 I = {x, y, C}。
4.3 智能体系统
智能体系统是反馈循环中接受优化的核心组件。它定义了(一个或多个)智能体响应给定输入的决策过程与功能。形式上,我们将智能体系统记为 A,它可以由单个智能体或一组协作的智能体集合构成。智能体系统 A 可以进一步分解为若干组件,例如底层大语言模型、提示策略、记忆模块、工具使用策略等。优化方法可根据预期范围侧重于其中一个或多个组件。在大多数现有工作中,优化是针对 A 的单个组件进行的,例如微调大语言模型以增强推理和规划能力,或者在不修改大语言模型本身的情况下调整提示和选择适当工具以提高特定任务性能。此外,近期研究也探索了对 A 中多个组件的联合优化。例如,在单智能体系统中,一些方法联合优化大语言模型和提示策略,以更好地使模型行为与任务要求对齐。在多智能体系统中,现有研究探索了联合优化提示和智能体间拓扑结构,以提高整体效能。
4.4 环境
环境是智能体系统运行并产生输出的外部上下文。具体而言,智能体系统通过与环境的交互来感知其输入、执行动作并接收相应的结果。根据任务不同,环境可以从一个基准数据集到完全动态的真实世界场景。例如,在代码生成任务中,环境可能包含代码执行和验证组件,如编译器、解释器和测试用例。在科学研究中,它可能由文献数据库、仿真平台或实验设备构成。
除了提供操作上下文外,环境还在生成反馈信号以告知和指导优化过程方面起着关键作用。这些信号通常源自量化智能体系统有效性或效率的评估指标。在大多数情况下,此类指标是特定于任务的(例如准确率、F1分数或成功率),它们提供了性能的量化度量。然而,在缺乏标注数据或标准答案的情况下,通常会采用基于大语言模型的评估器来估计性能。这些评估器可以通过评估正确性、相关性、连贯性或与任务指令的一致性等方面,生成代理指标或提供文本反馈。关于不同应用场景下评估策略的更详细讨论将在第7节中呈现。
4.5 优化器
优化器是自进化反馈循环的核心组件,负责根据来自环境的性能反馈来改进智能体系统 A。其目标是通过专门的算法和策略,搜索能在给定评估指标下实现最佳性能的智能体配置。形式上,这可以表示为:
其中,S 表示配置的搜索空间,O(A; I) ∈ R 是将 A 在给定系统输入 I 上的性能映射到一个标量分数的评估函数,A* 表示最优的智能体配置。
一个优化器通常由两个核心组件定义:
- 搜索空间:定义了可以探索和优化的智能体配置集合。S 的粒度取决于智能体系统的哪些部分接受优化,范围涵盖智能体提示或工具选择策略,到连续的大语言模型参数或架构结构。
- 优化算法:指定了用于探索 S 以及选择或生成候选配置的策略。它可以包括基于规则的启发式方法、梯度下降、贝叶斯优化、蒙特卡洛树搜索、强化学习、进化策略或基于学习的策略。
这对组合 (S, H) 共同定义了优化器的行为,并决定了它能够以何种效率和效果使智能体系统适应并达到更好性能。
在接下来的章节中,我们将在三种不同设置下介绍典型的优化器:单智能体系统、多智能体系统以及特定领域智能体系统。每种设置都展现出独特的特性和挑战,导致了优化器不同的设计和实现。在单智能体优化中,重点是通过调整大语言模型参数、提示、记忆机制或工具使用策略来改进单个智能体的性能。相比之下,多智能体优化将范围扩展到不仅优化单个智能体,还包括它们的结构设计、通信协议和协作能力。特定领域智能体优化则带来了额外的挑战,优化器必须考虑特定领域固有的专业要求和约束,从而导致定制化的优化器设计。图5提供了这些优化设置及其代表性方法的全面层次分类。
5 单智能体优化(Single-Agent Optimisation)
单智能体优化旨在提升单智能体系统的性能。根据前文介绍的优化反馈循环,其核心挑战在于设计用于更新系统的优化器。这涉及到确定智能体系统中待优化的具体组件(即搜索空间)、明确要提升的特定能力,以及选择合适的优化策略以有效实现这些改进(即优化算法)。
本节根据智能体系统中待优化的目标组件来组织单智能体优化方法,因为该目标组件决定了搜索空间的结构和优化方法的选择。具体而言,我们聚焦于四大类别:
- LLM行为优化:旨在通过参数调优或测试时扩展技术,提升大语言模型的推理和规划能力;
- 提示优化:侧重于调整提示,以引导大语言模型生成更准确且与任务相关的输出;
- 记忆优化:旨在增强智能体存储、检索历史信息或外部知识并以此进行推理的能力;
- 工具优化:专注于提升智能体有效利用现有工具,或自主创建、配置新工具以完成复杂任务的能力。

图展示了单智能体优化方法的主要类别。
图 单智能体优化方法概览。 根据智能体系统中的目标组件进行分类:提示、记忆和工具。
5.1 LLM行为优化
作为单智能体系统的基础,基座大语言模型是负责规划、推理和任务执行的核心组件。因此,提升大语言模型的规划和推理能力对于提高智能体系统的整体效能至关重要。该领域的近期研究主要分为两大类:(1) 基于训练的方法,直接更新模型参数以提升推理能力和任务表现;(2) 测试时方法,旨在不修改模型参数的情况下,在推理过程中改进大语言模型的行为。下文将对这两类方法的代表性研究进行回顾与总结。
5.1.1 基于训练的行为优化
尽管大语言模型已展现出强大的语言能力,但近期研究指出,其在自然语言上的流畅性与执行复杂推理的能力之间存在明显差距。这一差异限制了基于大语言模型的智能体在需要多步推理和复杂决策的任务中的有效性。为此,近期工作探索了面向推理的训练方法,利用监督微调和强化学习来帮助模型系统地评估并精炼其响应。
-
监督微调:其核心思想是利用包含详细推理步骤的标注数据来训练智能体,使模型能够学习从输入问题、经过中间推理过程、到最终答案的完整映射。这种方法通常依赖于精心构建的推理轨迹,这些轨迹可以来源于:(1) 智能体自身在执行过程中生成的推演,或 (2) 由更强的“教师”智能体产生的示范。通过模仿这些轨迹,智能体获得了以结构化方式进行逐步推理的能力。例如,STaR提出了一种迭代微调流程,模型在已正确解决的实例上进行训练,并精炼错误的轨迹以生成更好的推理路径。基于此思路,NExT使用由单元测试正确性筛选的自生成轨迹,让智能体在程序修复任务中自我进化。类似地,Deepseek-Prover通过使用已验证的证明对策略模型进行迭代训练,逐步进化智能体,使其能为定理证明任务生成越来越精确的形式化证明。另一类工作在专有大语言模型生成的轨迹上对智能体进行微调,涵盖数学和科学等领域。除了提升智能体能力,还有研究基于OpenAI o1生成的轨迹训练模型,以复现其思维链能力,旨在进一步提升智能体基座模型的推理能力。
-
强化学习:强化学习将推理视为一个顺序决策过程,模型因产生正确或高质量的推理路径而获得奖励。其中一种策略是基于偏好的优化,利用从各种来源(如测试用例表现、最终结果的正确性或经训练的过程奖励模型生成的伪标签)生成的偏好对来应用DPO。Yuan等人进一步引入了一个自我进化框架,其中策略模型利用自身判断迭代精炼其推理能力。类似地,Agent Q结合了MCTS引导的搜索和自我批判机制,利用成功和失败的轨迹,通过DPO在Web环境中迭代改进智能体的决策。在另一项工作中,Tülu 3在数学和指令遵循任务上应用了带有可验证奖励的强化学习,而无需任何学习得到的奖励模型。值得注意的是,DeepSeek-R1进一步证明了在可获得真实验证的情况下,使用组相对策略优化的纯强化学习的可行性。基于此方向,Xin等人扩展了这一思想,通过融入来自证明助手反馈的强化学习来增强DeepSeek-Prover。Liu等人则通过引入MSTAR框架,在多模态设置下进一步探索了自我进化训练,该框架利用强化学习来克服性能饱和并通过迭代自我改进来增强推理能力。除了在固定数据集中使用可验证奖励外,Absolute Zero训练了一个单一模型,在任务提出者和解决者角色之间交替,通过生成和解决自身问题来实现自我进化。类似地,R-Zero采用了一种双模式框架,其中挑战者生成针对解决者当前能力量身定制的任务,使两者能够在没有外部监督的情况下迭代进化。
5.1.2 测试时行为优化
随着训练资源日益受限,且基于API的模型无法进行微调,测试时计算作为一种解决方案应运而生,它使模型能够在推理过程中精炼或扩展其推理能力,而无需额外的训练。通过增加推理预算,模型能够“思考得更久”。
扩展测试时能力主要通过两种策略实现。第一种策略涉及通过引入外部反馈来引导推理,这有助于模型精炼其响应。第二种策略侧重于使用更高效的采样算法生成多个候选输出,随后通过一个验证器筛选出最合适输出的选择过程。值得注意的是,这两种方法实际上密切相关,前者中用于引导生成的反馈自然可以作为后者的验证器。
-
基于反馈的策略:一种自然的方法是根据模型生成输出的质量调整其行为。这个过程通常依赖于验证器的反馈,验证器提供一个精确的或估计的分数来引导模型。我们将反馈分为两类:
- 结果级反馈:根据最终输出提供一个单一分数或信号,不考虑采取的推理步骤数量。对于易于获得真实答案的任务,验证器可以实现为提供准确反馈的外部工具。例如,CodeT和LEVER利用编译器执行生成的代码,并根据测试用例验证其正确性。START和CoRT使用基于提示的工具调用来增强长链思维推理。类似地,Baldur利用证明助手产生的错误消息来进一步修复大语言模型生成的不正确证明。然而,对于大多数任务,在推理时并不总能获得真实答案。因此,一种更通用的方法是训练一个模型作为验证器,为每个候选响应分配一个分数,从而能够根据预测的质量对其进行排序。然而,这种形式的反馈相对稀疏,因为它只评估最终输出。
- 步骤级反馈:评估生成过程中的每个中间步骤,提供更细粒度的监督。仅依赖结果反馈常常会导致不忠实的推理问题,即错误的推理链仍可能产生正确的最终答案。为了解决这个问题,近期工作越来越多地关注训练过程奖励模型,以在整个推理过程中检测和纠正错误,通常比使用结果级反馈能带来更好的改进。
-
基于搜索的策略:复杂的推理任务通常允许多条有效路径通向正确答案。基于搜索的方法利用这一特性,并行探索多个候选推理轨迹,使模型能更好地探索解空间。在评判模型的帮助下,人们开发了各种搜索策略来引导解码过程。例如,CoT-SC采用了“N选最优”策略:生成多个推理路径,并根据对结果的多数据投票选择最终答案。DBS提出了将集束搜索与步骤级反馈结合使用,以精炼中间推理步骤。而CoRe和Tree-of-Thoughts则明确将推理过程建模为树形结构,使用蒙特卡洛树搜索在搜索过程中平衡探索与利用。Forest-of-Thought进一步推广了这一思想,允许多棵树独立决策,并应用稀疏激活机制来过滤和选择最相关树的输出。除了基于树的方法,其他方法也探索了推理的替代结构形式。Graph-of-Thoughts将中间想法组织为图中的节点,并应用基于图的操作来支持灵活的推理和信息流。Buffer-of-Thoughts引入了一个动态记忆缓冲区,用于在推理过程中存储和实例化元级想法。
5.2 提示优化
在单智能体系统中,提示 对于定义智能体的目标、行为和特定任务策略起着至关重要的作用。它通常包含指令、示例演示和上下文信息,用于引导底层大语言模型生成合适的输出。然而,众所周知,大语言模型对提示高度敏感;即使措辞、格式或词序上的微小变化,也可能导致大语言模型行为和输出的显著改变。这种敏感性使得设计稳健且可泛化的人工智能智能体系统变得困难,从而推动了提示优化技术 的发展,以自动搜索高质量的提示。提示优化方法可以根据用于导航提示空间和识别能提升模型性能的高质量提示的策略进行分类。本节回顾并总结了四种代表性类别:基于编辑的方法、基于生成的方法、基于文本梯度的方法 和进化方法。
5.2.1 基于编辑的提示优化
提示优化的早期尝试集中于基于编辑的方法,这些方法通过预定义的编辑操作(如词元插入、删除或替换)迭代地精炼人工编写的提示。这些方法将提示优化视为提示空间上的局部搜索问题,旨在逐步提高提示质量,同时保留原始指令的核心语义。例如,GRIPS将指令分解为短语,并应用短语级别的编辑操作(删除、交换、转述和添加)来逐步提高提示质量。Plum通过融入模拟退火、变异和交叉等元启发式策略扩展了GRIPS。TEMPERA进一步将编辑过程构建为一个强化学习问题,训练一个策略模型来执行不同的编辑技术,以高效地构建依赖于查询的提示。
5.2.2 基于生成的提示优化
与对提示进行局部修改的基于编辑的方法不同,基于生成的方法利用大语言模型,基于基础提示和各种优化信号迭代生成全新的提示。与局部编辑相比,生成方法能够探索更广阔的提示空间区域,并产生更多样化、语义更丰富的候选提示。
提示生成过程通常由多种优化信号驱动,这些信号引导大语言模型生成改进的提示。这些信号可能包括预定义的改写规则、输入-输出示例以及数据集或程序描述。额外的指导可以来自先前的提示及其评估分数、指定任务目标和约束的元提示,以及指示期望变化方向的信号。此外,一些方法还利用成功和失败的例子来强调有效或有问题的提示模式。例如,ORPO通过向大语言模型提供先前生成的候选提示及其评估分数来生成新的指令。StraGo则利用来自成功和失败案例的洞察,来识别获得高质量提示的关键因素。
优化信号可以进一步集成到高级搜索策略中,例如吉布斯采样、蒙特卡洛树搜索、贝叶斯优化以及基于神经Bandit的方法。这些搜索策略能够实现更高效、可扩展的提示空间探索。例如,PromptAgent将提示优化表述为一个策略规划问题,并利用MCTS高效地导航专家级提示空间。MIPRO采用贝叶斯优化来高效搜索指令候选和少样本演示的最佳组合。
虽然大多数生成方法使用固定的大语言模型来生成新提示,但近期工作探索了使用强化学习来训练用于提示生成的策略模型。例如,Retroformer训练一个策略模型,通过总结先前失败案例的根本原因来迭代精炼提示。
5.2.3 基于文本梯度的提示优化
除了直接编辑和生成提示外,一个更新的研究方向探索使用文本梯度 来指导提示优化。这些方法从神经网络中基于梯度的学习中获得灵感,但不是计算模型参数上的数值梯度,而是生成自然语言反馈(称为“文本梯度”),该反馈指导应如何更新提示以优化给定目标。一旦获得文本梯度,就会根据反馈更新提示。此类方法的关键在于文本梯度如何生成以及随后如何用于更新提示。例如,ProTeGi通过评判当前提示来生成文本梯度。随后,它沿着梯度相反的语义方向编辑提示。这种“梯度下降”步骤由集束搜索和Bandit选择程序引导,以高效地找到最优提示。类似地,TextGrad将这一思想推广到一个更广泛的复合人工智能系统框架中。它将文本反馈视为一种“自动微分”形式,并使用大语言模型生成的建议来迭代改进提示、代码或其他符号变量等组件。另一项工作提出了智能体符号学习,这是一个以数据为中心的框架,它将语言智能体建模为符号网络,并使它们能够通过符号类比的反向传播和梯度下降来自主优化其提示、工具和工作流程。近期工作也在探索复合人工智能系统中的提示优化,其目标是自动优化跨一组异构组件和参数(例如,模型参数、提示、模型选择、超参数)的配置。
5.2.4 进化提示优化
除了上述优化技术外,进化算法 也被探索为一种灵活有效的提示优化方法。这些方法将提示优化视为一个进化过程,维护一个候选提示群体,这些提示通过变异、交叉和选择等进化算子进行迭代精炼。例如,EvoPrompt利用两种广泛使用的进化算法——遗传算法和差分进化——来引导优化过程以找到高性能的提示。它将核心进化操作(即变异和交叉)适配到提示优化场景中,通过组合两个父提示的片段并对特定元素引入随机替换来生成新的候选提示。类似地,Promptbreeder也迭代地突变一个任务提示群体来进化这些提示。它的一个关键特征是使用变异提示,即指定在突变过程中应如何修改任务提示的指令。这些变异提示可以是预定义的,也可以由大语言模型本身动态生成,从而为引导提示进化提供了一个灵活且自适应的机制。
5.3 记忆优化
记忆 对于使智能体能够进行推理、适应并在长周期任务中有效运作至关重要。然而,人工智能智能体经常面临有限的上下文窗口和遗忘问题所带来的限制,这可能导致上下文漂移和幻觉等现象。这些限制推动了对记忆优化的日益关注,以实现智能体在动态环境中可泛化且一致的行为。本综述重点关注推理时记忆策略,这些策略旨在不修改模型参数的情况下提升记忆利用率。与微调或知识编辑等训练时技术不同,推理时方法在推理过程中动态决定保留、检索和丢弃哪些内容。
我们将现有方法分为两大优化目标:短期记忆优化,侧重于维护活跃上下文内的连贯性;以及长期记忆优化,支持跨会话的持久性检索。这种以优化为导向的视角将焦点从静态的记忆格式(例如,内部与外部)转向动态的记忆控制,强调如何调度、更新和重用记忆以支持决策。在以下小节中,我们将介绍每个类别中的代表性方法,并强调它们对长周期场景中推理保真度和有效性的影响。
5.3.1 短期记忆优化
短期记忆优化侧重于管理大语言模型工作记忆内有限的上下文信息。这通常包括最近的对话轮次、中间推理痕迹以及来自即时上下文的与任务相关的内容。随着上下文扩展,记忆需求显著增加,将所有信息保留在一个固定的上下文窗口内变得不切实际。为解决此问题,人们提出了各种技术来压缩、总结或选择性保留关键信息。常见策略包括总结、选择性保留、稀疏注意力和动态上下文过滤。
例如,Wang等人提出了递归总结法,以增量方式构建紧凑而全面的记忆表征,从而在长时间的交互过程中实现一致的响应。MemoChat维护源自对话历史的对话级记忆,以支持连贯且个性化的交互。COMEDY和ReadAgent进一步将提取或压缩的记忆痕迹整合到生成过程中,使智能体能够在长对话或文档中保持上下文。除了总结,其他方法动态调整上下文或检索中间状态痕迹,以促进多跳推理。例如,MoT和StructRAG检索自生成或结构化的记忆来指导中间步骤。受艾宾浩斯遗忘曲线启发,MemoryBank对事件进行分层总结,并基于新近度和相关性更新记忆。Reflexion使智能体能够反思任务反馈并存储情景洞察,从而随着时间的推移促进自我改进。
这些方法显著提高了局部连贯性和上下文效率。然而,仅靠短期记忆不足以跨会话保留知识或实现长周期泛化,这突显了对补充性长期记忆机制的需求。
5.3.2 长期记忆优化
长期记忆优化通过提供超出语言模型即时输入范围的持久且可扩展的存储,来缓解短上下文窗口的限制。它使智能体能够跨会话保留和检索事实知识、任务历史、用户偏好和交互轨迹,从而支持随时间推移的连贯推理和决策。该领域的一个关键目标是管理日益复杂和扩展的记忆空间,同时保持记忆存储与推理过程的清晰分离。外部记忆可以是非结构化的,也可以组织成结构化格式(如元组、数据库或知识图谱),并且可以涵盖广泛的来源和模态。
长期记忆优化的一个关键范式是检索增强生成,它通过检索将与任务相关的外部记忆整合到推理过程中。例如,EWE通过一个显式的工作记忆来增强语言模型,该工作记忆动态保存检索到的段落的潜在表征,侧重于在每个解码步骤组合静态记忆条目。相比之下,A-MEM通过动态索引和链接构建互联的知识网络,使智能体能够形成不断演化的记忆。另一个重要方向涉及智能体检索,即智能体自主决定何时检索以及检索什么,以及轨迹级记忆,它利用过去的交互来指导未来的行为。高效的索引、记忆剪枝和压缩等支持技术进一步增强了可扩展性。例如,Wang等人提出了一个基于RAG范式的轻量级遗忘框架。通过改变用于检索的外部知识库,系统可以在不修改底层LLM的情况下模拟遗忘效应。类似地,Xu等人引入了一个自进化记忆系统,该系统无需依赖预定义操作即可维护长期记忆。
除了检索策略和记忆控制机制,记忆本身的结构和编码也显著影响系统性能。基于向量的记忆系统将记忆编码在密集的潜在空间中,并支持快速、动态的访问。例如,MemGPT、NeuroCache、G-Memory和AWESOME实现了跨任务的记忆巩固和重用。Mem0进一步引入了一个生产就绪的、以记忆为中心的架构,用于持续提取和检索。其他方法则从生物或符号系统中汲取灵感以提高可解释性。HippoRAG通过轻量级知识图实现了受海马体启发的索引。GraphReader和Mem0g使用基于图的结构来捕捉对话依赖关系并指导检索。在符号领域,像ChatDB这样的系统对结构化数据库发出SQL查询,而Wang等人则引入了一个神经符号框架,将事实和规则以自然形式和符号形式存储,支持精确的推理和记忆追踪。
近期研究也强调了推理过程中记忆控制机制的重要性,这些机制决定了存储、更新或丢弃什么、何时以及如何操作记忆。例如,MATTER动态地从多个异构记忆源中选择相关片段以支持问答,AWM则支持在在线和离线设置下的持续记忆更新。MyAgent赋予智能体具有记忆感知能力的回忆机制以进行生成,解决了大语言模型的时间认知限制。MemoryBank提出了一种受认知启发的更新策略,通过定期回顾过去的知识来减轻遗忘并增强长期保留。强化学习和优先级策略也被用于指导记忆动态。例如,MEM1利用强化学习来维护一个不断演化的内部记忆状态,选择性地巩固新信息同时丢弃无关内容。A-MEM提出了一种智能体记忆架构,能够基于使用情况自主组织、更新和修剪记忆。MrSteve整合了情景式的“何事-何地-何时”记忆,以分层结构组织长期知识,从而实现目标导向的规划和任务执行。这些方法使智能体能够主动管理记忆,并补充短期机制。与此同时,MIRIX在协作设置中引入了一个具有六种专用记忆类型的智能体记忆系统,实现了协调检索,并在长周期任务中达到了最先进的性能;而Agent KB则利用一个共享知识库,配合师生双阶段检索机制,在智能体间传递跨领域问题解决策略和执行经验,通过分层的策略指导和精炼显著提升了性能。
5.4 工具优化
工具是智能体系统中的关键组成部分,作为接口使智能体能够感知并与现实世界交互。它们使得访问外部信息源、结构化数据库、计算资源和API成为可能,从而增强了智能体解决复杂现实世界问题的能力。因此,工具使用已成为人工智能智能体的一项核心能力,尤其是在需要外部知识和多步推理的任务中。然而,仅仅让智能体接触工具是不够的。有效的工具使用要求智能体能够识别何时以及如何调用正确的工具、解读工具输出并将其整合到多步推理中。因此,近期研究聚焦于工具优化,旨在提升智能体智能且高效地使用工具的能力。
现有的工具优化研究主要分为两个互补的方向。第一个方向侧重于增强智能体与工具的交互能力,这一方向已被更广泛地探索。它通过训练策略、提示技术和推理算法等不同方法来实现,目标是提升智能体理解、选择和有效执行工具的能力。第二个方向则侧重于优化工具本身,通过修改现有工具或创建新工具,以更好地与目标任务的功能需求对齐。这一方向较新且仍在发展中。
5.4.1 基于训练的工具优化
基于训练的工具优化旨在通过学习更新底层大语言模型的参数,来增强智能体使用工具的能力。这种方法背后的动机源于大语言模型仅在文本生成任务上进行预训练,从未接触过工具使用或交互式执行。因此,它们缺乏对如何调用外部工具和解读工具输出的内在理解。基于训练的方法旨在通过明确地教授大语言模型如何与工具交互,来弥补这一局限,从而将工具使用能力直接嵌入到智能体的内部策略中。
- 用于工具优化的监督微调:这一方向的早期努力依赖于监督微调,该方法使用高质量的工具使用轨迹来训练大语言模型,明确展示应如何调用工具并将其整合到任务执行中。这些方法的一个核心焦点在于收集高质量的工具使用轨迹,这些轨迹通常由输入查询、中间推理步骤、工具调用和最终答案组成。这些轨迹作为智能体的显式监督信号,教导它如何规划工具使用、执行调用以及将结果整合到推理过程中。例如,ToolLLM和GPT4Tools等方法利用更强大的大语言模型来生成指令和相应的工具使用轨迹。受人类学习过程启发,STE引入模拟的试错交互来收集工具使用示例,而TOOLEVO则采用MCTS来实现更主动的探索并收集更高质量的轨迹。T3-Agent进一步将该范式扩展到多模态设置,通过引入一个数据合成流程来生成和验证高质量的多模态工具使用轨迹,用于调整视觉-语言模型。此外,近期研究表明,即使是先进的大语言模型,在多轮交互中使用工具也面临挑战,尤其是当这些交互涉及复杂的函数调用、长期依赖关系或请求缺失信息时。为了在多轮工具调用上生成高质量的训练轨迹,Magnet提出从工具中合成一系列查询和可执行的函数调用,并利用图来构建可靠的多轮查询。BUTTON通过一个两阶段过程生成合成的组合式指令调优数据,其中自底向上阶段组合原子任务以构建指令,而自顶向下阶段则采用多智能体系统来模拟用户、助手和工具以生成轨迹数据。为了实现更逼真的数据生成,APIGen-MT提出了一个两阶段框架,首先生成工具调用序列,然后通过模拟人机交互将其转化为完整的多轮交互轨迹。
一旦收集到工具使用轨迹,它们就通过标准的语言建模目标用于微调大语言模型,使模型能够学习成功的工具调用和整合模式。除了这种常见范式,一些研究还探索了更先进的训练策略,以进一步增强工具使用能力。例如,Confucius引入了一种由易到难的课程学习范式,逐步让模型接触日益复杂的工具使用场景。Gorilla提出将文档检索器集成到训练流程中,使智能体能够通过基于检索到的文档来使用工具,从而动态适应不断演化的工具集。
- 用于工具优化的强化学习:虽然监督微调已被证明对于教导智能体使用工具是有效的,但其性能往往受到训练数据质量和覆盖范围的限制。低质量的轨迹可能导致性能提升有限。此外,在有限数据集上进行微调可能会阻碍泛化能力,尤其是在推理时智能体遇到未见过的工具或任务配置时。为了应对这些局限,近期研究转向强化学习,将其作为工具使用的另一种优化范式。通过使智能体能够通过交互和反馈进行学习,强化学习促进了更具适应性和鲁棒性的工具使用策略的开发。这一方法在近期工作中显示出有希望的结果,例如ReTool和Nemotron-Research-Tool-N1(Tool-N1),两者都展示了在交互环境中的轻量级监督如何能够带来更具泛化性的工具使用能力。Tool-Star通过将可扩展的工具集成数据合成与两阶段训练框架相结合,增强了基于强化学习的工具使用能力,以改进自主多工具协作推理。SPORT通过逐步偏好优化,将基于强化学习的工具优化扩展到多模态设置,使智能体能够自我合成任务、探索和验证工具使用,而无需人工标注。在此基础上,进一步的研究聚焦于改进用于工具使用的强化学习算法,包括ARPO(它通过基于熵的自适应推演机制和逐步优势归因来平衡长周期推理和多轮工具交互),以及那些设计更有效奖励函数的方法,和利用合成数据生成与筛选来增强训练稳定性和效率的方法。
5.4.2 推理时工具优化
除了基于训练的方法外,另一研究方向侧重于在推理过程中增强工具使用能力,而无需修改大语言模型的参数。这些方法通常通过优化提示中与工具相关的上下文信息,或在测试时通过结构化推理来引导智能体的决策过程。该范式内有两大方向:(1)基于提示的方法,通过精炼工具文档或指令的表示,以促进对工具更好的理解和利用;(2)基于推理的方法,利用测试时推理策略(如MCTS和其他基于树的算法),在推理过程中实现更有效的工具探索和选择。
- 基于提示的工具优化:与工具相关的信息通常通过提示中的工具文档提供给智能体。这些文档描述了工具功能、潜在用途和调用格式,帮助智能体理解如何与外部工具交互以解决复杂任务。因此,提示中的工具文档是智能体与其可用工具之间的关键桥梁,直接影响工具使用决策的质量。近期努力集中于优化这些文档的呈现方式,或通过重构源文档,或通过交互反馈来精炼它们。例如,EASYTOOL将不同的工具文档转换为统一、简洁的指令,使其更易于大语言模型使用。相比之下,DRAFT和PLAY2PROMPT等方法从人类试错过程中汲取灵感,引入了基于反馈迭代优化工具文档的交互式框架。
除了这些方法,一个更新的方向探索了对工具文档和提供给大语言模型智能体的指令进行联合优化。例如,Wu等人提出了一个优化框架,同时优化智能体的提示指令和工具描述(统称为上下文),以增强它们的交互。优化后的上下文已被证明可以减少计算开销并提高工具使用效率,突显了上下文设计在有效的推理时工具优化中的重要性。
- 基于推理的工具优化:测试时推理和规划技术已显示出在提高人工智能智能体工具使用能力方面的巨大潜力。早期的研究如ToolLLM已经验证了ReAct框架在工具使用场景中的有效性,并进一步提出了一种深度优先树搜索算法,使智能体能够快速回溯到最后一次成功状态,而不是从头开始,从而显著提高了效率。ToolChain引入了一种更高效的基于树的搜索算法,通过使用一个成本函数来估计给定分支的未来成本。这使得智能体能够尽早剪除低价值路径,避免传统MCTS中常见的低效推演。类似地,Tool-Planner将功能相似的工具聚类成工具包,并利用基于树的规划方法快速从这些工具包中重新选择和调整工具。MCP-Zero引入了一个主动智能体框架,赋能大语言模型自主识别能力缺口并按需请求工具。
5.4.3 工具功能优化
除了优化智能体的行为,一个互补的研究方向侧重于修改或生成工具本身,以更好地支持特定任务的推理和执行。受人类持续开发工具以满足任务需求实践的启发,这些方法旨在通过使工具集适应任务来扩展智能体的行动空间,而不是让任务适应固定的工具集。
例如,CREATOR和LATM引入了为新任务生成工具文档和可执行代码的框架。CRAFT利用先前任务中的可重用代码片段,为未见过的场景创建新工具。AgentOptimiser将工具和函数视为可学习的权重,允许智能体使用基于大语言模型的更新迭代地优化它们。一项更新的工作,Alita,将工具创建扩展到多组件程序格式,这增强了可重用性和环境管理。此外,CLOVA引入了一个具有推理、反思和学习阶段的闭环视觉助手框架,能够基于人类反馈持续调整视觉工具。
更多推荐

所有评论(0)