摘要

大语言模型作为多个相互交互和协作的 Agent,在解决复杂任务方面表现出色。这些 Agent 被编写以通过引入提示信息来声明其功能,并通过拓扑结构来协调 Agent 之间的交互。为 multi-agent 系统(MAS)设计提示信息和拓扑结构本身就非常复杂。为了实现整个设计过程的自动化,我们首先对设计空间进行深入分析,旨在理解构建高效 MAS 背后的因素。我们发现,提示信息和拓扑结构在实现更高效的MAS设计中起着至关重要的作用。基于这些见解,我们提出了多智能体系统搜索(MASS)框架,这是一个 MAS 优化框架,它通过交错优化阶段(从局部到全局,从提示信息到拓扑结构),高效地利用了复杂的 MAS 设计空间。该框架分为三个阶段:1)模块级(局部)提示信息优化;2)工作流拓扑结构优化;3)工作流级(全局)提示信息优化。每个阶段都以先前阶段迭代优化的提示信息/拓扑结构为条件。我们证明,基于质量优化的多 Agent 系统在性能上显著优于一系列现有替代方案。基于这些基于质量优化的系统,我们最终提出了构建高效多 Agent 系统的设计原则。

1.Introduction

在这里插入图片描述

大语言模型(LLM)展现了卓越的理解、推理和基于用户提示生成连贯响应的能力,彻底革新了众多应用领域。基于 LLM 的 Agent 能够自主处理跨多个领域的复杂任务,包括代码生成和调试、检索生成、数据分析和交互式决策,从而提升用户体验。这些 Agent 通常通过提示进行编程,以强化其与环境的交互,利用可用工具,并在多个轮次中逐步实现目标。除了单个 Agent 之外,LLM还可以构建在复杂的拓扑结构中,协调多个 Agent 朝着共同目标前进。这种多 Agent 系统(MAS)通常比单 Agent 系统性能更优,因为它能够引入更多样化的 Agent 视角或角色,例如 Agent 作为验证者或进行多 Agent 辩论。

然而,为新领域设计有效的多智能体系统(MAS)往往极具挑战性。首先,单个智能体可能存在对提示信息的敏感性,提示信息的简单修改就可能导致性能显著下降,但这种下降往往是意想不到的。在多智能体系统中,当敏感智能体级联时,提示信息敏感性带来的叠加效应可能会被放大。除了提示信息的设计之外,构建有效的拓扑结构可能还需要大量的基于试错法的手动实验。问题的复杂性还体现在整个组合搜索空间上,这不仅包括无界的提示信息设计空间,还包括将哪些智能体集成到拓扑结构中的设计决策。

尽管近期研究探索了智能体设计各个方面的自动化,但对于提升多智能体系统(MAS)性能的关键因素,我们仍缺乏深入的理解。例如,DSPy 可以自动化设计用于改进提示编程的示例。Li et al. (2024a) 提出通过增加多数投票机制中的智能体数量来优化 MAS。ADAS 通过基于 LLM 的元智能体对以代码形式表达的新拓扑结构进行编程。AFlow 使用蒙特卡洛树搜索在一组预定义的算子中寻找更优的拓扑结构。然而,包括提示和拓扑结构在内的多个设计空间之间的相互作用仍然不甚明了

本文首先对多智能体系统(MAS)中的常见设计空间进行深入分析,考察了优化提示、扩展智能体数量以及引入不同拓扑结构等各个方面的影响。分析表明,提示通常是影响 MAS 性能的关键设计要素,而影响 MAS 性能的关键拓扑结构仅占整个搜索空间的一小部分。基于这些发现,我们旨在将影响 MAS 性能的关键要素提炼到一个精简的搜索空间中,从而降低整体搜索过程的复杂度。我们提出了一种名为多智能体系统搜索(MASS)的新型多阶段优化框架,该框架能够在一个高效的搜索空间中自动优化 MAS。MASS 在一个可配置的拓扑空间中集成了一个即插即用的提示优化器和工作流优化器。它通过交错优化阶段(从局部到全局,从提示到拓扑结构),克服了 MAS 联合优化的复杂性,优化过程分为三个阶段:1)针对每个拓扑块的块级(局部)提示“预热”; 2) 在精简的拓扑空间集合中进行工作流拓扑优化;3) 在找到最佳拓扑后进行工作流级别的(全局)提示优化。

通过对已识别的关键组件进行优化,MASS 生成了性能卓越的多智能体系统 (MAS),其性能远超现有的人工设计的 MAS 基线和自动生成的替代方案,并在包括推理、多跳理解和代码生成在内的广泛任务中得到了验证。基于 MASS 找到的最强 MAS,我们进一步深入探讨了构建高效 MAS 的原理和指导原则。总而言之,我们的贡献可以总结如下:1) 我们深入分析了影响基于 LLM 的 MAS 性能的设计因素,强调了提示的重要性并识别了关键拓扑结构;2) 我们提出了 Mass,一种新型的多阶段优化器,它通过在关键搜索空间中交错优化提示和拓扑结构来实现 MAS 设计的自动化;3) Mass 在各种评估基准测试中均表现出显著的性能提升,为未来构建高效的多智能体系统提供了指导。

2.Designing Multi-Agent Systems

在本节中,我们首先提供了一种多智能体系统(MAS)的设计方法,然后分析提示和拓扑设计的影响。我们将智能体的结构排列(或等价为模块构建)称为智能体拓扑,并将工作流 W\mathcal WW 定义为构建 MAS 的不同拓扑之间的逻辑序列。因此,MAS 的设计可以大致分为两个层次:模块级设计和工作流级编排。在模块级,我们的目标是设计出能够最佳执行其预期角色的高效个体智能体,并优化提示的设计。另一方面,在工作流级,优化涉及确定要包含的智能体的类型和数量,以及如何以最有效的方式排列它们,这被称为拓扑优化。形式上,给定一个定义所有模块上有效配置 aaa 的搜索空间 A\mathcal AA(参见图 4),工作流拓扑优化可以表示为以下优化问题,其目标函数为 f(⋅,⋅)f(·,·)f(⋅,⋅),目标输入输出集为 (x,y)∼D(x, y) ∼ \mathcal D(x,y)D

W∗(a)=argmaxa∼AE(x,y)∼D[f(W(a(x),y))].(1)\mathcal W^*(a)=\mathop{argmax}\limits_{a\sim\mathcal A}\mathbb E_{(x,y)\sim\mathcal D}[f(\mathcal W(a(x), y))].\tag{1}W(a)=aAargmaxE(x,y)D[f(W(a(x),y))].(1)

在本节的其余部分,我们将对 MAS 设计的每个组成部分进行深入分析。

2.1 Block-level: Prompt Design for Agents

在这里插入图片描述

在模块层面,对下游性能影响最大的主要“可优化组件”是 promptpromptpromptpromptpromptprompt 定义了智能体的角色(例如,“You are an expert in reflecting on errors…”),提供了塑造其行为的额外指令(例如,“You should think step by step…”),并且可以选择性地包含少量示例(上下文示例)来指导智能体的响应。例如,最先进的提示信息优化器会同时搜索指令和少量示例,其中示例是基于验证指标,从模型自身在验证集上的正确预测中引导生成的。在示例的基础上,提示信息优化器会提出一些指令候选方案,并提供数据集摘要或各种提示以提高候选方案的多样性。然后,指令和示例会被联合优化。

尽管众所周知,LLM 对提示非常敏感,但将自动提示优化 (APO) 技术应用于 MAS 却并非易事。与单轮任务不同,在单轮任务中,APO 可以轻松地将提示视为可优化变量,并将验证集上的性能作为目标。在 MAS 中,由于智能体之间的相互依赖性(例如,一个智能体的输出可能是另一个智能体的输入,形成级联,且中间输出的真实响应不可用),以及随着智能体数量 nnn 的增加,组合优化的复杂度呈指数级增长,APO 变得更加复杂。此外,随着 nnn 的增加,奖赏信号也变得更加稀疏,这使得我们无法在可控的预算内直接在 MAS 上实现 APO;因此,许多先前的 MAS 研究仍然主要使用手工设计的提示,而不是将 APO 组件纳入 MAS 设计中。

为了系统地理解提示设计在多智能体系统(MAS)中的影响,我们具体且定量地分析了提示优化的效果,并将其有效性与 MAS 文献中常见的其他操作(例如使用默认提示扩展智能体数量)进行了比较。我们使用 MIPRO 对一个链式思维智能体进行了APO,同时采用了指令优化和单次示例优化,并将总推理 token 成本与自洽推理、自改进和多智能体辩论进行了公平的比较,具体细节见附录§B。如图 2 所示,提示(为智能体提供更多信息丰富的指令和示例)在 token 有效性方面展现出比其他构建模块显著的优势。此外,通过在提示优化后的智能体上应用自洽推理,我们观察到 token 成本扩展的同时,性能也得到了提升,而扩展智能体数量的标准方法(例如 SC 或 Reflect)则更早达到饱和。这一经验观察揭示了提示的重要性,同时为设计有效的 MAS 提供了早期证据——在扩​​展其拓扑结构之前,先在局部优化 Agent

2.2 Workflow-level Search Space Design

在这里插入图片描述

在工作流层面,主要关注点在于如何协调智能体以高效地实现最佳性能。拓扑优化作为多智能体系统(MAS)特有的一个相对较新的概念,近年来备受关注。然而,尽管现有的大部分研究都侧重于搜索方法——例如发现识别最优配置的最有效途径——但对搜索空间的设计却关注较少,而搜索空间的设计决定了任何搜索算法的边界和范围。这种不平衡与神经架构搜索(NAS)的历史发展有相似之处。最初,该领域专注于复杂的搜索方法,例如贝叶斯优化和可微分搜索。后续研究强调了搜索空间设计的重要性,认为它同样重要,甚至更为关键。受此启发,我们假设手动设计的拓扑结构可能并非最优,而自动拓扑优化(可以将其视为一个严格的优化问题)可以通过巧妙地设计 MAS 的搜索空间发挥类似的关键作用。为了实现这一目标,我们首先定义了一个类似于先前工作的结果空间,该结果空间由以下构建模块之间的连接构成:

  • Aggregate:多个智能体可以并行协作,做出多样化的预测,然后通过聚合算子获得最一致的预测结果。聚合模块可以由 NaN_aNa 个并行运行的智能体进行参数化。多数投票和自洽推理是该拓扑结构的核心。
  • Reflect:Agent 可以充当验证者,根据之前的预测提供批评意见和改进建议。然后,这些反馈会被输入到预测器或反思器本身,以进行迭代改进。类似地,反思可以通过参数 NrN_rNr 进行参数化,该参数定义了自我反思的轮数。自我改进和反思模块就体现了这一功能。
  • Debate:基于辩论的 Agent 预测比单 Agent 预测更能得出真实的预测结果,其中,每个参与辩论的 Agent 都会收集其他所有 Agent 的意见,并提供更新后的答案。这种拓扑结构涉及多种主体,而 NdN_dNd 则定义了辩论的轮数。
  • Custom Agents:前三种形式的智能体代表了绝大多数由多个并行、串行或混合智能体构成的智能体拓扑结构,但更灵活的智能体定义也可以引入到多智能体系统(MAS)的设计空间中。例如,对于特定任务的应用场景,我们引入了一种名为 summarizesummarizesummarize 的智能体,以增强可定制设计空间中的长上下文处理能力。
  • Tool-use:构建高效的多智能体系统(MAS)的关键在于使智能体能够利用工具访问外部信息,这对于系统性能至关重要,例如使用检索器进行 RAG 识别,以及使用执行器在编码中使用测试用例。我们将工具使用引入为一个可优化的二元“插入”决策 NT∈{0,1}N_T ∈ \{0, 1\}NT{0,1}

为了解不同拓扑结构的影响,我们在图 3 中展示了各种拓扑结构的性能。值得注意的是,并非所有拓扑结构都有利于多智能体系统(MAS)的设计,而受到积极影响的拓扑结构仅占所有拓扑结构的一小部分。例如,在 HotpotQA 任务中,只有辩论拓扑结构带来了 3% 的性能提升,而其他拓扑结构则未能提升甚至降低了系统性能。我们在 LiveCodeBench 的测试-输出-预测子任务中也观察到了类似的趋势。这凸显了在有影响力的搜索空间集合中进行搜索的重要性,而包含递减的构建模块不仅可能导致更高的搜索复杂度,还可能降低性能。

3.MASS: Multi-Agent System Search

在这里插入图片描述

我们在第 2 节的分析强调了为各个智能体精心设计的提示以及对搜索空间的仔细定义对于实现高效多智能体系统 (MAS) 性能的重要性。基于此,我们提出了一种多阶段优化算法——多智能体系统搜索 (MASS),它超越了以往仅关注优化工作流拓扑而忽略提示设计的现有技术。相反,我们的方法展示了通过适当优化的提示和精心设计的搜索空间来提高 MAS 设计的有效性。MASS 框架在算法 1 和图 4 中进行了说明,遵循从局部到全局、从模块级到工作流级的思路,通过下文详述的高效分阶段优化来克服组合优化的复杂性。

1) Block-level prompt optimization。在构建智能体之前,我们首先确保各个智能体在模块级别上得到充分优化,如第 2.1 节和图 2 所示——这一步骤确保每个智能体都能以最有效的指令和最可控的计算预算为其角色做好准备。为了进一步克服在大型多智能体系统 (MAS) 空间上进行联合优化的复杂性,我们首先使用单智能体 APO 对初始预测器进行预热,即 a0∗←OD(a0)a^*_0 ← \mathcal O_{\mathcal D}(a_0)a0OD(a0),其中指令和示例均使用模块化提示优化器 O\mathcal OO 进行联合优化。随后,在预热后的预测器的基础上,我们继续使用最少数量的智能体优化每个拓扑结构,即 𝑎𝑖∗←OD(ai∣a0∗)𝑎^*_𝑖 ←\mathcal O_{\mathcal D} (a_i|a^*_0)aiOD(aia0),其中 2 个预测器与 1 个辩论者组成最小构建模块,作为辩论拓扑结构,从而降低优化的复杂性。此拓扑结构之后可以扩展到更多预测器和辩论者,但所有预测器和辩论者都配备了优化的提示。为了衡量每个构建模块的影响,我们在优化完成后存储验证性能。值得注意的是,尽管阶段 (1) 是每个构建模块的预热阶段,但它仍然是一个关键阶段,能够确保后续的拓扑优化在有效空间内进行搜索,从而构建出性能良好的智能体,而不是受到任何结构不良的智能体以及人工提示的叠加影响。

2) Workflow topology optimization。在此阶段,我们专注于优化多智能体系统(MAS)的整体结构,确定智能体之间最有效的排列和连接方式。图 3 的分析表明,有益的拓扑结构仅占完整设计空间的一小部分。因此,我们的目标是将性能优异的拓扑结构的精髓蒸馏到一个精简的空间中,从而提高工作流层面的拓扑搜索效率。在此,我们提出衡量增量影响 Iai=E(ai∗)/E(a0∗)I_{a_i} = \mathcal E (a^*_i)/\mathcal E(a^*_0)Iai=E(ai)/E(a0),该指标量化了拓扑结构 aia_iai 相对于初始智能体 a0a_0a0 的相对增益。基于影响维度具有更高选择概率的直觉,我们激活相应的拓扑维度 aaa,前提是 u>pau > p_au>pa,其中 u∼U(0,1)u ∼ \mathcal U(0, 1)uU(0,1)pa=Softmax(Ia,t)p_a = Softmax(I_a, t)pa=Softmax(Ia,t),其中 ttt为 temperature。为了将不同的拓扑结构组合到一个统一的空间中,我们使用基于规则的顺序约束工作流程,以降低优化复杂度,遵循预定义的顺序,即 [summarize,reflect,debate,aggregate][summarize, reflect, debate, aggregate][summarize,reflect,debate,aggregate]。我们在预定义的设计空间上集成了拒绝采样,拒绝任何被禁用的维度或超过 Agent 数量最大预算 BBB 的无效拓扑组合。有关每个任务的详细搜索空间,请参阅附录 §B。

3) Workflow-level prompt optimization。最后,我们将整个多智能体系统(MAS)设计视为一个整体,并基于阶段(2)中发现的最佳拓扑结构 W∗=OD(Wc∗)\mathcal W^* = \mathcal O_{\mathcal D} (\mathcal W^*_c)W=OD(Wc) 进行额外一轮的提示优化。值得注意的是,尽管提示在阶段(1)中已针对个体层面进行了优化,但此阶段的作用在于进行调整或微调,确保提示能够适应 MAS 内部的协调运作,并适当优化智能体之间的相互依赖性。我们的实验(图 5 和图 6)表明,此阶段通常能够带来实际效益。

在这里插入图片描述

4.Related Work

Forms of LLM-based agentic system。基于 LLM 的智能体系统最简单的形式是由单个智能体构成,该智能体能够动态地与环境交互并作出响应。近期的研究进展为智能体赋予了多样化的角色与工具,并通过编排多个智能体实现协同合作。 智能体协作的标准形式(即拓扑结构)通常包含并行与串行的信息流。并行形式通常通过让多个智能体并行工作来提升探索多样性,其中自一致性(self-consistency, SC)是一种具有代表性的并行扩展方式。串行形式则旨在通过一条智能体链来推进任务的利用(exploitation),在该过程中,LLM 可以作为反思型智能体,对先前的预测进行自我论证与改进。随后,可以通过聚合智能体对多个智能体的意见进行总结,从而获得最一致的答案。 此外,多智能体辩论(multi-agent debate)涉及更加复杂的信息流,而近期研究表明,辩论机制能够引导出更加真实可靠的预测。最近提出的智能体拓扑进一步超越了上述连接方式,并且 MAS 可以在上述空间中自动搜索最优的拓扑结构。

Automatic optimization for MAS。近期研究开始通过将智能体功能解释为可学习的策略来实现智能体设计的自动化,并通过合成轨迹用于智能体微调。相较于单一智能体,自动化的多智能体优化面临更高层级的复杂性,因此需要更加精细的搜索空间设计与算法支持。 在近期多智能体优化的诸多进展中,优化空间已经扩展到提示(prompts)、工具(tools)、工作流(workflows)以及思维策略(thinking strategies)。与我们的拓扑搜索空间更为相关的是,DyLAN 通过动态激活智能体组合来进行优化,而 Archon 则将 MAS 建模为一个超参数优化问题。然而,这些工作均未将重要的提示空间纳入考虑,而我们在第 2.2 节中展示了提示优化的重要性。此外,GPTSwarm 使用策略梯度算法来优化智能体节点之间的连接关系。当前最先进的自动化智能体设计方法,如 ADAS 和 AFlow,也尝试利用先进的搜索算法以及 LLM 作为优化器来优化智能体工作流。然而,我们观察到,在这些已有工作中,恰当的提示设计的重要性仍然相对缺乏深入研究。

5.Experiments

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐