摘要

基于大型语言模型(LLM)的多智能体系统在自动化现实世界任务方面显示出巨大潜力,但由于其领域特定性,难以跨领域迁移。当前的方法存在两个关键缺陷:在应用于新领域时,需要完全重新设计架构并对所有组件进行全面重新训练

我们推出了 WORKFORCE,这是一个分层的多智能体框架,通过模块化架构将战略规划与专业执行解耦。该架构包括:

(i) 一个用于任务分解领域无关 规划器(Planner)

(ii) 一个用于子任务管理协调器(Coordinator)

(iii) 具备领域特定工具调用能力的专业工作器(Workers)

这种解耦在推理和训练阶段都实现了跨领域的可迁移性:在推理过程中,WORKFORCE 通过添加或修改工作器智能体来无缝适应新领域;在训练方面,我们引入了 优化的 WORKFORCE 学习(OWL),通过使用来自现实世界反馈的强化学习来优化领域无关的规划器,从而提高跨领域的泛化能力。

为了验证我们的方法,我们在 GAIA 基准上对 WORKFORCE 进行了评估,该基准涵盖了各种现实的多领域智能体任务。实验结果表明,WORKFORCE 实现了开源领域最先进的性能(69.70%),比 OpenAI 的 Deep Research 等商业系统高出 2.34%。更值得注意的是,我们经过 OWL 训练的 32B 模型实现了 52.73% 的准确率(+16.37%),并在挑战性任务上表现出与 GPT-4o 相当的性能。

总而言之,通过实现可扩展的泛化和模块化的领域迁移,我们的工作为下一代通用人工智能助手奠定了基础。

1 引言

大型语言模型(LLM)经历了一个快速发展的时期,从简单的文本预测器演变为能够进行规划、使用工具和多步推理的强大自主智能体。最近,多智能体系统(MAS)作为一种处理复杂现实世界任务的有前途的方法而出现,证明了在专业化的智能体之间分配任务可以提升性能。

尽管当前的 MAS 取得了令人瞩目的成果,但其设计通常是领域特定的,严重限制了跨领域的可迁移性。这一缺点体现在两个方面:

(i) 首先,在推理方面,将系统部署到一个新领域通常需要完全的重新设计;例如,MetaGPT 依赖于为软件工程量身定制的标准操作程序,这阻碍了其向其他领域的扩展。

(ii) 其次,在训练方面,现有的工作通常会优化每一个智能体。例如,MALT 遵循一个固定的“生成器-验证器-精炼器”流程,需要对每个组件进行单独训练。因此,迁移此类系统需要重新训练整个智能体集合,从而急剧降低了灵活性。这些缺点凸显了对一种通用的、模块化的多智能体架构的需求,该架构能够以最少的再训练和重新设计来快速适应不同领域。

基于这些观察,我们首先引入了 WORKFORCE,这是一个分层的智能体推理框架,它将战略规划与领域特定的执行解耦。

如图2所示,这种模块化设计包括三个核心组件:

(i) 领域无关的规划器 (Planner):基于高层目标生成抽象的任务分解。

(ii) 协调器 (Coordinator):将子任务分配给合适的工作器。

(iii) 领域特定的工作器节点 (Worker Nodes):一组专门的智能体,它们执行工具调用以完成各个子任务。这些组件的解耦实现了即插即用的可扩展性,使得 WORKFORCE 能够通过简单地替换或添加工作器节点来无缝适应新领域。

此外,这种模块化架构促进了优化的 WORKFORCE 学习 (OWL),这是一种新颖的智能体训练范式。OWL 专注于通过训练一个可泛化的、领域无关的规划器来增强 MAS 的跨领域可迁移性。具体来说,我们采用了一种两阶段的训练策略:用于规划器初始化的监督式微调(SFT),随后是强化学习,以进一步增强模型的泛化能力。

我们在 GAIA 基准上评估了我们的方法,这是一个针对通用型 AI 助手的严格测试套件,涵盖了不同领域,并要求多模态推理、代码执行和实时网络搜索。WORKFORCE 达到了 69.70% 的准确率,超过了像 OpenAI 的 Deep Research (55.15%) 这样的强大商业专有基线。为了证明 OWL 的有效性,我们进一步对一个由 Qwen2.5-32B-Instruct 初始化的战略规划器进行了后训练,训练数据是未使用任何 GAIA 数据的定制策划数据集。训练后,该模型达到了 52.73% 的分数(提升了16.37%),超过了 GPT-4o-mini (47.27%) 和 Qwen2.5-72B-Instruct (49.09%) 等模型。这些结果证实,我们的模块化训练策略能够在不同领域实现泛化,同时仅需最少的再训练。

我们的主要贡献有四点:

  1. 一种全新的、灵活且模块化的多智能体架构。 我们提出了 WORKFORCE,它在推理和训练方面都具有模块化和可扩展性,增强了跨领域的可迁移性。

  2. 领先的性能。 我们的系统在 GAIA 基准测试中取得了开源领域的最佳性能,甚至超过了 OpenAI 的 Deep Research 等专有系统。

  3. 高效且有效的训练范式 OWL 以最小的开销显著增强了模型的能力,使 Qwen2.5-32B-Instruct 实现了 16.37% 的性能提升,并在挑战性任务上达到了与 GPT-4o 相当的性能。

  4. 完全开源。 我们发布了所有的代码、模型和数据,以支持开放研究。

2 预备知识

基于大型语言模型(LLM)的智能体 (Agents) 是能够在各种环境中感知、推理和行动的自主系统。这些智能体在一个“感知-推理-行动”的循环中运作,它们观察环境,通过语言模型处理信息,确定适当的行动,并执行这些行动以实现目标。

智能体系统 (Multi-Agent Systems) 通过允许多个基于LLM的智能体在复杂任务上进行协作,扩展了这一范式。像 CAMEL 和 MetaGPT 这样的框架已经证明,在需要多样化专业知识的任务上,协作方法可以超越单一智能体系统。然而,现有的多智能体框架通常受限于领域特定的设计,这限制了它们更广泛的适用性。本文旨在通过战略规划与任务执行的解耦,开发可扩展且通用的多智能体框架 WORKFORCE,从而实现跨不同领域的高效协调。(完整的形式化描述见附录C,更多相关工作见第6节。)

通用人工智能助手 (Generalist AI Assistant) 的概念最初由 GAIA 提出。这类系统旨在处理跨越多个领域和模态的各种复杂任务。作为首个评估通用AI助手的问答基准,GAIA 旨在让基于LLM的智能体在真实世界的情境中收集信息,测试其多模态理解、网络浏览、推理和复杂问题解决等基本能力。近期,许多公司已经发布了通用AI助手产品(例如,OpenAI的Deep Research)。尽管开源框架取得了显著进展(例如,Huggingface的Open Deep Research),它们仍然落后于商业解决方案。在本文中,我们的目标是缩小开源与商业专有智能体框架之间的差距。我们提出的 WORKFORCE 框架在性能上超过了OpenAI的Deep Research 2.34%,而我们的训练方法 OWL 则将 Qwen2.5-32B-Instruct 的性能显著提升了16.37%。

3 多智能体推理:WORKFORCE

3.1 WORKFORCE

动机。 当代多智能体系统受到领域特定性架构僵化性的严重限制,每个新的应用领域都需要完全的重新设计和重新训练。我们引入了 WORKFORCE,通过模块化架构,特别是将领域无关的规划与领域特定的执行分离,来解决这一根本性挑战。更多关于 WORKFORCE 的细节可以在附录D中找到。

图 3 WORKFORCE 框架概览。该系统由一个用于任务分解的规划器智能体 (Planner Agent)、一个用于协调子任务的协调器智能体 (Coordinator Agent),以及多个配备了领域特定工具包以执行已分配任务的专业化工作器节点 (Worker Nodes) 组成。

架构。 如图3所示,WORKFORCE 包含三个核心组件:

(i) 规划器智能体 (Planner Agent),负责分析传入的任务,并根据工作器能力注册表将其分解为子任务;

(ii) 协调器智能体 (Coordinator Agent),作为中央编排机制,管理工作器的分配和任务依赖关系,同时整合中间结果;

(iii) 工作器节点 (Worker Nodes),由一个或多个配备了特定能力和工具包的专业智能体组成,负责执行分配的子任务并发布结果。

这种模块化架构提供了内在的灵活性,允许该框架通过简单修改工作器节点,同时保持其核心的规划和协调机制,就能部署到各种不同的应用中。

通信机制。 WORKFORCE 中的通信通过一个作为中央枢纽的共享任务通道 进行。协调器将任务和分配发布到这个通道。任务完成后,工作器仅将其最终结果发布回通道,而工具调用的详细执行上下文则被隔离在每个子任务的作用域内。这为每个工作器维持了一个干净的上下文,它们只能访问当前的子任务细节和简明的先前子任务结果。这种集中式方法通过消除智能体之间的直接消息传递,简化了系统管理并增强了可扩展性。

任务流程。 WORKFORCE 内的任务处理工作流遵循一个结构化的流程:

(i) 规划器分析传入的整体任务,然后根据可用工作器节点的能力和整体任务的复杂性,将其分解为一组子任务;

(ii) 协调器评估可用工作器节点的能力,并相应地分派子任务;

(iii) 工作器节点使用其专业工具执行分配的子任务;

(iv) 工作器节点的结果被发布到共享的任务通道

(v) 协调器管理任务依赖关系并整合结果,最终将它们转发给规划器;

(vi) 规划器分析每个子任务的结果并综合生成最终输出。

重新规划机制。 在任务执行过程中,工作器会自我评估分配的子任务是否失败。当一个工作器确定一个子任务失败时,它会将失败信息发布到任务通道。任务通道随后检测到此失败,并提示规划器根据反馈信息生成新的子任务。这种重新规划机制通过动态调整其应对日益复杂任务的方法,实现了测试时的扩展性,这一点在第5节中得到了验证。

3.2 通用型多智能体助手

为了构建一个能够处理多样化现实世界任务的通用型多智能-体助手,我们通过实例化 WORKFORCE 并配备了三个工作器智能体,每个智能体都装备了领域特定的工具包:

(i) 一个 网络智能体 (Web Agent),能够执行网页搜索、提取网页内容和模拟浏览器操作;

(ii) 一个 文档处理智能体 (Document Processing Agent),设计用于处理文档和多模态数据,包括文本、图像、音频、视频、电子表格和各种文件格式;

(iii) 一个 推理/编码智能体 (Reasoning/Coding Agent),负责处理分析推理和代码执行任务。工作器智能体和相应工具包的详细信息可以在附录D.3中找到。

3.3 实验

基线。 我们选择了一套全面的基线系统,分为四个主要类别:

(i) 专有框架,确立了商业性能的上限,包括像OpenAI的Deep Research、h2oGPTe Agent等商业智能体系统。

(ii) 开源框架,揭示了社区的进展,包括像HuggingFace的Open Deep Research、Trase Agent等强大的基线。

(iii) 一个 单一智能体基线,利用多步工具调用。

(iv) 角色扮演 (Role Playing),由两个智能体(用户智能体和助手智能体)组成,通过结构化对话协作完成任务。请注意,为了控制实验变量,单一智能体和角色扮演基线都使用了与 WORKFORCE 相同的工具集。

实现细节。 在我们的实现中,我们通过API访问所有模型,无需使用GPU。为确保可复现性,我们配置API推理使用贪婪解码(greedy decoding)。默认的重新规划阈值设置为2。对于评估方法,我们对使用GPT-4o的WORKFORCE采用pass@3抽样,对使用Claude-3.7-sonnet的WORKFORCE采用pass@1。由于GAIA的一些标准答案已在网上泄露,我们屏蔽了几个网站以确保公平比较。

表 1:在 GAIA 验证集上,以准确率(%)作为评估指标的智能体框架性能比较。开源和专有框架的分数均来自官方排行榜。表现最好的专有和开源框架已用粗体标出。

主要结果。 从表1中可以得出几个结论:

(i) Workforce在开源框架中达到了最先进的性能。 我们的 WORKFORCE 取得了 69.70% 的准确率,在所有难度级别上都持续优于以前的开源框架。在严格控制相同模型和工具包的设置下,我们基于GPT-4o的 WORKFORCE 实现了 60.61% 的准确率——比单一智能体高出 23.03%,比多智能体基线“角色扮演”高出 6.06%

(ii) 与商业专有框架相比,Workforce展示了相当甚至更优的性能。 尽管以前的开源框架与闭源替代方案相比存在显著的性能差距,但 WORKFORCE 大大缩小了这一差距。据我们所知,WORKFORCE 是第一个超越 OpenAI 的 Deep Research 的开源系统,实现了 2.34% 的性能提升,并且通过超越 Langfun Agent v2.1 1.89%,在难度级别1上创造了新的最佳纪录。

4 Multi-Agent Training: OPTIMIZED WORKFORCE LEARNING

4.1 训练策略

动机。 WORKFORCE 架构将领域无关的规划与领域特定的执行分离开来,这使我们能够通过简单地添加或替换工作器节点来适应新领域,同时保留核心的规划机制。我们引入了优化的WORKFORCE学习(OWL),其重点是增强一个能够处理多样化现实世界场景的、可泛化的规划器智能体。这种设计显著降低了训练开销,因为只有规划器智能体需要密集的优化,而工作器节点可以利用现有的领域特定工具,只需最少的调整。这种“稳定核心,可变外围”的方法能够实现跨领域的有效知识迁移,并且无需为新的应用重新训练整个系统,从而在保持一致性能的同时,大幅降低了计算成本。

实现。 更具体地说,我们采用了一个两阶段的训练范式:

(i) 在第一阶段,我们采用监督式微调(SFT)来初始化规划器智能体,使其具备源自专家演示的基本任务分解技能。(ii) 随后,我们利用强化学习来进一步优化经过SFT初始化的规划器智能体。我们选择直接偏好优化(DPO)作为我们首选的优化算法,因为这一阶段能够提升分解策略的质量,使其超越单纯的模仿演示,从而让规划器能够发展出更复杂的决策能力。

4.2 任务课程

动机。 WORKFORCE 的核心创新在于其架构上将领域无关的规划与领域特定的执行分离开来。为了使这种设计有效,规划器智能体必须具备跨越不同问题领域的强大泛化能力。这产生了一个根本性的矛盾:规划器必须同时对不同领域保持深刻的理解,同时又要避免对特定的任务模式或领域产生过拟合。为了应对这一挑战,我们开发了一个策略性平衡的任务课程,该课程刻意地跨越了通用智能所需的多个能力维度。我们的课程设计遵循两个关键原则:(i) 能力覆盖:让规划器接触多样化的推理模式和问题结构。(ii) 迁移学习:优先选择那些能够发展可在领域间迁移的互补性认知技能的任务,而不是领域特定的知识。

实现。 更具体地说,如表2所示,我们精心挑选了四个数据集,每个数据集都针对不同的智能体认知能力维度:(i) HotpotQA:该数据集需要基于在线信息进行多跳推理,这对规划器编排复杂的信息搜寻行为提出了挑战。(ii) WikiTableQuestions:该数据集要求规划器制定策略来导航、筛选和操作表格信息。(iii)* 数学相关问题:这是一个定制策划的数学问题集合,需要通过推理或编码来解决,涵盖了各种数学领域。它们帮助规划器发展逻辑推理和计算问题解决的技能。(iv) Infinity-MM:作为一个多模态数据集,Infinity-MM 对规划器协调多模态信息处理(包括视觉、文本和结构化数据)的能力提出了挑战。

4.3 轨迹合成

监督式微调。 我们使用我们的 WORKFORCE 方法(§3.1)和 GPT-4o-mini 来合成专家轨迹,这些轨迹由规划器生成的子任务和工作器生成的执行轨迹组成。为了过滤掉低质量数据,我们在不同数据集上应用了不同的评估指标:对于 HotpotQA 和 WikiTableQuestions,我们使用了准确率指标;对于 Infinity-MM,我们使用了文本余弦相似度,并设置了基准答案和生成答案之间0.7的阈值;对于数学相关问题,我们实施了“LLM-as-a-judge”来比较基准答案与workforce生成的解决方案。最终,如表2和表6所示,我们获得了1599条经过滤的轨迹用于监督式微调,每条轨迹平均包含3.41个子任务。

强化学习 我们使用经过SFT初始化的模型来为DPO生成成对的轨迹。具体来说,对于我们收集的数据集中的每个问题,我们展开 n = 4条不同的轨迹。这些生成轨迹的评估方法与SFT阶段相同。然后,我们根据每个问题生成的 n 条轨迹的评估结果来构建偏好对。对于数学、HotpotQA 和 WikiTableQuestions 任务,正确的轨迹被标记为“chosen”(选中),而不正确的答案被标记为“rejected”(拒绝)。对于 Infinity-MM 数据集,最终文本余弦相似度分数超过SFT阶段相同阈值(0.7)的轨迹被标记为“chosen”,而低于该阈值的则被标记为“rejected”。如表2所示,我们收集了1009个经过滤的轨迹对。

4.4 实验

基线。 我们将我们的方法与多个专有和开源模型作为基线进行比较,包括 GPT-4o 系列、Claude-3.7-Sonnet 和 Qwen2.5 系列。这些模型代表了当前不同规模和架构下语言模型能力的最高水平。

实现细节。 我们的模型训练在一个配备了8个NVIDIA H100 GPU的计算集群上进行。我们使用 LlamaFactory 框架来管理和执行我们的训练程序。具体来说,对于我们训练的所有模型,输入序列被截断到最大长度32768个令牌,学习率设置为10⁻⁵。所有模型都训练总共两个周期。为了优化内存使用和训练效率,我们使用了bfloat16混合精度训练。通过每个设备批次大小为1,结合12个梯度累积步骤,实现了12的有效批次大小。

主要结果。 表3揭示了多个重要发现:

(i) OWL 显著增强了规划器的能力,使得开源模型能够超越专有替代品。 经过OWL训练的Qwen2.5-32B-Instruct模型表现出显著的提升,获得了16.37%的巨大增益。OWL使得开源模型的性能达到了52.73%,超过了专有的GPT-4o-mini(47.27%)和更大的Qwen2.5-72B-Instruct(49.09%)。虽然GPT-4o(60.61%)仍然保持优势,但我们经过OWL训练的模型在更具挑战性的级别3任务上,取得了与GPT-4o(26.92%)相当的性能。

(ii) 强化学习显著提升了规划器的泛化能力。 虽然仅靠监督式微调(SFT)在较简单的任务(级别1和2)上能提升性能,但它在最复杂的任务(级别3)上表现出退步,性能下降了3.85%。然而,当与DPO结合时,我们的方法不仅弥补了这一性能损失,还在所有难度级别上显著超越了基础模型,在级别3任务上实现了**7.69%**的提升。

消融研究。 我们评估了轨迹过滤对模型性能的影响。

如图3a所示,在过滤后的轨迹上训练的模型始终优于在未经过滤的数据上训练的模型,这突显了数据质量比数量对于有效的规划器训练更为关键。

5 分析

跨能力类型的性能表现。 每个评估案例可能需要一种或多种类型的智能体能力(例如,网页浏览、编码、多模态处理)。如图4(a)所示,我们的实验结果表明:(i) 在不同的能力类型上,WORKFORCE 方法始终优于角色扮演(Role Playing)和单一智能体(Single Agent)方法。(ii) 经过 OWL 训练后,我们观察到所有能力类型上都有持续的改进。

图 4 左图:在 GAIA 验证集上,按不同智能体能力分类的平均得分。蓝色部分比较了不同的智能体框架,而棕色部分则比较了不同的规划器模型。右图:随着重新规划迭代次数的增加,Workforce 性能的变化情况。

测试时扩展。 正如3.1节所讨论的,我们引入了一种重新规划(replanning)机制,该机制使得多智能体系统具备测试时扩展(test-time scaling)的能力。如图4(b)所示,随着重新规划迭代次数的增加,基于 GPT-4o 和 Claude-3.7-Sonnet 的 WORKFORCE 系统都表现出性能的提升。值得注意的是,在此过程中,模型无法访问基准答案,这表明 WORKFORCE 在测试期间具备内在的自我纠正和自我演进能力。

图 5:多智能体系统的手动错误分析与性能比较

跨能力需求的稳健性。 我们通过根据所需能力(1、2或≥3种)对任务进行分组来分析稳健性。图5(b)显示,基线模型在多能力任务上性能显著下降(角色扮演从62.3%降至34.6%),而 WORKFORCE 在所有复杂级别上都保持了稳定的性能。这种稳定性源于我们的模块化设计,其中专业化的工作器处理重点明确的子任务,使得复杂任务比单一智能体必须处理所有内容时更容易管理。其他稳健性指标可见于附录I.1。

规划器与工作器训练的对比。 我们在图5(c)中的消融研究显示,仅训练规划器(45.45%)的性能显著优于仅训练工作器(31.51%)。同时训练两个组件所带来的额外增益极小(46.68%),却大幅增加了计算成本。这证实了我们优先优化规划器的设计选择是正确的,因为有效的任务分解比增强单个工作器的能力更为关键。

错误分析。 为了深入研究 WORKFORCE 的失败模式,我们对 Claude-3.7-Sonnet 的结果进行了手动错误分析。如表7所示,大约一半的错误源于基础模型本身的局限性或与工具相关的问题。在智能体特有的错误中,最高比例归因于规划器失败(21.15%),这进一步凸显了规划器优化的重要性。每个错误类别的示例和详细的错误分布可见于附录E。我们还在附录F中提供了更多的定性分析。

6 相关工作

基于LLM的多智能体系统。 近期的工作已经探索了这样一种架构:多个基于LLM的智能体进行合作,每个智能体都有专门的角色,以解决超出单个模型能力的复杂任务。早期的双智能体角色扮演系统,如 CAMEL,表明智能体之间的对话可以引出逐步的推理。近期的框架通过为多个智能体分配明确的角色来扩展这一思想:MetaGPT 和 ChatDev 复制了软件工程的流程,设有经理、设计师和程序员等智能体;其他工作,如 Magnetic-One 和 AG2,则引入一个中央协调器来为工作器分配任务。尽管这些系统很有效,但它们硬编码了角色集,限制了跨领域的迁移。在 中,作者发现这些工作的主要失败模式源于系统设计问题。与此不同,WORKFORCE 将战略规划、协调和任务执行解耦为独立的智能体,因此可以在不触动规划器的情况下替换新的工作器。这种可扩展性和灵活性实现了无缝的领域迁移。

面向智能体LLM的后训练(Post-Training)。 研究人员已经广泛探索了后训练方法,以增强智能体系统的性能。先前的工作通过监督式微调或强化学习,在带有工具使用的轨迹上优化模型。尽管这些方法有效,但全轨迹训练的可扩展性差,并且可能使智能体对固定的工具集产生过拟合。另一项同期的工作 MPO 通过迭代地精炼高层计划来避免权重更新,但仍然假设需要为任务设计特定的奖励。相比之下,OWL 仅通过强化学习来训练领域无关的规划器,从而实现了强大的领域迁移能力。

智能体训练。 近期的研究已经探索了多种训练方法,其中多个基于LLM的智能体通过专门的角色和互动来学习协作。例如,MALT 将推理过程分为生成器、验证器和精炼器三个智能体,并通过离策略奖励传播(off-policy reward propagation)对每个角色进行微调。类似地, 提出了一种多智能体微调方法,其中从同一基础模型初始化的LLM通过辩论驱动的数据进行专业化,从而实现了超越单智能体能力的多样化推理和集体自我提升。与这些训练领域特定的多智能体系统(其中每个智能体都需要单独微调)的方法不同,OWL 专注于训练一个单一的、可泛化的、领域无关的规划器。这一根本性差异同时提供了有效的领域迁移能力和训练效率。

7 结论

我们介绍了 WORKFORCE,这是一个分层的多智能体框架,它将战略规划与领域特定的执行解耦,从而实现了无需重新设计系统的跨领域迁移能力。WORKFORCE 在 GAIA 基准测试中达到了 69.70% 的准确率,其性能超越了现有的开源替代方案以及 Deep Research。我们还提出了优化的WORKFORCE学习(OWL),该方法应用了强化学习,并将 Qwen2.5-32B-Instruct 模型在 GAIA 基准上的性能提升了 16.37%。我们希望,通过将即插即用的工作器节点与一个可泛化的规划核心相结合,我们的方法能为通用人工智能助手提供一个可扩展的基础。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐