ICML 2025 | 告别人工调参！MetaAgent自动构建MAS，机器学习任务得分0.83

本文提出MetaAgent——一种基于有限状态机(FSM)的自动化多智能体系统构建框架，旨在解决传统人工设计方法成本高、通用性差等问题。MetaAgent通过任务结构化分解，自动生成支持工具调用、状态回溯与优化的多智能体系统。实验表明，在机器学习与软件开发任务中，MetaAgent性能优于现有自动化方法，部分任务接近人工设计系统水平。其核心优势在于灵活的状态转移机制、条件验证器和状态优化算法，为多

LLM精进之路

934人浏览 · 2025-08-29 11:25:04

LLM精进之路 · 2025-08-29 11:25:04 发布

1. 导读

多智能体系统（Multi-Agent Systems, MAS）近年来逐渐成为推动大模型落地应用的重要方向。传统的人类设计方法虽然在特定场景中表现良好，但存在设计成本高、通用性差和迭代效率低等问题。部分自动化构建方法虽有所突破，却依然受制于缺乏工具整合、依赖外部数据以及通信结构过于僵化的缺陷。针对这些瓶颈，本文提出了 MetaAgent —— 一种基于有限状态机（Finite State Machine, FSM）的全新自动化多智能体构建框架。该方法能够在给定任务描述的情况下自动生成完整的多智能体系统，并通过状态优化算法减少冗余。其关键特性在于支持 工具调用（tool-using）、状态回溯（traceback） 以及 无需外部数据的自优化（self-optimization），从而实现了在文本任务、机器学习任务以及软件开发任务中的稳健表现。实验结果表明，MetaAgent 不仅优于现有自动化方法，还在多个任务中达到接近甚至超过人工设计系统的性能，展现出推动智能体研究从人工设计走向自动化的重要潜力。

Alt

论文基本信息

论文标题：MetaAgent: Automatically Constructing Multi-Agent Systems Based on Finite State Machines
作者：Yaolun Zhang, Xiaogeng Liu, Chaowei Xiao
作者单位：University of Wisconsin – Madison
发表会议：Proceedings of the 42nd International Conference on Machine Learning (ICML 2025), Vancouver, Canada
论文链接：[2507.22606] MetaAgent: Automatically Constructing Multi-Agent Systems Based on Finite State Machines
代码地址：https://github.com/SaFoLab-WISC/MetaAgent

2. 研究背景与问题提出

近年来，大型语言模型（Large Language Models, LLMs）在推理、代码生成与知识压缩等方面展现出卓越能力，逐渐成为构建智能体（Agent）的核心技术基础。基于 LLM 的单体智能体能够完成诸如任务规划、工具调用与自我反思等复杂操作。然而，单一智能体在应对高度复杂或跨领域任务时表现出明显局限性。这推动了研究者提出 多智能体系统（Multi-Agent Systems, MAS），通过角色分工、功能互补与协同机制实现能力的扩展与增强。在软件开发、数据科学与科学推理等任务场景中，MAS 已经展现出优越的表现。

尽管如此，现有的多智能体系统设计大多依赖 人工构建。研究人员需要手动编写繁琐的系统框架，并通过多轮迭代优化方能达到理想效果。这不仅造成了极高的设计成本，也使系统难以推广至通用场景。进一步而言，当前少数自动化尝试（如 SPP、AutoAgents、EvoAgent 等）依然存在以下显著不足：

缺乏通用性（Generalization）：多数方法针对单一任务实例构建系统，缺乏迁移性与跨任务复用能力。
工具集成不足（Tool Integration）：部分方法（如 SPP）无法支持搜索引擎、代码解释器等外部工具，限制了智能体与真实环境交互的广度与深度。
依赖外部数据与高代价迭代（External Data Dependence）：如 ADAS 与 Symbolic-Learning 需要大量外部训练数据及多轮自迭代优化，导致效率低下，难以实际部署。
通信结构僵化（Rigid Communication Structure）：现有方法多采用线性流水线、去中心化辩论或协调者（Orchestrator）模式，缺乏灵活的错误追溯与动态修正机制。

上述限制使得现有自动化方法难以在复杂真实任务中达到与人工设计系统相当的性能。为应对这一挑战，本文提出 MetaAgent —— 一种基于 有限状态机（Finite State Machine, FSM） 的自动化多智能体系统构建框架。FSM 的引入带来了若干关键优势：

灵活的状态转移机制：支持错误修复与任务回溯（Traceback）；
条件验证器（Condition Verifier）：通过细粒度条件控制实现稳健的状态管理与纠错；
工具调用能力（Tool-Using）：增强智能体与外部环境的交互能力，提升问题求解范围；
状态优化机制（Optimization Algorithm）：在无需外部数据的前提下合并冗余状态，有效提升系统效率与稳健性。

综上，MetaAgent 框架不仅突破了现有自动化构建方法的瓶颈，而且为多智能体系统提供了一种统一、可扩展且低成本的实现范式，为智能体研究的进一步发展奠定了方法论基础。

3. 方法论：MetaAgent 框架

本文提出的 MetaAgent 框架基于 有限状态机（Finite State Machine, FSM），其核心思想是通过对任务进行结构化分解，自动生成具备工具调用、状态回溯与优化能力的多智能体系统。本章将介绍 FSM 的基本定义、构建流程及优化机制，并阐述其在任务部署中的运行方式。

3.1 有限状态机的定义

有限状态机由五元组形式定义为：

其中：

表示输入字母表，在本文场景中对应任务域内的具体案例；
为有限状态集合；
为初始状态；
为终止状态集合；
为状态转移函数。

在 MetaAgent 中，每个状态均由四个要素构成：

任务执行智能体（Task-Solving Agent）；
条件验证器（Condition Verifier）；
状态指令（State Instruction）；
监听者（Listeners）。

FSM 从初始状态出发，根据状态转移函数与输入符号进行动态转换，直至进入终止状态（表示任务完成），或达到最大迭代次数（表示任务失败）。

3.2 FSM 构建流程

图 2. MetaAgent 的构建阶段

3.2.1 智能体设计

FSM 构建的第一步是设计智能体。MetaAgent 通过 提示驱动的生成过程（prompt-centric generation），由一个“设计者智能体”根据任务描述生成候选智能体集合。该过程包含：

任务分析：明确系统目标与任务分解；
智能体配置：为每个智能体分配名称、角色定义、系统提示（system prompt）及可使用的工具；
结构化输出：以 JSON 格式输出智能体配置，便于后续状态与转移条件的生成。

3.2.2 状态与转移条件设计

在完成智能体设计后，MetaAgent 根据任务描述与智能体功能构建 FSM。

状态设计：每个状态对应一个子任务，包含预定义的自然语言指令、分配的智能体以及监听者集合。监听者机制确保任务结果在多个智能体之间有效传播。
条件验证器：每个任务执行智能体配备一个条件验证器，其提示信息包含状态转移条件。验证器在接收任务输出后，判断是否满足某一转移条件，并决定转移目标状态或保持原状态（即“空转移”）。
转移逻辑：状态间的转移既可以是顺序推进，也可以回溯到前一状态，从而支持复杂场景中的动态修正。

3.2.3 FSM 优化

初始生成的 FSM 通常包含大量冗余状态，导致信息传递链过长。为此，MetaAgent 设计了基于 LLM 的状态合并算法：

对状态集合进行两两比较；
判断两状态在角色功能、信息传递与工具分配上的可合并性；
若满足条件，则合并为单一状态并更新状态集合；
重复迭代直至状态集合收敛。

这一过程能够减少不必要的状态与智能体，从而提升系统效率与稳健性。

3.3 部署阶段

在完成 FSM 构建与优化后，系统进入部署阶段。部署过程如下：

从初始状态出发，任务输入与状态指令作为输入传递给智能体；
智能体生成输出结果，并交由条件验证器判定是否满足转移条件；
若满足条件，则系统转移至下一个状态，并将输出写入监听者记忆；
若未满足条件，则执行“空转移”，即在当前状态继续调用智能体进行迭代；
当系统进入终止状态或达到最大迭代次数时，任务结束。

该部署机制确保了 FSM 在复杂任务中具备多轮迭代、错误修复与信息追溯的能力。

3.4 FSM 的关键特性

空转移（Null-Transition）：允许智能体在未满足转移条件时多轮迭代，增强任务鲁棒性。
状态回溯（State Traceback）：当条件验证器检测到前序错误时，系统可回溯至相关状态进行修复。
通用性（Generalization）：线性结构、辩论式结构与协调者结构均可视为 FSM 的特例，MetaAgent 提供了统一而更为灵活的表示。

通过上述设计，MetaAgent 在结构灵活性、错误纠正能力与工具集成方面显著优于现有的自动化 MAS 架构。

4. 实验与结果分析

4.1 机器学习任务评估

在机器学习任务（ML Bench）中，我们首先验证了 MetaAgent 在不同基准数据集上的综合表现。实验涉及 Titanic、House Prices、SCTP、ICR 和 SVPC 五个子任务，并将 MetaAgent 与多种现有方法进行对比。结果表明，MetaAgent 在所有自动化设计（Auto-Designed）框架中表现最为优越，其平均得分达到 0.83，不仅显著高于 AutoAgents（0.00）、SPP（0.16）等方法，而且在多数子任务中超越了手工设计的系统。尤其是在 House Prices 与 ICR 等任务上，MetaAgent 分别取得了 0.91 与 0.88 的高分，接近甚至超过了人工设计的 Data Interpreter。

这一结果说明，MetaAgent 能够在无需人工干预的情况下，通过自动化有限状态机的建模与优化，达到与人工设计相当甚至更优的任务完成效果，从而凸显了该框架在 自动构建多智能体系统 中的实用性和鲁棒性。

表 3. ML Bench 上的归一化性能得分。MetaAgent 在自动化设计的多智能体方法中表现最佳，并且其性能可与 Data Interpreter（一个针对机器学习任务的人为设计的多智能体系统）相媲美。

4.2 软件开发任务评估

除了静态的数据驱动任务，我们进一步考察了 MetaAgent 在 软件开发任务 中的表现。与机器学习任务相比，软件开发任务具有更强的交互性与创造性，要求系统能够生成、调试和执行可运行的代码。实验涵盖了 2048、Snake、Brick Breaker、Excel 自动化与 Weather 应用等多个子任务。

实验结果显示，MetaAgent 在绝大多数任务中均能顺利完成目标，其平均得分高达 0.85，远超 MetaGPT（0.35）、SPP（0.15）与 AutoAgents（0.20）。例如，在 Snake 与 Excel 任务中，MetaAgent 分别取得了 1.0 的满分成绩；在 2048 与 Weather 任务中，其表现同样大幅领先其他基线方法。

这一结果表明，MetaAgent 不仅能够在静态推理与数据分析任务中保持高效性，还能够在 复杂编程与动态交互场景 下展现出稳定的执行能力。这一特性为其在真实软件开发与自动化流程中的应用提供了强有力的支持。

表 4. 软件开发任务上的性能表现。MetaAgent 生成的软件通过了大部分检查点，并且整体性能超越了所有其他方法。

4.3 基础模型迁移实验

为了进一步评估 MetaAgent 的泛化能力，研究团队考察了其在不同基础大模型（Foundation Model）配置下的迁移表现。具体而言，实验将 Designer 与 Executor 两个角色分别替换为 GPT-3.5-Turbo 与 GPT-4o 的不同组合，并在 ML Bench 上重新测试任务性能。

结果显示，当 MetaAgent 同时使用 GPT-4o 作为 Designer 与 Executor 时，其在 Titanic、House Prices、SCTP、ICR 与 SVPC 五个任务中的得分均达到最佳水平，平均得分为 0.83。相比之下，若 Designer 与 Executor 均为 GPT-3.5-Turbo，平均得分仅为 0.12；即使在混合配置（如 GPT-3.5 与 GPT-4o 搭配）下，表现也显著低于 GPT-4o 全配置方案。

该实验结果揭示了 MetaAgent 的一个关键特征：虽然框架本身具备较强的结构化设计优势，但 底层语言模型的能力上限 依然直接影响系统整体性能。因此，在未来部署中，合理选择并更新基础模型将成为进一步提升 MetaAgent 效能的重要途径。

表 5. 当更换 MetaAgent 的 Designer 与 Executor 的基础模型时，在机器学习基准（ML Bench）上的实验结果。

4.4 消融实验分析

为了探究各个设计模块对 MetaAgent 整体性能的贡献，研究团队开展了针对 工具使用（Tool-Using）、优化过程（Optimization） 与 回溯机制（Traceback） 的消融实验。通过逐一移除这些组件，并在 ML Bench、软件开发、写作任务与 GPQA 四个维度上进行测试，结果揭示了不同模块的关键作用。

实验表明，当移除工具使用时，MetaAgent 无法在 ML Bench 与软件开发任务中产生有效结果；当移除优化模块时，整体性能显著下降，平均降幅超过 **30%**；而移除回溯机制则导致写作与 GPQA 任务的表现分别下降约 10% 与 **3%**。对比之下，完整配置下的 MetaAgent 保持了 多任务均衡且稳定的性能优势。

这些结果表明，工具调用、有限状态机优化与回溯机制在 MetaAgent 框架中缺一不可，三者共同构成了保证系统 高效性、稳定性与泛化性 的核心支撑。

表 6. 关于工具使用（Tool-Using）、回溯机制（Traceback）与优化过程（Optimization）的消融实验。（其中“–”表示不适用）

4.5 小结

本章通过一系列实证研究对 MetaAgent 的有效性进行了系统性检验。实验结果表明，MetaAgent 在机器学习与软件开发任务中均展现出优于现有自动化框架的性能，其表现不仅在多个基准上显著超越 Auto-Designed 方法，而且在若干任务中可与人为设计的多智能体系统相媲美。进一步的迁移实验揭示了基础模型能力与框架性能之间的内在耦合关系，即更强大的语言模型能够为框架提供更高的性能上限。此外，消融实验的结果强调了工具使用、回溯机制与有限状态机优化在保障系统整体性能中的关键作用。综上所述，MetaAgent 通过结构化建模与模块化机制实现了性能与鲁棒性的平衡，其跨任务稳定性与扩展性为后续研究奠定了坚实的基础。

5.总结与未来工作

本文系统性地提出并验证了 MetaAgent 框架，旨在通过有限状态机（Finite State Machine, FSM）驱动的结构化建模，实现多智能体系统的自动化生成与优化。不同于依赖人工配置与专家经验的传统范式，MetaAgent 将任务建模、智能体角色分配与交互机制抽象为统一的形式化过程，从而显著降低了多智能体系统设计的复杂度。通过在机器学习基准（ML Bench）与软件开发任务中的实证研究，MetaAgent 展现出在性能与鲁棒性方面的全面优势，不仅优于现有自动化框架，而且在部分任务上能够与人为设计系统相媲美甚至超越。消融实验进一步表明，工具调用、回溯机制以及 FSM 优化三者在性能提升中起到不可替代的作用，凸显了框架设计的系统性与合理性。

从学术贡献层面来看，本文的创新点主要体现在以下三个方面：

提出自动化的多智能体系统设计范式：通过有限状态机建模实现了任务的模块化拆解与执行流程的形式化表达；
跨领域验证框架有效性：实验覆盖了静态推理任务（机器学习基准）与动态交互任务（软件开发），结果表明框架具备良好的跨任务适应性与通用性；
揭示关键模块的重要性：系统性的消融实验为工具调用、回溯机制与优化过程在整体性能中的作用提供了定量证据。

尽管本文的研究结果具有重要意义，但仍存在若干值得深入探讨的局限性。首先，随着任务复杂度的提升，有限状态机可能面临 状态空间爆炸（state space explosion） 的挑战，这将对框架的可扩展性提出限制。其次，尽管 MetaAgent 在实验中表现出相对较优的资源效率，但在真实大规模应用场景中，其计算与通信开销仍需进一步优化。最后，框架性能在一定程度上依赖于底层基础模型的能力上限，这提示未来研究需在 框架机制与大模型能力的协同优化 上展开探索。

基于上述局限性与研究发现，未来工作可从以下几个方向展开：

优化方法的融合：结合强化学习（Reinforcement Learning, RL）、进化算法（Evolutionary Algorithms）等优化范式，以进一步提升 FSM 的搜索与优化效率；
多模态扩展：探索在视觉、语音等多模态场景下的应用，使框架能够适应更复杂与多样化的交互任务；
真实场景部署与验证：在软件工程自动化、工业生产调度与人机协作系统中进行大规模应用测试，以评估框架在实际环境中的性能与稳定性；
资源效率与可持续性：研究在保持高性能的前提下，进一步降低框架在运行过程中的计算负担与通信开销，从而增强其实际部署的可行性。

综上，MetaAgent 不仅为多智能体系统的自动化设计提供了一种切实可行的新范式，而且为后续多智能体系统的普适建模、跨领域扩展与实际应用落地开辟了新的研究路径。本文的研究成果在方法论与实践层面均具有重要意义，为推动智能体系统的可扩展性与通用性提供了坚实基础。