什么是多智能体系统?

多智能体系统是由多个自主的AI智能体组成的系统,这些智能体在一个共享环境中交互协作,以完成任务。每个智能体专精于特定领域(如数据分析、内容生成、API集成),而不是由一个智能体处理所有事务。

这些智能体通过通信协议进行协调,通过记忆系统共享上下文,并根据各自的专长进行任务交接。

多智能体 AI 与单智能体 AI 有何区别?

单智能体系统使用一个模型一个系统指令来完成所有工作。多智能体系统则将工作分配给多个专门化的智能体,这些智能体可以使用不同的模型、指令和工具。

权衡: 多智能体系统能提供更好的专业化和并行执行能力,但需要额外的协调逻辑,并且会消耗更多的计算资源(代币)。

特性对比:单智能体 vs 多智能体系统

对比维度

单智能体系统

多智能体系统

架构

单体式

分布式

专业化

通才型

多个专业型智能体协作

可扩展性

有限(仅能垂直扩展)

高(支持水平扩展)

成本

需使用昂贵的大型模型

可混合使用不同规格的模型,但总令牌消耗量更大

故障模式

存在单点故障风险

故障可被隔离,但协调失败可能导致系统失效

相较于将更多指令塞进单个系统提示中,您构建的是专精于特定任务的专门化智能体,并在必要时进行协调。

多智能体系统如何工作?

每个智能体仍然遵循 感知 → 决策 → 行动 的基本循环。多智能体系统在此基础上增加了一个协调层

为了在实践中理解其工作原理,让我们来看一个客户支持系统的例子:

  1. 路由智能体读取收到的消息。

  2. 根据关键词,它判断这是一个账单问题

  3. 它将消息连同完整的对话上下文一起转发给账单专家智能体

  4. 账单智能体查询数据库,检查账户状态。

  5. 它生成一个回复,并将其转发给邮件智能体

  6. 邮件智能体格式化消息,并将电子邮件发送回客户。

这需要三个超越单智能体能力的关键新增组件:

  1. 智能体间通信:在专门化智能体之间传递数据和上下文,且不丢失信息。

  2. 共享记忆:在任务交接过程中保持状态,以便账单智能体知道路由智能体已经讨论过什么。

  3. 编排逻辑:决定由哪个智能体处理什么、何时交接、以及如何合并多个智能体的结果。

多智能体系统中的智能体如何通信?

智能体可以通过标准化协议或框架特定的方法进行协调:

  • 模型上下文协议:由Anthropic开发,标准化了智能体访问工具和外部资源的方式。

  • 智能体间协议:谷歌制定的用于点对点智能体协作的协议。

  • 自定义方法:框架特定的通信方式,如LangGraph的状态移交或CrewAI的任务委派。

大多数生产系统混合使用标准协议(用于工具访问)和自定义逻辑(用于工作流特定的协调)。通信可以是同步的(智能体等待响应)或异步的(消息队列),具体取决于架构模式。

💡 提示:智能体的协调方式取决于您的工作流模式。在n8n中了解4种实用的AI智能体工作流模式——从简单的链式请求到具有分布式决策能力的复杂多智能体团队。不同的协调方法适用于解决不同的问题。

多智能体系统的应用实例

我们刚才讨论的协调机制——智能体间通信、共享记忆、编排逻辑——已在生产系统中实际运行。多智能体架构日益成为一项内置功能,而非需要从零开始构建的东西。与其讨论理论示例,我们更关注那些您今天就能接触到的系统,以及有已验证实现的研究成果。

以下是目前已经存在的AI多智能体系统的一些常见应用类别:

客户支持: 平台通过专业化智能体来路由用户咨询:知名的例子包括 Intercom Fin、Respond.io、Inkeep。
深度研究: 这类系统将信息收集与后续的重新排序/总结进行并行化处理:例如 Perplexity、GPT Researcher 和通义深问。
软件开发: Cursor 2.0 可运行多达 8 个并行编码智能体;Claude Code 能启用 10 多个并行实例进行协调开发。
数据分析: 组织部署代表用户查询数据库的智能体。Shopify 使用 LibreChat 并连接了 30 多个 MCP 服务器来构建内部工具。cBioAgent 则利用类似的技术栈,使研究人员能够通过纯文本查询癌症基因组学数据。
内容创作: 研究论文展示了用于视频和动画制作的顺序精炼方法,以及 4 智能体流水线。

应用场景

具体应用

模式

客户支持

Intercom Fin 3

规程与模拟

Respond.io

基于角色的路由

深度研究

Perplexity

并行检索

GPT Researcher

规划器 + 执行器

通义深问

分层智能体

软件开发

Cursor 2.0

多达8个并行智能体

Claude Code

多实例并行

数据分析 (LibreChat示例)

Shopify

30+ MCP 工具服务器

cBioPortal

数据库查询智能体

Fetch FAST

BI 情报智能体

内容创作

EditDuet

编辑者 + 评审者

AniMaker

4智能体流水线

这些例子展示了三种反复出现的协调模式:

  • 基于交接: 专业化的智能体在流程各阶段之间传递上下文(如客户支持和数据分析)。

  • 并行执行: 多个智能体同时工作,然后合并结果(如研究、软件开发)。

  • 顺序精炼: 智能体分阶段处理,每个阶段都基于前一个阶段的输出进行构建(如内容创作)。

多智能体系统热门框架

在了解了多智能体系统能实现什么之后,接下来我们看看如何构建它们。可能的解决方案可以分为两类:用于快速开发的可视化构建器和用于精细控制的代码优先框架

可视化构建器与低代码平台
这些平台允许你使用图形界面设计智能体工作流。有些平台在可视化工具遇到限制时提供代码回退方案。

构建器

概述

多智能体系统用例示例

n8n

混合低代码/全代码平台,拥有1000多种集成并支持MCP。可视化工作流,需要时可进行JavaScript定制。

客户支持路由、文档处理流水线、数据丰富工作流等。

Flowise

基于LangChain/LlamaIndex的可视化构建器,内置用于多智能体系统的Agentflow。具有RAG能力的快速原型设计。

聊天机器人原型、RAG应用、LangChain工作流可视化。

Zapier Agents

Zapier 8000+应用生态系统的无代码扩展。仅限于提示词工程,无代码自定义。

简单的业务自动化、应用间数据同步、定时任务。

OpenAI AgentKit

基于OpenAI Agents SDK的新兴产品。结合了可视化构建器界面和用于自托管的SDK导出功能。仅限OpenAI模型。

原生OpenAI应用、具有SDK灵活性的快速智能体原型设计。

Vertex AI Agent Builder

Google Cloud托管平台,具有无代码界面和企业数据集成能力。

Google Cloud工作流、企业RAG、基于Gemini的智能体。

💡 提示:当你需要快速迭代、有非开发人员参与,或者希望将AI智能体与现有业务自动化结合时,可视化工具效果很好。

代码优先框架与SDK
这些框架使你能够以编程方式控制智能体行为、状态管理和协调模式。更适合复杂的自定义逻辑。

框架

概述

多智能体系统用例示例

框架

概述

多智能体系统用例示例

LangGraph

基于图的状态管理,对智能体工作流具有明确控制力。高级检查点和人工介入支持。

复杂的多步骤工作流、条件路由、依赖状态的智能体协调。

CrewAI

独立于LangChain的基于角色的团队框架。包括自治的Crews和事件驱动的Flows

协作研究团队、内容创作流水线、顺序任务执行。

AutoGen

跨Python/C#/Java/JS的对话式多智能体框架。具有群聊功能和集成的代码执行能力。

代码生成系统、对话式调试、对等智能体协作。

Google ADK

基于工作流的框架,支持A2A协议并与Vertex AI原生集成。

Google Cloud工作流、顺序/并行模式、基于循环的处理。

Semantic Kernel Agent Framework

面向C#/Python/Java的基于技能的架构,集成Azure。支持分层智能体模式。

企业.NET应用、Azure工作流、基于插件的系统。

SDK框架在以下情况最为适用:需要对智能体行为进行精确控制、有复杂的状态管理需求,或正在开发需要大量自定义的系统。

总结

今天,我们探讨了多智能体系统的架构、协调模式、实际应用以及可用的框架。

构建此类系统主要有三种不同的方式:

  1. 可视化构建:n8n 提供了混合选项——可视化工作流设计、需要时的代码回退能力,并且无厂商锁定。对于非开发者来说,它比纯粹的无代码方案(如 Zapier)更强大,又比代码优先框架开发更快。

  2. 代码优先开发:各种 SDK 提供了对状态管理和协调逻辑的精确控制。可以根据团队擅长的编程语言进行选择。需要注意的是,Google ADK 和 Microsoft Semantic Kernel 主要为其各自的云生态系统进行了优化。

  3. 企业级平台:AWS Bedrock、Google Vertex AI 和 Azure 提供了托管基础设施。选择这类 SDK 往往意味着用厂商锁定来换取托管的便利性。需要根据你的多云策略来评估。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐