多智能体架构详解：四种模式及其实践，助力高效构建智能系统（收藏级教程）

文章介绍了多智能体架构的必要性及四种主要模式：子智能体（集中式编排）、技能（渐进式上下文加载）、移交（基于状态的动态切换）和路由（并行分发与结果合成）。分析了各模式的适用场景、性能特性和使用场景，并通过对比不同任务类型展示了各模式的优劣。最后提到LangChain可帮助高效构建多智能体系统。

模型优化师

608人浏览 · 2026-01-17 09:15:00

模型优化师 · 2026-01-17 09:15:00 发布

在这篇文章中，我们将探讨：

多智能体（Multi-Agent）架构在什么时候变得必要
四种主要模式
LangChain 如何赋能我们高效地构建多智能体系统

大多数 Agentic（智能体驱动）任务，最佳实践是从配备精心设计的工具集的单一智能体开始。单一智能体在构建、推理和调试上都更简单。但随着应用规模扩大，团队常常面临一个普遍挑战：他们希望将大量分散的能力整合到一个统一、连贯的接口中。随着待组合的功能不断增多，两个核心约束逐渐显现：

上下文管理：每个专有能力的领域知识难以全部塞入单一的提示词中。如果上下文窗口无限且延迟为零，我们可以预先加载所有信息；但现实中，必须设计策略，在智能体工作过程中有选择地呈现相关上下文。
分布式开发：不同团队独立开发和维护各自的能力模块，需要清晰的边界和所有权归属。单一的巨型提示词在跨团队协作时极难维护。

当你需要管理海量领域知识、跨团队协调，或处理真正复杂的任务时，这些约束会变得至关重要。此时，多智能体架构往往是更合适的选择。

Anthropic近期的研究表明，多智能体系统在上述场景中表现显著优于单体。在 Anthropic 的多智能体研究系统中，以 Claude Opus 4 作为主管智能体（ lead agent）、Claude Sonnet 4 作为子智能体（sub-agent）的架构，在内部评测中比单一 Claude Opus 4 提升了 90.2%。该架构能够将工作分配给具有独立上下文窗口的智能体，从而实现单个智能体无法实现的并行推理。

https://www.anthropic.com/engineering/multi-agent-research-system

多智能体架构模式

大多数多智能体应用都建立在以下四种基础架构模式之上：子智能体（Subagents）、技能（Skills）、移交（Handoffs） 和 路由（Routers）。每种模式在任务协调、状态管理和阶段解锁方式上各有侧重。下面提供一个决策框架，帮助你根据核心约束选择最合适的模式。

子智能体：集中式编排

主管智能体（supervisor agent）将专用子智能体作为工具调用来进行协调。主管智能体维护完整对话上下文，子智能体保持无状态，从而实现强上下文隔离。

工作原理：主管智能体决定调用哪些子智能体、传入何种输入、如何整合输出。所有路由决策都由主管智能集中掌控，支持并行调用多个子智能体。

适用场景：存在多个清晰区隔的领域、需要集中式工作流控制、子智能体无需直接与用户对话的系统。例如：协调日历、邮件与 CRM 的个人助理，或将子任务委派给领域专家的研究系统。

核心权衡：每次交互增加一次额外的模型调用（输出需回传主管智能体），带来延迟和 token 成本的增加，但换取了集中控制与上下文隔离。

技能：渐进式上下文加载

智能体按需动态加载专用的提示词、知识和行为。可以将其视为智能体能力的渐进式披露（progressive disclosure）。

虽然技术上仍为单一智能体，但通过动态切换专精角色，它在分布式开发、细粒度上下文控制等方面具备了多智能体系统的许多优势。我们因此（或许略带争议地）将其归类为准多智能体架构。

工作原理：技能以目录形式封装，包含指令、脚本和资源文件。启动时智能体仅知道所有技能名称与简述；当需要相关技能时再加载完整上下文；更深层细节技能文件仅在需要时被发现。

适用场景：单一智能体需支持大量专精、无需强制能力间隔离、或由不同团队分别维护不同技能的场景。典型例子：代码智能体、创意写作助手等。

核心权衡：技能加载会导致对话历史上下文持续累积，容易引发后续调用的 token 膨胀。但整体实现简单，且全程保持直接用户交互体验。

移交：基于状态的动态切换

活跃智能体根据对话上下文动态变化。每个智能体均可通过工具调用将控制权移交给其他智能体。

工作原理：调用移交工具时更新全局状态，决定下一轮激活哪个智能体（或修改当前智能体的系统提示与工具集）。状态跨轮次持久化，支持顺序依赖的工作流。

适用场景：分阶段收集信息的客服流程、多阶段对话体验，或任何具有严格顺序约束、能力需在前置条件满足后逐步解锁的场景。

核心权衡：状态管理更复杂，但多轮交互更自然，上下文可在阶段间平滑传递。

路由：并行分发与结果合成

先通过路由步骤对输入进行分类/分解，然后并行分发给专用智能体，最后合成最终回答。

工作原理：路由智能体通常无状态，对每个请求独立处理；分解查询后并行调用 0 个或多个专用智能体，并整合输出。

适用场景：具有多个独立垂直领域、需要并行查询多源信息、或必须合成多方结果的系统。例如企业知识库、多垂直客服助手等。

核心权衡：无状态保证单次请求性能稳定，但若需维持对话历史，则路由开销会重复出现。可通过将路由智能体封装为有状态对话智能体的工具来缓解。

需求与模式的匹配

在决定是否采用多智能体之前，先对照你的核心需求：

你的核心需求	推荐模式
多个清晰区隔的领域（日历/邮件/CRM），需并行执行	子智能体
单一智能体承载大量专精，轻量级组合	技能
顺序工作流 + 状态切换，全程保持用户对话	移交
不同垂直领域，并行多源查询并合成结果	路由

各模式对常见需求的支撑程度对比：

模式	分布式开发	并行执行	多跳支持	直接用户交互
子智能体	★★★★★	★★★★★	★★★★★	★
技能	★★★★★	★★★	★★★★★	★★★★★
移交	—	—	★★★★★	★★★★★
路由	★★★	★★★★★	—	★★★

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

性能特性

架构选择直接影响延迟、成本和用户体验。我们分析了三种代表性场景，来了解不同模式在真实条件下的表现。

场景 1：单次请求

用户发出单一请求：“买杯咖啡”。一个专精智能体可以直接调用 buy_coffee 工具来完成。

模式	模型调用次数	备注
子智能体	4	结果需流回主管智能体
技能	3	直接执行
移交	3	直接执行
路由	3	直接执行

子智能体

移交

技能

路由

对于单次任务，**移交、技能和路由是最高效的模式（各仅需 3 次模型调用）。**子智能体多出一次调用，是因为所有结果必须回传给主管代理进行整合与决策。这种额外开销换来了更强的集中式控制能力（如后续场景所示）。

这个对比突显了不同架构在简单、一次性任务上的性能差异：子智能体模式牺牲少量效率以换取更好的隔离与协调，而其他三种模式则优先追求低延迟和低成本。

场景 2：重复请求

用户在同一对话中连续两次发出相同请求（连续两次买咖啡）：

第 1 轮：买杯咖啡
第 2 轮：再买一杯咖啡

模式	第 2 轮调用次数	总调用次数	效率提升（相对子智能体）
子智能体	4	8	—
技能	2	5	40%
移交	2	5	40%
路由	3	6	25%

具有状态保持特性的模式（移交和****技能）在重复请求时显著降低调用次数，效率提升可达 40%（甚至更高，视具体实现而定）。它们通过保留对话上下文，避免了重复的初始化和推理开销。

相比之下，子智能体采用无状态设计，每轮请求的成本保持一致（均为 4 次调用），总计 8 次。这种一致性带来了极强的上下文隔离和可预测性，但代价是重复请求时无法复用先前计算，导致总调用次数最高。

移交第二次产生2次调用，总共5次调用

咖啡智能体仍处于第1轮的状态（状态保持）
无需切换——智能体直接调用 buy_coffee 工具（调用 1）
智能体响应用户（调用 2）
跳过切换，节省1次调用

技能第二次产生2次调用，总共5次调用

技能上下文已加载到对话历史记录中
无需重新加载——智能体直接调用 buy_coffee 工具（调用 1）
智能体回复用户（调用 2）
通过重用已加载的技能，节省 1 次调用

路由处于中间状态：由于无状态，每次仍需完整路由决策，因此效率提升仅为 25%，但仍优于纯子智能体模式。

总结对比：

如果你的应用频繁出现重复或高度相似的用户意图（例如连续下单、多次查询相似信息），优先选择技能或移交模式，能显著降低延迟、token 消耗和整体成本。
如果更看重严格的上下文隔离、可观测性和跨团队独立开发，即使在重复场景下也愿意接受固定开销，则子智能体仍是更稳健的选择。

场景 3：多领域查询

用户提问：“比较 Python、JavaScript 和 Rust 用于 Web 开发。”

假设每个语言对应的专精智能体/技能模块包含约 2000 token 的文档内容。所有模式均支持并行工具调用。

模式	模型调用次数	总 token 消耗（约）	备注
子智能体	5	~9K	各子智能体独立工作，上下文完全隔离
技能	3	~15K	上下文逐步累积，导致 token 显著膨胀
移交	7+	~14K+	必须顺序执行，无法充分利用并行调用
路由器	5	~9K	并行执行，路由 + 合成阶段

在多领域（multi-domain）任务中，具备并行执行能力的模式（子智能体 和路由）整体效率最高。它们能够同时咨询多个专精领域，调用次数和 token 消耗均保持在较低水平。

技能虽然模型调用次数最少（仅 3 次），但由于所有专精知识逐步加载到同一对话上下文中，导致 token 消耗急剧上升（约 15K），出现明显的“上下文膨胀”（context accumulation）问题。
移交受限于顺序执行特性，无法并行咨询多个语言领域，因此调用次数显著增加（7 次以上），token 消耗也较高（~14K+）。
子智能体和路由均只需约 5 次调用、~9K token，且得益于并行处理和上下文隔离，性能表现最佳。

子智能体

移交

技能

路由

特别值得注意的量化优势：在该场景下，子智能体相比技能总体 token 消耗减少约****67%（9K vs 15K）。核心原因在于：每个子智能体仅加载并操作与其领域高度相关的上下文（约 2000 token + 少量任务指令），而不会像技能模式那样将多个领域的完整文档累积到单一对话历史中，从而有效避免了 token 浪费和后续提示过长导致的性能退化。

总结对比