Anthropic：这样构建Agent，性能提升90%！

今天，咱们来复盘一下Anthropic最新分享的关于多智能体系统构建的常委呢，他们几乎毫无保留地分享了如何从0到1构建一个强大的多智能体（Multi-Agent）DeepResearch系统，就是Claude现在内置的那个Research功能。

人工智能小豪

796人浏览 · 2026-01-12 10:51:14

人工智能小豪 · 2026-01-12 10:51:14 发布

整个内容的干货密度极高，从架构设计、Prompt工程、效果评估到生产环境的各种坑，全都给咱们交了底。但是原文又巨冗长，所以尽量简单给家人们分享一下精髓内容。

多智能体系统 why?

为什么放着单个强大的模型不用，非要搞复杂的“多智能体”？

Anthropic用数据说话：在内部研究评估中，一个由Claude Opus 4当“领导”，多个Claude Sonnet 4当“员工”的智能体系统，性能比单打独斗的Opus 4高出整整90.2%！

背后的逻辑很简单粗暴：花足够多的Token来解决问题。

Token使用量本身解释了80%的性能差异。多智能体架构通过并行处理，让多个Agent同时在各自的上下文中思考和搜索，本质上是扩展了解决问题所投入的“算力”和“思考容量”，尤其擅长处理那些需要“广度优先”探索的复杂问题。

当然，缺点也同样明显：烧钱。多智能体系统消耗的Token大约是普通聊天的15倍。所以，这套玩法更适合那些价值足够高、能承受高成本的复杂任务。

这里的观点跟上周五分享的，langchain最新博客的观点是一致的，非模型即产品的Agentic系统 - 多智能体才是未来。

架构

Anthropic的研究系统采用的是经典的 Orchestrator-Worker 模式。一个 Lead Agent 负责协调整个流程，并将任务拆解给多个并行的专业子Agent（Subagents）。

其实整个工作流描述下来非常清晰：

用户提问：系统创建一个Lead Agent。
规划：Lead Agent思考并制定研究计划，把计划存入外部“记忆”，防止上下文过长被截断。
分派：创建多个专业的Subagents，分配具体的研究任务。
执行：每个 Subagents 独立进行网络搜索、调用工具，并利用“交错思考”（interleaved thinking）来评估结果、调整下一步行动。
汇总：子Agent将发现返回给Lead Agent。
综合与迭代：Lead Agent 综合所有信息，判断是否需要更多研究。如果需要，就启动新一轮的 Subagents 。
引用与生成：信息足够后，系统会将所有发现交给一个专门的“引文Agent”（CitationAgent），确保所有结论都有据可查，最后生成带引用的完整报告。

Prompt工程还是无比重要！

多智能体系统的复杂性指数级增长，可能很容易出现 “一个简单问题派出50个Agent” 的失控场面。

Prompt工程是约束和引导Agent行为的核心。他们总结了8条黄金法则：

像你的Agent一样思考：在Console里模拟Agent的工作流程，一步步观察它的行为，才能直观地发现问题所在。
教会Lead Agent如何描述子任务：给子Agent的任务描述必须清晰，包括目标、输出格式、使用工具和任务边界。简单的“去研究一下XX”是绝对不够的。
根据任务复杂度伸缩投入：在Prompt中明确规定不同难度任务的资源配比。简单查证用1个Agent，复杂研究动用10+个Agent，避免杀鸡用牛刀。
工具设计和选择至关重要：工具的描述必须清晰、有区分度。同时要给Agent一些启发式规则，比如“先看一遍所有可用工具再做决定”。
让Agent自我改进：Anthropic创建了一个“工具测试Agent”。它会反复试用一个新工具，然后自动重写工具的描述文档，让后续的Agent能用得更顺手。结果是任务完成时间减少了40%。
先广后窄：引导Agent像人类专家一样研究，先用宽泛的查询了解全貌，再逐步缩小范围，而不是一上来就用一个又长又窄的查询，结果啥也搜不到。
引导思考过程：使用“思考模式”（extended thinking）让Agent把思考过程写下来。Lead Agent 用它来规划，子Agent用它来评估每一步的工具调用结果。
并行工具调用改变游戏规则：让 Lead Agent 并行分派子Agent，再让每个子Agent并行调用工具，这两层并行直接将复杂查询的耗时减少了90%。

如何评估Agent？

评估Agent不能像传统软件测试一样，检查它是否走了预设的“正确”路径。因为通往正确答案的路不止一条。Anthropic的心得是：

立即开始小样本评估

早期开发阶段，一个Prompt微调可能让成功率从30%飙到80%，这种巨大变化用20个测试用例就能看出来。不要等到想构建几百个用例的完美评估系统了才动手。

用LLM当裁判

对于研究这类开放式输出，让LLM根据一个标准化的评分表（如事实准确性、引用准确性、完整度、信源质量等）来打分，是兼具扩展性和一致性的好方法。

真人测试必不可少

自动化评估总有盲点。比如，真人测试员发现早期Agent总爱选SEO过度的内容农场，而不是权威的学术PDF。这些细微的偏好只能靠人来发现。

从原型到产品：4大天坑

能跑起来的Agent原型和稳定可靠的生产系统之间，隔着巨大的鸿沟。四大工程“天坑”：

错误恢复

Agent是长时运行的，一旦出错不能简单从头再来（成本太高）。必须建立能在错误发生处恢复的机制，并让Agent学会优雅地处理工具失灵等问题。

非确定性下的监控

Agent的行为是动态且不完全可复现的，这让调试变得异常困难。唯一的办法是建立完善的生产环境追踪系统，监控Agent的决策模式和交互结构。

部署协调

线上随时有大量Agent在运行中，不能暴力更新。他们使用“rainbow deployments”来平滑地将流量从旧版本迁移到新版本，保证服务不中断。

同步的瓶颈

目前系统是同步的，Lead Agent必须等一批子Agent全部完成后才能进行下一步，这很慢。未来向异步执行演进是必然趋势，尽管这会带来状态一致性、错误传递等新的挑战。

三个压箱底的Pro-Tips

对于会改变环境状态的Agent（比如操作数据库），不要去评估过程，而是评估它最终是否达成了正确的状态。
当对话轮次过多时，让Agent主动总结已完成的阶段性工作，存入外部记忆，然后带着干净的上下文继续，通过“记忆”来保持连续性。
与其让子Agent把大块的结构化结果（代码、报告）通过对话历史传给主Agent（这会失真且昂贵），不如让它直接调用工具将产出物存到文件系统，再把轻量的“引用/指针”传回去。这能最大化保证并降低Token成本。

好了，这就是我今天想分享的内容。如果你对构建AI智能体感兴趣，别忘了点赞、关注噢~

想入门 AI 大模型却找不到清晰方向？备考大厂 AI 岗还在四处搜集零散资料？别再浪费时间啦！2025 年 AI 大模型全套学习资料已整理完毕，从学习路线到面试真题，从工具教程到行业报告，一站式覆盖你的所有需求，现在全部免费分享！

👇👇扫码免费领取全部内容👇👇