一、通俗理解

这篇文档是Anthropic给开发者的「LLM智能体搭建指南」,核心就一句话:不用搞复杂框架,靠简单可组合的模式,就能做出高效的智能体,优先选简单方案,别没必要加复杂度。

先搞懂两个关键概念

  • 工作流:步骤都是提前写好的,LLM和工具按固定路径干活,比如固定“生成文案→翻译”的流程,适合任务明确的情况。
  • 智能体:LLM自己说了算,能动态规划流程、选工具,不用人预设步骤,适合需要灵活应对的场景。 简单说,工作流是“按剧本走”,智能体是“临场发挥”。

什么时候该用(或不用)智能体?

  • 能靠简单提示词搞定的,就别搞智能体(比如单纯生成一段文字);
  • 任务步骤固定、要求一致,用工作流就行(比如固定模板的客服回复);
  • 问题开放、步骤没法预测,需要模型自己决策,才用智能体(比如让模型自主解决复杂编程问题);
  • 智能体虽强,但费钱、耗时,得权衡清楚再用。

核心搭建工具和模式

  • 基础:先给LLM加“外挂”,比如让它能查资料、用工具、记信息,这些功能要定制化,接口得简单好⽤。
  • 5种实用工作流(按需求选):
  1. 提示链:把大任务拆成小步骤,一步一步处理,中间还能检查有没有跑偏(比如先写大纲→检查大纲→写全文);
  2. 路由:先给输入分类,再导去对应的处理方式(比如把客服咨询分成“退款”“技术问题”,分别对接不同工具);
  3. 并行化:要么同时做多个独立子任务,要么一个任务多试几次取优(比如一个模型处理用户查询,另一个筛查不当内容);
  4. 协调者-执行者:一个核心LLM拆分任务,分给其他LLM做,最后汇总结果(比如复杂编程任务,拆成多个文件修改,分给不同模型处理);
  5. 评估者-优化者:先生成结果,再用另一个LLM评估提意见,循环优化(比如翻译后,让评估模型挑问题,再修改)。
  • 智能体本身:能自己规划、用工具,还能根据环境反馈调整,适合开放式问题,但要提前在安全环境测试,加好“防护栏”,避免出错累积。

搭建时的关键提醒

  • 框架能用但别迷信:很多框架能简化操作,但要懂它的底层逻辑,别被抽象层遮住问题,简单方案够⽤就别瞎加复杂度;
  • 工具比提示词还重要:工具的设计要简单,别让模型难操作(比如让模型用绝对文件路径,别用容易出错的相对路径),还要写清楚使用说明;
  • 核心原则:保持设计简洁、让智能体的规划步骤透明可见、把工具和智能体的交互接口做好。

实际能用在这些场景

  • 客户支持:结合聊天界面和工具,调取客户订单、自动退款,还能按解决结果收费;
  • 编程辅助:让智能体自主修改多个文件、解决代码漏洞,靠自动化测试验证效果,再配合人工审核。

二、原文内容

我们曾与数十个来自不同行业、正在构建LLM智能体的团队合作。我们发现,最成功的实施方案始终采用简单的可组合模式,而非复杂框架。

过去一年里,我们与数十个跨行业构建大型语言模型(LLM)智能体的团队展开合作。这些成功案例的共性是,它们并未使用复杂框架或专用库,而是基于简单的可组合模式进行搭建。

在本文中,我们将分享从客户合作及自主构建智能体过程中总结的经验,并为开发者提供构建高效智能体的实用建议。

什么是智能体?

“智能体(Agent)”的定义有多种。部分客户将其定义为可长期独立运行的完全自主系统,能借助各类工具完成复杂任务;另一些客户则用该术语描述遵循预定义工作流的指令式实施方案。在Anthropic,我们将所有这些变体归类为“智能体系统”,但在架构上明确区分“工作流”与“智能体”:

  • 工作流:通过预定义代码路径协调LLM与工具运作的系统。
  • 智能体:由LLM动态自主指导自身流程和工具使用,全程掌控任务完成方式的系统。

下文将详细探讨这两类智能体系统。附录1《实际应用中的智能体》将介绍两个客户已验证其核心价值的应用领域。

何时(以及何时不)使用智能体?

基于LLM开发应用时,我们建议优先选择最简单的解决方案,仅在必要时增加复杂度——这可能意味着完全无需构建智能体系统。智能体系统通常需以延迟和成本为代价换取更优的任务表现,你需判断这种权衡是否合理。

若确实需要更高复杂度:工作流适用于定义明确的任务,能提供可预测性和一致性;而当场景需要规模化的灵活性与模型驱动决策时,智能体是更优选择。不过对多数应用而言,通过检索增强和上下文示例优化单次LLM调用,往往已能满足需求。

何时及如何使用框架?

目前有许多框架可简化智能体系统的实现,包括:

  • LangChain旗下的LangGraph;
  • 亚马逊Bedrock的AI Agent框架;
  • Rivet(拖放式图形界面LLM工作流构建工具);
  • Vellum(另一款用于构建和测试复杂工作流的图形界面工具)。
https://langchain-ai.github.io/langgraph/
https://aws.amazon.com/bedrock/agents/
https://rivet.ironcladapp.com/
https://www.vellum.ai/

这些框架通过简化LLM调用、工具定义与解析、调用串联等标准底层任务,降低了入门门槛。但它们往往会增加额外抽象层,掩盖底层的提示词和响应,导致调试难度上升;同时可能诱使开发者在简单方案已足够的情况下,过度增加复杂度。

我们建议开发者先直接使用LLM API:许多模式仅需几行代码即可实现。若确实要使用框架,务必理解其底层代码——对底层逻辑的错误假设,是客户常见的出错原因。

相关示例实现可参考我们的开发指南(cookbook)。

https://github.com/anthropics/anthropic-cookbook/tree/main/patterns/agents

构建模块、工作流与智能体

本节将探讨我们在生产环境中观察到的智能体系统通用模式。我们将从基础构建模块(增强型LLM)入手,逐步提升复杂度,依次介绍简单的可组合工作流与自主智能体。

构建模块:增强型LLM

智能体系统的基础构建模块,是经检索、工具、记忆等功能增强后的LLM。我们当前的模型已能主动运用这些能力——自主生成搜索查询、选择合适工具,并决定需保留的信息。

我们建议重点关注实施的两个关键方面:一是根据你的具体用例定制这些功能,二是确保它们为你的大语言模型(LLM)提供简洁易用且文档完善的接口。实现这些增强功能的方式有很多,其中一种是通过我们最近发布的模型上下文协议(Model Context Protocol)——开发者只需简单实现客户端,就能集成到日益壮大的第三方工具生态中。

https://www.anthropic.com/news/model-context-protocol
https://modelcontextprotocol.io/tutorials/building-a-client#building-mcp-clients

在本文的后续部分,我们将默认每次大语言模型调用都能使用这些增强功能。

工作流:提示链(Prompt Chaining)

提示链将一项任务分解为一系列步骤,每次大语言模型调用都会处理上一步的输出结果。你可以在任何中间步骤添加程序化检查(见下图中的“网关”),确保流程始终按预期推进。

提示链工作流的适用场景

该工作流适用于任务可被轻松、清晰分解为固定子任务的情况。其核心目标是通过让每次大语言模型调用处理更简单的任务,以延迟换取更高准确性。

提示链的实用示例

  • 生成营销文案后,将其翻译成另一种语言。
  • 先拟定文档大纲,检查大纲是否符合特定要求,再根据大纲撰写完整文档。

如果你也想通过学大模型技术去帮助自己升职和加薪,可以扫描下方链接【保证100%免费】👇👇
​​
在这里插入图片描述

工作流:路由(Routing)

路由会对输入内容进行分类,并将其导向专门的后续任务。该工作流支持关注点分离,还能构建更具针对性的提示词。若缺少此工作流,针对某类输入的优化可能会影响其他输入的处理性能。

路由工作流的适用场景

路由适用于复杂任务——这类任务存在明显不同的分类,且每种分类更适合单独处理;同时,分类工作需能准确完成(可通过大语言模型或更传统的分类模型/算法实现)。

路由的实用示例

  • 将不同类型的客户服务咨询(通用问题、退款申请、技术支持)导向不同的下游流程、提示词和工具。
  • 将简单/常见问题分配给体积更小、成本更低的模型(如Claude Haiku 4.5),将复杂/特殊问题分配给功能更强的模型(如Claude Sonnet 4.5),以实现性能最优。

工作流:并行化(Parallelization)

大语言模型有时可同时处理一项任务,并通过程序化方式聚合输出结果。这种并行化工作流主要有两种核心形式:

  • 分段处理(Sectioning):将任务拆分为独立子任务,并行执行。
  • 投票机制(Voting):对同一任务执行多次调用,获取多样化输出。

并行化工作流的适用场景

当拆分后的子任务可通过并行处理提升速度,或需要多个视角/多次尝试以获得更可靠的结果时,并行化会非常有效。对于涉及多方面考量的复杂任务,大语言模型通常在每次调用专注处理一个具体方面时表现更好。

并行化的实用示例

  • 分段处理:
  • 实现安全护栏功能——一个模型实例处理用户查询,另一个同时筛查内容是否包含不当信息或请求。这种方式通常比让单次大语言模型调用同时处理安全护栏和核心响应的效果更好。
  • 自动化评估大语言模型性能——每次大语言模型调用评估模型在特定提示词下的一个不同性能维度。
  • 投票机制:
  • 审查代码漏洞——通过多个不同的提示词审查代码,若发现问题则标记。
  • 判断某一内容是否不当——使用多个提示词评估不同维度,或设置不同投票阈值,以平衡误判率和漏判率。

工作流:协调者-执行者(Orchestrator-workers)

在协调者-执行者工作流中,一个核心大语言模型(LLM)会动态拆分任务,将其分配给执行者大语言模型,并综合它们的结果。

协调者-执行者工作流的适用场景

该工作流适合复杂任务——这类任务无法提前预测所需子任务(例如在编程中,需要修改的文件数量及每个文件的修改性质通常取决于具体任务)。它在结构上与并行化类似,但核心区别在于灵活性:子任务并非预先定义,而是由协调者根据具体输入动态确定。

协调者-执行者的实用示例

  • 每次需对多个文件进行复杂修改的编程类产品开发。
  • 需从多个来源收集并分析潜在相关信息的搜索任务。

工作流:评估者-优化者(Evaluator-optimizer)

在评估者-优化者工作流中,一次大语言模型调用生成响应,另一次则在循环中提供评估和反馈。

评估者-优化者工作流的适用场景

当存在明确的评估标准,且迭代优化能带来可量化价值时,该工作流尤为有效。判断其是否适用的两个关键特征:一是当人类明确给出反馈时,大语言模型的响应能得到显著改进;二是大语言模型本身具备提供此类反馈的能力。这类似于人类作者创作高质量文档时所经历的迭代写作过程。

评估者-优化者的实用示例

  • 文学翻译——翻译大语言模型最初可能无法捕捉到某些细微差异,但评估者大语言模型可提供有用的修改意见。
  • 复杂搜索任务——需多轮搜索和分析才能收集全面信息,由评估者判断是否需要进一步搜索。

智能体(Agents)

随着大语言模型在关键能力上的成熟——理解复杂输入、进行推理与规划、可靠使用工具、从错误中恢复——智能体已开始投入实际应用。智能体的工作始于人类用户的指令或交互式讨论。任务明确后,智能体将独立规划和执行操作,必要时会向人类寻求更多信息或判断。在执行过程中,智能体必须在每一步从环境中获取“真实情况”(如工具调用结果或代码执行反馈),以评估进展。智能体可在检查点或遇到障碍时暂停,等待人类反馈。任务通常在完成后终止,但设置停止条件(如最大迭代次数)以保持控制也很常见。

智能体能够处理复杂任务,但其实现往往较为简单。它们本质上是大语言模型在循环中根据环境反馈使用工具。因此,清晰、周全地设计工具集及其文档至关重要。我们在附录2《工具的提示词工程》中详细阐述了工具开发的最佳实践。

自主智能体(Autonomous agent)

智能体的适用场景

智能体适用于开放式问题——这类问题难以或无法预测所需步骤,且无法硬编码固定流程。大语言模型可能需要多轮交互,你必须对其决策能力有一定程度的信任。智能体的自主性使其非常适合在可信环境中规模化处理任务。

智能体的自主性意味着更高的成本,且可能出现错误累积的情况。我们建议在沙箱环境中进行充分测试,并设置相应的安全护栏。

智能体的实用示例

以下示例来自我们自己的实践:

  • 用于解决SWE-bench任务的编程智能体——这类任务需根据任务描述修改多个文件;
  • 我们的“计算机使用”参考实现——Claude通过操作计算机完成各类任务。
https://www.anthropic.com/research/swe-bench-sonnet
https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo

组合与定制这些模式

这些基础组件并非强制性规范,而是开发者可根据不同用例调整和组合的通用模式。与所有大语言模型(LLM)功能一样,成功的关键在于衡量性能并迭代优化实现。再次强调:仅当复杂性能显著改善结果时,才考虑增加它。

总结

在大语言模型领域取得成功,并非要构建最复杂的系统,而是打造契合自身需求的系统。从简单提示词起步,通过全面评估优化它们,仅当更简单的解决方案无法满足需求时,再添加多步骤智能体系统。

实施智能体时,我们尝试遵循三大核心原则:

  1. 保持智能体设计的简洁性。
  2. 优先保证透明度,明确展示智能体的规划步骤。
  3. 通过详尽的工具文档和测试,精心设计智能体-计算机接口(ACI)。

框架能帮助你快速上手,但进入生产阶段时,不妨减少抽象层,使用基础组件进行构建。遵循这些原则,你打造的智能体不仅功能强大,还能具备可靠性、可维护性,并获得用户信任。

致谢

本文由埃里克·施伦茨(Erik Schluntz)和巴里·张(Barry Zhang)撰写。此项工作基于我们在Anthropic构建智能体的实践经验,以及客户分享的宝贵见解,在此深表感谢。

附录1:智能体的实际应用

我们与客户的合作显示,AI智能体有两个特别具前景的应用场景,充分体现了上述模式的实用价值。这两个场景均表明,智能体在以下任务中能发挥最大价值:需要对话与行动结合、有明确成功标准、支持反馈循环,且融入有意义的人工监督。

A. 客户支持

客户支持将常见的聊天机器人界面与工具集成带来的增强功能相结合,非常适合更开放式的智能体,原因如下:

  • 支持交互自然遵循对话流程,同时需要获取外部信息和执行操作;
  • 可集成工具以调取客户数据、订单历史和知识库文章;
  • 退款发放、工单更新等操作可通过程序化处理;
  • 成功与否可通过用户定义的解决标准明确衡量。

已有多家公司通过按使用量计费的定价模式(仅对成功解决的案例收费)验证了该方案的可行性,这也体现了他们对自身智能体有效性的信心。

B. 编程智能体

软件开发领域对大语言模型功能的应用潜力显著,其能力已从代码补全演进到自主解决问题。智能体在此领域格外高效,原因如下:

  • 代码解决方案可通过自动化测试验证;
  • 智能体能以测试结果为反馈,迭代优化解决方案;
  • 问题领域定义清晰、结构规整;
  • 输出质量可客观衡量。

在我们自己的实现中,智能体现在仅根据拉取请求(PR)描述,就能解决SWE-bench Verified基准测试中的真实GitHub问题。不过,尽管自动化测试有助于验证功能,但人工审核仍至关重要,以确保解决方案符合更广泛的系统需求。

附录2:工具的提示词工程

无论你构建何种智能体系统,工具都可能是核心组成部分。工具能让Claude通过在API中指定其精确结构和定义,与外部服务及API交互。当Claude需要调用工具时,会在API响应中包含工具使用块。工具的定义和规范,应获得与整体提示词同等程度的提示词工程关注。本附录将简要介绍如何对工具进行提示词工程优化。

同一操作通常有多种指定方式。例如,可通过编写差异文件(diff)或重写整个文件来指定文件修改;对于结构化输出,可将代码放在Markdown或JSON中返回。在软件工程中,这些差异仅为表面形式,可无损转换,但有些格式对大语言模型而言更难编写。编写差异文件需要在写入新代码前,先确定代码块头部的修改行数;将代码放入JSON(相比Markdown)则需要额外对换行符和引号进行转义。

关于工具格式的选择,我们的建议如下:

  • 为模型分配足够的词元,使其能“思考周全”,避免陷入无法挽回的困境。
  • 选择与模型在互联网文本中常见的格式相近的样式。
  • 避免存在格式“额外负担”的设计,例如需要准确统计数千行代码的数量,或对编写的代码进行字符串转义。

一个经验法则是:参考人机交互(HCI)的投入程度,为打造良好的智能体-计算机接口(ACI)投入同等精力。以下是具体实施思路:

  • 换位思考:基于描述和参数,工具的使用方式是否清晰易懂?是否需要仔细琢磨?如果是,模型大概率也会有同样感受。优质的工具定义通常包含使用示例、边缘情况、输入格式要求,以及与其他工具的明确边界。
  • 如何修改参数名称或描述使其更直观?可将其视为为团队新入职开发者编写优质文档字符串。当使用多个相似工具时,这一点尤为重要。
  • 测试模型对工具的使用:在工作台中运行大量示例输入,观察模型出现的错误并迭代优化。
  • 对工具进行防错优化(Poka-yoke):调整参数设计,降低出错概率。

在构建SWE-bench智能体时,我们实际上在工具优化上投入的时间比整体提示词更多。例如,我们发现当智能体离开根目录后,使用相对文件路径的工具会出现错误。为解决这一问题,我们将工具修改为必须使用绝对文件路径——之后模型便能完美使用该工具。

​最后

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包:

  • ✅AI大模型学习路线图
  • ✅Agent行业报告
  • ✅100集大模型视频教程
  • ✅大模型书籍PDF
  • ✅DeepSeek教程
  • ✅AI产品经理入门资料

如果你也想通过学大模型技术去帮助自己升职和加薪,可以扫描下方链接【保证100%免费】👇👇
​​
在这里插入图片描述

为什么说现在普通人就业/升职加薪的首选是AI大模型?

人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。

img
智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200% ,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

在这里插入图片描述

​​
在这里插入图片描述

资料包有什么?

①从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

② AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

在这里插入图片描述

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

在这里插入图片描述

④各大厂大模型面试题目详解

在这里插入图片描述

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

​​​​在这里插入图片描述
在这里插入图片描述

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐