大模型Agents开发：小白程序员必备的实用构建指南（收藏版）

本文介绍了构建高效大模型Agents系统的核心设计理念，强调“实用优先、简洁可控、按需适配”。核心原则包括：最小复杂度优先，架构按需匹配，模块化可组合，透明可控为基，人机协同赋能。推荐从简单的增强型LLM开始，逐步根据需求选择提示词链、路由、并行化等workflows模式，或构建自主Agents。文章还提供了工具Prompt engineering的优化建议，强调清晰、周全的工具设计对提升系统可靠

AI-椰子不椰

304人浏览 · 2026-02-16 16:55:56

AI-椰子不椰 · 2026-02-16 16:55:56 发布

Anthropic:高效构建Agents设计理念

High-level flow of a coding agent

高效构建Agents的设计理念

始终贯穿“实用优先、简洁可控、按需适配”的逻辑。

1. 最小复杂度优先，拒绝过度设计

这是最核心的底层理念：构建LLM相关系统时，优先采用最简单的解决方案(如单次LLM调用+检索/上下文示例)，仅在简单方案无法满足性能需求时，才逐步增加复杂度(如多步骤workflows、Agents)。本质是避免为追求“复杂先进”而牺牲效率，始终权衡 latency、成本与任务性能的平衡，不盲目堆砌功能或依赖复杂框架。

2. 架构按需匹配，不搞“一刀切”

根据任务特性选择合适的智能Agents系统类型，强调“架构适配场景”而非“技术驱动选择”：

对定义明确、需可预测性和一致性的任务，采用预定义路径的“workflows”；
对开放式、需灵活性和模型动态决策的任务，采用自主导向的“Agents”；
对无需多步骤协作的简单任务，直接使用基础LLM能力，不引入额外层级。

3. 模块化可组合，灵活适配需求

核心构建逻辑是“基础块+组合模式”：

以“增强型LLM”为统一基础构建块(扩展检索、工具、记忆功能)；
提供5类可复用、可组合的workflows模式(提示词链、路由、并行化等)，开发者可根据具体场景拆分、组合，而非使用固定的复杂框架；
模式本身无强制性，允许根据需求定制调整，避免“一套框架用到底”的僵化。

4. 透明可控为基，兼顾实用与可维护

设计时优先保障系统的透明度和可维护性，避免黑箱操作：

拒绝冗余抽象层：优先直接使用LLM APIs，即使使用框架也需理解底层逻辑，减少调试障碍；
强调过程可见：明确展示Agents的规划步骤，工具设计需文档详尽、使用直观(如优化参数命名、提供示例)；
工具防呆设计：通过规范格式(如绝对文件路径)、减少格式开销等方式，降低模型使用工具的出错概率，提升可靠性。

5. 人机协同赋能，可控范围内自主

Agents的“自主性”并非无边界，而是在“可控、可反馈”的框架内实现：

保留人类监督：关键节点(如任务卡点、结果审核)允许人类介入，支持反馈循环(如评估者-优化者模式)；
风险前置控制：对自主Agents进行沙盒测试，设置停止条件(如最大迭代次数)和护栏机制，规避累积错误和高成本风险；
聚焦“人机互补”：Agents承担重复操作、动态决策等任务，人类负责标准定义、复杂审核等核心环节，而非追求完全替代人类。

构建高效的Agents细节

发布时间：2024年12月19日 00:00:00 Anthropic 工程团队著

我们与多个行业中构建大语言模型(LLM)Agents的团队展开了合作。实践表明，最成功的实现方案往往采用简单、可组合的模式，而非复杂的框架。

在过去一年里，我们与数十个来自不同行业、致力于构建大语言模型(LLM)Agents的团队进行了合作。始终不变的是，最成功的实现方案并未依赖复杂框架或专用库，而是基于简单、可组合的模式构建而成。

在本文中，我们将分享从与客户合作及自身构建Agents的过程中总结的经验，并为开发者提供构建高效Agents的实用建议。

什么是`Agents`？

“Agents”(Agent)的定义多种多样。部分客户将其定义为能够长期独立运行、借助各类工具完成复杂任务的全自主系统；另一些客户则用该术语描述遵循预定义workflows的指令式实现方案。在 Anthropic，我们将所有这些变体归类为Agents系统(agentic systems)，但在架构上对workflows 和 Agents 做出了重要区分：

workflows：通过预定义的代码路径对 LLM 和工具进行编排的系统。
Agents：由 LLM 动态指导自身流程和工具使用，自主掌控任务完成方式的系统。

下文将详细探讨这两类Agents系统。在附录 1《实际应用中的Agents》中，我们将介绍客户发现这类系统极具价值的两个领域。

何时(以及何时不)使用`Agents`？

在基于 LLM 构建应用时，我们建议优先选择最简单的解决方案，仅在必要时增加复杂度——这可能意味着完全不构建Agents系统。Agents系统通常需要以延迟和成本为代价，换取更好的任务性能，你需要判断这种权衡是否合理。

当确实需要更高复杂度时：

workflows适用于定义明确的任务，能提供可预测性和一致性；
Agents则更适合需要大规模灵活性和模型驱动决策的场景。

不过，对于许多应用而言，通过检索和上下文示例优化单次 LLM 调用通常就已足够。

何时以及如何使用框架？

目前有许多框架可简化Agents系统的实现，包括：

LangChain 推出的 LangGraph；
Amazon Bedrock 的 AI Agent 框架；
Rivet(一款拖拽式 GUI 界面的 LLM workflows构建工具)；
Vellum(另一款用于构建和测试复杂workflows的 GUI 工具)。

这些框架通过简化调用 LLM、定义和解析工具、串联调用等标准底层任务，降低了入门门槛。但它们往往会增加额外的抽象层，掩盖底层的提示词和响应，导致调试难度加大；同时也可能诱使开发者在简单方案已足够的情况下过度增加复杂度。

我们建议开发者首先直接使用 LLM API：许多模式仅需几行代码即可实现。如果确实需要使用框架，请务必理解其底层代码——对底层逻辑的错误假设是客户常见的出错原因之一。

可参考我们的示例代码集(cookbook)获取部分实现案例。

构建Blocks、`workflows`与`Agents`

本节将探讨我们在生产环境中观察到的Agents系统常见模式。我们将从基础构建块(增强型 LLM)开始，逐步提升复杂度，依次介绍简单的可组合workflows和自主Agents。

构建Blocks：增强型 LLM

The augmented LLM

Agents系统的基本构建块是增强型 LLM——即通过检索、工具、记忆等增强功能扩展的 LLM。我们当前的模型能够主动运用这些能力：生成自己的搜索查询、选择合适的工具，并决定需要保留哪些信息。

评估维度	Claude 3.5 Sonnet(新版)	Claude 3.5 Haiku	Claude 3.5 Sonnet	GPT-4o*	GPT-4o mini*	Gemini 1.5 Pro	Gemini 1.5 Flash
研究生级推理 GPQA(钻石级)	65.0% 零样本思维链	41.6% 零样本思维链	59.4% 零样本思维链	53.6% 零样本思维链	40.2% 零样本思维链	59.1% 零样本思维链	51.0% 零样本思维链
本科级知识 MMLU Pro	78.0% 零样本思维链	65.0% 零样本思维链	75.1% 零样本思维链	-	-	75.8% 零样本思维链	67.3% 零样本思维链
代码能力 HumanEval	93.7% 零样本	88.1% 零样本	92.0% 零样本	90.2% 零样本	87.2% 零样本	-	-
数学问题解决 MATH	78.3% 零样本思维链	69.2% 零样本思维链	71.1% 零样本思维链	76.6% 零样本思维链	70.2% 零样本思维链	86.5% 四样本思维链	77.9% 四样本思维链
高中数学竞赛 AIME2024	16.0% 零样本思维链	5.3% 零样本思维链	9.6% 零样本思维链	9.3% 零样本思维链	-	-	-
视觉问答 MMMU	70.4% 零样本思维链	-	68.3% 零样本思维链	69.1% 零样本思维链	59.4% 零样本思维链	65.9% 零样本思维链	62.3% 零样本思维链
`Agents` 式编码 SWE-bench Verified	49.0%	40.6%	33.4%	-	-	-	-
`Agents` 式工具使用 TAU-bench	零售 69.2% / 航空 46.0%	零售 51.0% / 航空 22.8%	零售 62.6% / 航空 36.0%	-	-	-	-

注：我们的评估表格未包含 OpenAI 的 o1 模型系列，因为该系列模型依赖大量预响应计算时间，与典型模型存在本质差异，导致性能对比缺乏参考意义。

增强型 LLM 的实现建议

建议重点关注两个核心实现要点：

根据具体用例定制这些增强功能；
为 LLM 提供简洁、文档完善的接口。

虽然实现这些增强功能的方式多种多样，但其中一种方案是通过我们最近推出的**模型上下文协议(Model Context Protocol)**——开发者仅需简单的客户端实现，即可集成日益丰富的第三方工具生态。

在本文后续内容中，我们将默认每次 LLM 调用都可使用这些增强功能。

`workflows`：提示词链(Prompt Chaining)

提示词链将任务分解为一系列步骤，每个 LLM 调用都会处理前一个调用的输出结果。你可以在任意中间步骤添加程序化检查(见下图中的“gate/网关”)，确保流程按预期推进。

The prompt chaining workflow

适用场景

该workflows适用于可轻松、清晰地分解为固定子任务的场景。其核心目标是通过将每个 LLM 调用的任务简化，以延迟换取更高的准确性。

实用示例

生成营销文案后，将其翻译成其他语言；
先编写文档大纲，检查大纲是否符合特定标准，再根据大纲撰写完整文档。

`workflows`：路由(Routing)

路由会对输入进行分类，并将其导向专门的后续任务。该workflows支持关注点分离，可构建更具针对性的提示词。若缺少这一workflows，针对某类输入的优化可能会影响其他输入的处理性能。

The routing workflow

适用场景

路由适用于以下复杂任务：

存在明显不同的分类，且各分类更适合单独处理；
分类可通过 LLM 或更传统的分类模型/算法准确完成。

实用示例

将不同类型的客户服务查询(一般咨询、退款申请、技术支持)导向不同的下游流程、提示词和工具；
将简单/常见问题分配给 Claude 3.5 Haiku 等小型模型，将复杂/特殊问题分配给 Claude 3.5 Sonnet 等更强大的模型，以优化成本和速度。

`workflows`：并行化(Parallelization)

LLM 有时可以同时处理某项任务，并通过程序化方式聚合输出结果。这种并行化workflows主要有两种核心变体：

分段处理(Sectioning)：将任务拆分为独立子任务，并行执行；
投票机制(Voting)：多次运行同一任务，获取多样化输出。

The parallelization workflow

适用场景

当拆分后的子任务可通过并行化提升速度，或需要多视角、多次尝试以获得更高可信度的结果时，并行化非常有效。对于涉及多方面考量的复杂任务，LLM 通常在每个考量点由单独的 LLM 调用处理时表现更佳——这样可以让模型专注于每个具体方面。

实用示例

分段处理：

实现护栏机制(guardrails)：一个模型实例处理用户查询，另一个同时筛查不当内容或请求(这种方式通常比让单个 LLM 同时处理护栏和核心响应的效果更好)；
自动化评估 LLM 性能：每个 LLM 调用评估模型在特定提示词下某一方面的表现。

投票机制：

代码漏洞审查：通过多个不同的提示词审查代码，若发现问题则标记；
内容合规性评估：通过多个提示词从不同维度评估内容是否违规，并设置不同的投票阈值以平衡误报和漏报。

`workflows`：协调者-执行者(Orchestrator-workers)

在协调者-执行者workflows中，中央 LLM 会动态分解任务、将其委派给执行者 LLM，并合成最终结果。

适用场景

该workflows适用于无法预测所需子任务的复杂任务(例如在编码场景中，需要修改的文件数量和每个文件的修改内容往往取决于具体任务)。虽然在结构上与并行化类似，但核心区别在于其灵活性——子任务并非预先定义，而是由协调者根据具体输入动态确定。

实用示例

每次需要对多个文件进行复杂修改的编码产品；
需要从多个来源收集和分析相关信息的搜索任务。

`workflows`：评估者-优化者(Evaluator-optimizer)

在评估者-优化者workflows中，一个 LLM 调用生成响应，另一个则通过循环提供评估和反馈。

适用场景

该workflows在以下情况下尤为有效：

存在明确的评估标准；
迭代优化能带来可量化的价值。

判断是否适用的两个关键标志：

当人类明确表达反馈时，LLM 的响应能得到显著改进；
LLM 本身能够提供此类有效反馈。

这类似于人类作家创作精炼文档时的迭代写作过程。

实用示例

文学翻译：译者 LLM 最初可能无法捕捉到某些细微差别，但评估者 LLM 可以提供有用的批评建议；
复杂搜索任务：需要多轮搜索和分析以收集全面信息，评估者会判断是否需要进一步搜索。

Agents

随着 LLM 在核心能力(理解复杂输入、推理规划、可靠使用工具、从错误中恢复)上的成熟，Agents已开始投入生产环境应用。Agents的workflows程通常如下：

接收人类用户的指令或通过互动讨论明确任务；
任务明确后，自主规划并执行操作，必要时向人类请求更多信息或判断；
执行过程中，关键是Agents在每个步骤都能从环境中获取“真实数据”(如工具调用结果或代码执行情况)，以评估进度；
Agents可在检查点或遇到障碍时暂停，等待人类反馈；
任务通常在完成后终止，但通常会设置停止条件(如最大迭代次数)以保持控制。

Agents能够处理复杂任务，但其实现往往并不复杂——通常只是 LLM 在循环中根据环境反馈使用工具。因此，清晰、周全地设计工具集及其文档至关重要。我们在附录 2《工具的Prompt engineering》中详细阐述了工具开发的最佳实践。

Autonomous agent

适用场景

Agents适用于以下情况：

开放式问题：难以或无法预测所需步骤数量，无法硬编码固定路径；
模型需进行多轮操作，且你对其决策能力有一定信任度。

Agents的自主性使其非常适合在可信环境中规模化处理任务。但同时，自主性也意味着更高的成本和潜在的累积错误风险。我们建议在沙盒环境中进行充分测试，并设置适当的护栏机制。

实用示例(来自我们的自有实现)

编码Agents：解决 SWE-bench 任务(根据任务描述编辑多个文件)；
“计算机使用”参考实现：Claude 通过操作计算机完成任务。

High-level flow of a coding agent

组合与定制这些模式

这些构建块并非强制性规范，而是开发者可根据不同用例调整和组合的常见模式。与所有 LLM 功能一样，成功的关键在于衡量性能并迭代优化实现方案。再次强调：仅当复杂度的增加能显著改善结果时，才考虑添加。

总结

在 LLM 领域取得成功，并非在于构建最复杂的系统，而在于打造符合自身需求的系统。从简单提示词开始，通过全面评估进行优化，仅在简单解决方案无法满足需求时，再添加多步骤Agents系统。

在实现Agents时，我们遵循三大核心原则：

保持Agents设计的简洁性；
优先保证透明度——明确展示Agents的规划步骤；
通过详尽的工具文档和测试，精心设计Agents-计算机接口(ACI)。

框架可以帮助你快速入门，但在向生产环境迁移时，不妨减少抽象层，使用基础组件构建。遵循这些原则，你将能够创建出不仅功能强大，而且可靠、可维护且能获得用户信任的Agents。

附录 1：实际应用中的`Agents`

我们与客户的合作发现，AI Agents在以下两个应用场景中展现出了显著的实用价值，充分体现了上述模式的价值。这两个场景的共同特点是：任务既需要对话交流也需要实际操作、有明确的成功标准、支持反馈循环，并且融入了有意义的人类监督。

A. 客户支持

客户支持将常见的聊天机器人界面与工具集成的增强功能相结合，非常适合更开放式的Agents，原因如下：

支持互动天然遵循对话流程，同时需要访问外部信息和执行操作；
可集成工具以提取客户数据、订单历史和知识库文章；
退款发放、工单更新等操作可通过程序化方式处理；
成功与否可通过用户定义的解决方案完成度清晰衡量。

已有多家公司通过基于使用量的定价模型(仅对成功解决的案例收费)验证了这种方法的可行性，这也体现了他们对自身Agents有效性的信心。

B. 编码`Agents`

软件开发领域已展现出 LLM 功能的巨大潜力，其能力从代码补全逐步演进到自主问题解决。Agents在此领域尤为有效，原因如下：

代码解决方案可通过自动化测试验证；
Agents可利用测试结果作为反馈，迭代优化解决方案；
问题空间定义明确、结构清晰；
输出质量可客观衡量。

在我们的自有实现中，Agents现已能够仅根据拉取请求(pull request)描述，解决 SWE-bench Verified 基准测试中的真实 GitHub 问题。不过，尽管自动化测试有助于验证功能正确性，但人类审核仍然至关重要——以确保解决方案符合更广泛的系统要求。

附录 2：工具的Prompt engineering

无论你构建的是哪种Agents系统，工具都可能是核心组成部分。工具通过在 API 中指定确切的结构和定义，使 Claude 能够与外部服务和 API 交互。当 Claude 决定调用工具时，会在 API 响应中包含工具使用块(tool use block)。工具的定义和规范应获得与整体提示词同等程度的Prompt engineering关注。在本附录中，我们将介绍如何对工具进行Prompt engineering优化。

同一操作通常有多种指定方式。例如，文件编辑可通过编写差异(diff)或重写整个文件实现；结构化输出可将代码嵌入 markdown 或 JSON 中。在软件工程中，这些差异通常是表面的，可无损转换，但某些格式对 LLM 而言要困难得多：

编写差异需要在撰写新代码前，准确知道代码块头部中需要修改的行数；
与 markdown 相比，在 JSON 中嵌入代码需要额外对换行符和引号进行转义。

工具格式选择建议

给模型足够的tokens以“思考”，避免其陷入思维僵局；
选择与模型在互联网文本中常见的格式相近的形式；
避免格式“开销”——例如无需精确统计数千行代码的数量，或无需对编写的代码进行字符串转义。

一个重要原则是：如同投入大量精力设计人机交互(HCI)一样，你也应投入同等精力打造优质的Agents-计算机接口(ACI)。以下是具体建议：

换位思考：仅根据描述和参数，是否能直观理解工具的使用方式？还是需要仔细琢磨？如果连你都需要思考，那么模型很可能也会遇到困难。优秀的工具定义通常包含使用示例、边缘情况说明、输入格式要求，以及与其他工具的明确边界；
优化参数命名和描述：如何修改参数名称或描述使其更清晰易懂？可将其视为为团队中的初级开发者编写完善的文档字符串(docstring)——尤其是在使用多个相似工具时，这一点更为重要；
测试模型对工具的使用：在我们的工作台(workbench)中运行大量示例输入，观察模型会出现哪些错误，并持续迭代优化；
防呆设计(Poka-yoke)：调整参数设置，降低模型出错的可能性。

在为 SWE-bench 构建Agents时，我们实际上在工具优化上投入的时间比整体提示词更多。例如，我们发现当Agents移出根目录后，会在使用相对文件路径的工具上出错。为解决这一问题，我们修改了工具，要求必须使用绝对文件路径——之后发现模型能够完美使用该工具。

最后

我在一线科技企业深耕十二载，见证过太多因技术更迭而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

为什么说现在普通人就业/升职加薪的首选是AI大模型？

人工智能技术的爆发式增长，正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议，到全国两会关于AI产业发展的政策聚焦，再到招聘会上排起的长队，AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200% ，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

在这里插入图片描述

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

② AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

在这里插入图片描述

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

在这里插入图片描述

④各大厂大模型面试题目详解

在这里插入图片描述

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述