前言

原文:Anthropic Engineering - Building Effective AI Agents
发布日期:2024年12月19日

在过去的一年中,我们与数十个跨行业构建大语言模型(LLM)智能体的团队合作。我们发现,最成功的实现并不是使用复杂的框架或专用库,而是采用简单、可组合的模式。

在本文中,我们将分享从客户合作和自身构建智能体过程中学到的经验,并为开发者提供构建高效智能体的实用建议。

一、构建高效的AI智能体

1-1、什么是智能体?

“智能体” 可以有多种定义方式。一些客户将智能体定义为完全自主的系统,能够在较长时间内独立运行,使用各种工具完成复杂任务。其他人则用这个术语来描述遵循预定义工作流程的更具规范性的实现。

在Anthropic,我们将所有这些变体归类为智能体系统,但在工作流和智能体之间做出了重要的架构区分:

  • 工作流(Workflows):LLM和工具通过预定义的代码路径进行编排的系统
  • 智能体(Agents):LLM动态指导其自身流程和工具使用,保持对任务完成方式控制权的系统

下文将详细探讨这两种智能体系统。在附录1(“实践中的智能体”)中,我们描述了客户发现这些系统特别有价值的两个领域。

1-2、何时使用(以及何时不使用)智能体

在使用LLM构建应用程序时,我们建议寻找尽可能简单的解决方案,仅在需要时才增加复杂性。这可能意味着根本不构建智能体系统。

智能体系统通常会用延迟和成本换取更好的任务性能,您应该考虑这种权衡何时有意义:

  • 当需要更多复杂性时,工作流为定义明确的任务提供可预测性和一致性
  • 智能体在需要大规模灵活性和模型驱动决策时是更好的选择
  • 对于许多应用程序来说,通过检索和上下文示例优化单个LLM调用通常就足够了

1-3、何时以及如何使用框架

有许多框架可以使智能体系统更容易实现,包括:

  • Claude Agent SDK
  • AWS的Strands Agents SDK
  • Rivet:拖放式GUI LLM工作流构建器
  • Vellum:另一个用于构建和测试复杂工作流的GUI工具

这些框架通过简化调用LLM、定义和解析工具以及链接调用等标准低级任务,使入门变得容易。然而,它们通常会创建额外的抽象层,可能会掩盖底层的提示词和响应,使调试变得更加困难。它们还可能让人倾向于在更简单的设置就足够的情况下添加复杂性。

我们建议开发者直接使用LLM API开始:许多模式可以用几行代码实现。如果确实使用框架,请确保了解底层代码。对底层机制的错误假设是客户错误的常见来源。

参见我们的cookbook获取一些示例实现。Anthropic: https://github.com/anthropics/claude-cookbooks/tree/main/patterns/agents

二、构建块、工作流和智能体

在本节中,我们将探讨在生产环境中常见的智能体系统模式。我们将从基础构建块——增强型LLM开始,逐步增加复杂性,从简单的组合工作流到自主智能体。

在这里插入图片描述

2-1、构建块:增强型LLM

智能体系统的基本构建块是通过检索、工具和记忆等增强功能来增强的LLM。我们当前的模型可以主动使用这些能力——生成自己的搜索查询、选择适当的工具并确定要保留哪些信息。

2-1-1、增强型LLM的关键要素

我们建议关注实现的两个关键方面:

  1. 针对特定用例定制这些功能
  2. 确保它们为LLM提供易于使用、文档完善的界面

虽然有多种方法可以实现这些增强功能,但一种方法是通过我们最近发布的模型上下文协议(Model Context Protocol),它允许开发者通过简单的客户端实现与不断增长的第三方工具生态系统集成。

在本文的其余部分,我们假设每个LLM调用都可以访问这些增强功能。

2-2、工作流:提示词链(Prompt Chaining)

提示词链将任务分解为一系列步骤,其中每个LLM调用处理前一个调用的输出。您可以在任何中间步骤添加程序化检查(参见下图中的"gate"),以确保流程仍在正轨上。

在这里插入图片描述

2-2-1、何时使用此工作流

此工作流非常适合任务可以轻松且清晰地分解为固定子任务的情况。主要目标是通过使每个LLM调用成为更简单的任务,来用延迟换取更高的准确性。

2-2-2、提示词链的应用示例

  • 生成营销文案,然后将其翻译成不同的语言
  • 编写文档大纲,检查大纲是否符合特定标准,然后基于大纲编写文档

2-3、工作流:路由(Routing)

路由对输入进行分类并将其定向到专门的后续任务。此工作流允许关注点分离,并构建更专业的提示词。如果没有这个工作流,针对一种输入的优化可能会损害其他输入的性能。

在这里插入图片描述

2-3-1、何时使用此工作流

路由适用于复杂任务,其中存在最好单独处理的不同类别,并且分类可以准确处理,无论是通过LLM还是更传统的分类模型/算法。

2-3-2、路由的应用示例

  • 将不同类型的客户服务查询(一般问题、退款请求、技术支持)引导到不同的下游流程、提示词和工具中
  • 将简单/常见问题路由到更小、更具成本效益的模型(如Claude Haiku 4.5),将困难/不寻常的问题路由到更强大的模型(如Claude Sonnet 4.5),以优化最佳性能

2-4、工作流:并行化(Parallelization)

LLM有时可以同时处理任务,并以编程方式聚合其输出。这种工作流(并行化)有两个关键变体:

  • 分段(Sectioning):将任务分解为并行运行的独立子任务
  • 投票(Voting):多次运行相同任务以获得多样化的输出

在这里插入图片描述

2-4-1、何时使用此工作流

当分割的子任务可以并行化以提高速度,或者需要多个视角或尝试以获得更高置信度结果时,并行化是有效的。

对于具有多个考虑因素的复杂任务,当每个考虑因素由单独的LLM调用处理时,LLM通常表现更好,从而允许对每个特定方面进行集中关注。

2-4-2、并行化的应用示例

分段示例:

  • 实施护栏,其中一个模型实例处理用户查询,而另一个模型实例筛查不当内容或请求。这往往比让同一个LLM调用同时处理护栏和核心响应表现更好
  • 自动化评估以评估LLM性能,其中每个LLM调用评估模型在给定提示词上的不同性能方面

投票示例:

  • 审查一段代码的漏洞,其中几个不同的提示词审查代码,如果发现问题就标记
  • 评估给定内容是否不当,多个提示词评估不同方面或需要不同的投票阈值来平衡误报和误报

2-5、工作流:编排器-工作者(Orchestrator-Workers)

在编排器-工作者工作流中,中央LLM动态分解任务,将其委派给工作者LLM,并综合其结果。

在这里插入图片描述

2-5-1、何时使用此工作流

此工作流非常适合您无法预测所需子任务的复杂任务(例如,在编码中,需要更改的文件数量和每个文件中更改的性质可能取决于任务)。

虽然它在拓扑上相似,但与并行化的关键区别在于其灵活性——子任务不是预定义的,而是由编排器根据特定输入确定的。

2-5-2、编排器-工作者的应用示例

  • 每次对多个文件进行复杂更改的编码产品
  • 涉及从多个来源收集和分析信息以获取可能相关信息的搜索任务

2-6、工作流:评估器-优化器(Evaluator-Optimizer)

在评估器-优化器工作流中,一个LLM调用生成响应,而另一个在循环中提供评估和反馈。
在这里插入图片描述

2-6-1、何时使用此工作流

当我们有明确的评估标准,并且迭代改进提供可衡量的价值时,此工作流特别有效。

良好契合的两个标志是:首先,当人类表达反馈时,LLM响应可以得到明显改善;其次,LLM可以提供这样的反馈。这类似于人类作家在制作精美文档时可能经历的迭代写作过程。

2-6-2、评估器-优化器的应用示例

  • 文学翻译,其中翻译器LLM最初可能无法捕捉到细微差别,但评估器LLM可以提供有用的批评
  • 需要多轮搜索和分析以收集全面信息的复杂搜索任务,其中评估器决定是否需要进一步搜索

2-7、智能体(Agents)

随着LLM在关键能力上的成熟,智能体正在生产环境中兴起——理解复杂输入、进行推理和规划、可靠地使用工具以及从错误中恢复。

2-7-1、智能体的工作方式

智能体从用户的命令或交互式讨论开始工作。一旦任务明确,智能体就会独立计划和操作,可能会返回给人类以获取更多信息或判断。

在执行过程中,智能体在每一步从环境中获得"基本事实"(如工具调用结果或代码执行)以评估其进度至关重要。智能体可以在检查点或遇到障碍时暂停以获取人类反馈。任务通常在完成时终止,但也常见包含停止条件(如最大迭代次数)以保持控制。

2-7-2、智能体的实现

智能体可以处理复杂的任务,但它们的实现通常很简单。它们通常只是在循环中基于环境反馈使用工具的LLM。因此,清晰周到地设计工具集及其文档至关重要。

我们在附录2(“提示词工程化您的工具”)中扩展了工具开发的最佳实践。

2-7-3、何时使用智能体

智能体可用于开放式问题,在这些问题中很难或不可能预测所需的步骤数量,并且您无法硬编码固定路径。LLM可能会运行许多轮次,您必须对其决策有一定程度的信任。智能体的自主性使其成为在受信任环境中扩展任务的理想选择。

智能体的自主性意味着更高的成本和复合错误的潜力。我们建议在沙箱环境中进行广泛测试,并配合适当的护栏。

2-7-4、智能体的应用示例

以下示例来自我们自己的实现:

  • 解决SWE-bench任务的编码智能体,涉及基于任务描述对多个文件进行编辑
  • 我们的"计算机使用"参考实现,其中Claude使用计算机完成任务

在这里插入图片描述

2-8、组合和自定义这些模式

这些构建块不是规定性的。它们是开发者可以塑造和组合以适应不同用例的常见模式。与任何LLM功能一样,成功的关键是衡量性能并迭代实现。

重申:您应该仅在更简单的解决方案不足时才考虑增加复杂性。

三、总结与核心原则

LLM领域的成功不在于构建最复杂的系统,而在于为您的需求构建正确的系统。从简单的提示词开始,通过全面评估对其进行优化,仅在更简单的解决方案不足时才添加多步智能体系统。

3-1、三大核心原则

在实施智能体时,我们尝试遵循三个核心原则:

  1. 在智能体设计中保持简单性
  2. 通过明确显示智能体的规划步骤来优先考虑透明度
  3. 通过彻底的工具文档和测试精心设计您的智能体-计算机接口(ACI)

3-2、关于框架的建议

框架可以帮助您快速入门,但不要犹豫减少抽象层,并在进入生产环境时使用基本组件构建。

通过遵循这些原则,您可以创建不仅强大而且可靠、可维护且受用户信任的智能体。


附录一、实践中的智能体

我们与客户的合作揭示了AI智能体的两个特别有前景的应用,展示了上述模式的实际价值。这两个应用都说明了智能体在需要对话和行动、具有明确成功标准、启用反馈循环并整合有意义的人工监督的任务中增加最大价值。

附录1-1、客户支持

客户支持将熟悉的聊天机器人界面与通过工具集成增强的功能相结合。这非常适合更开放式的智能体,因为:

  • 支持交互自然遵循对话流程,同时需要访问外部信息和操作
  • 可以集成工具来提取客户数据、订单历史和知识库文章
  • 可以通过编程方式处理退款或更新工单等操作
  • 可以通过用户定义的解决方案清楚地衡量成功

几家公司通过基于使用量的定价模型展示了这种方法的可行性,该模型仅对成功解决的问题收费,显示出对其智能体有效性的信心。

附录1-2、编码智能体

软件开发领域显示出LLM功能的巨大潜力,能力从代码补全演变为自主问题解决。智能体特别有效,因为:

  • 代码解决方案可以通过自动化测试进行验证
  • 智能体可以使用测试结果作为反馈迭代解决方案
  • 问题空间定义明确且结构化
  • 输出质量可以客观衡量

在我们自己的实现中,智能体现在可以仅基于拉取请求描述解决SWE-bench Verified基准测试中的实际GitHub问题。然而,虽然自动化测试有助于验证功能,但人工审查对于确保解决方案符合更广泛的系统要求仍然至关重要。


附录二、提示词工程化您的工具

无论您正在构建哪种智能体系统,工具都可能是您智能体的重要组成部分。工具使Claude能够通过在我们的API中指定其确切结构和定义来与外部服务和API交互。

当Claude响应时,如果它计划调用工具,它将在API响应中包含一个工具使用块。工具定义和规范应该得到与整体提示词一样多的提示词工程关注。

附录2-1、工具格式的选择

指定相同操作通常有几种方式。例如,您可以通过编写差异或重写整个文件来指定文件编辑。对于结构化输出,您可以在markdown内或JSON内返回代码。

在软件工程中,这样的差异是表面的,可以无损地从一种转换为另一种。然而,某些格式对于LLM编写来说要困难得多。

附录2-1-1、格式选择建议

我们对决定工具格式的建议如下:

  1. 给模型足够的token来"思考",避免将自己写入死胡同
  2. 保持格式接近模型在互联网上自然出现的文本
  3. 确保没有格式"开销",例如必须保持数千行代码的准确计数,或对其编写的任何代码进行字符串转义

附录2-2、智能体-计算机接口(ACI)

一个经验法则是考虑在人机交互(HCI)上投入了多少努力,并计划在创建良好的智能体-计算机接口(ACI)上投入同样多的努力。

附录2-2-1、优化ACI的方法

  • 站在模型的角度思考:根据描述和参数,使用此工具是否显而易见,还是您需要仔细思考?如果是这样,那么模型也可能如此
  • 如何更改参数名称或描述以使事情更明显? 将此视为为团队中的初级开发人员编写出色的文档字符串。在使用许多相似工具时,这尤其重要
  • 测试模型如何使用您的工具:在我们的工作台中运行许多示例输入,看看模型犯了什么错误,然后进行迭代
  • 防错您的工具(Poka-yoke):更改参数,使其更难犯错误

附录2-3、实践经验

在为SWE-bench构建智能体时,我们实际上花在优化工具上的时间比优化整体提示词的时间更多。

例如,我们发现在智能体移出根目录后,模型在使用相对文件路径的工具时会出错。为了解决这个问题,我们将工具更改为始终需要绝对文件路径——我们发现模型完美地使用了这种方法。


参考文章:

如何构建有效的智能体? https://www.anthropic.com/engineering/building-effective-agents

总结

每一段经历都弥足珍贵,不管是好的或者坏的。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐