文章介绍了模型上下文协议(MCP)如何为LLM智能体赋能工具,详细阐述了从工具原型构建、系统评估到与Agent协作优化的完整流程。重点分享了编写高质量工具的五大关键原则:选择正确工具实现功能、设置命名空间明确边界、返回有意义的上下文、优化Token效率、精心设计工具描述。强调与传统确定性软件开发不同,Agent工具开发需考虑非确定性特性,通过人机协作和评测驱动的方式持续优化工具性能。

文字版:

模型上下文协议(Model Context Protocol, MCP) 可以为 LLM 智能体赋能数百种工具来解决现实世界的任务。但我们如何让这些工具发挥最大效能?

在本文中,我们描述了在各种AI 智能体 系统中提升性能的最有效技术1。

📚 内容概览

我们首先介绍如何:

  • 构建和测试你的工具原型
  • 创建并运行与智能体协作的全面评估
  • • 与 Claude Code 等智能体协作,自动提升你的工具性能

最后总结我们在此过程中发现的编写高质量工具的五大关键原则

    1. 选择正确的工具来实现(以及不实现哪些)
    1. 设置命名空间(Namespacing)以明确功能边界
    1. 从工具返回有意义的上下文给智能体
    1. 优化工具响应的 Token 效率
    1. 精心设计工具描述和规范

这张图展示了工程师如何使用Claude Code来评估智能体工具的有效性。

"

构建评估系统可以让你系统地衡量工具的性能。你可以使用Claude Code根据评估结果自动优化你的工具。


🔧 什么是工具?

这段话的核心在于对“工具”在 AI Agent 语境下的新定义,以及为什么为 Agent 设计工具需要和传统软件开发完全不同的思路。

首先,传统的计算机系统是确定性的,也就是说,只要输入一样,输出就一定一样。比如你调用 getWeather(“NYC”) 这个函数,每次都会返回同样的纽约天气数据。这种情况下,开发者和系统之间的“契约”是非常清晰和可控的。

但 AI Agent(比如大模型驱动的智能体)是非确定性的。即使输入完全一样,Agent 也可能给出不同的回答。比如用户问“我今天要带伞吗?”,Agent 可能会直接查天气工具,也可能凭常识回答,甚至可能先反问你具体位置,或者有时根本没用对工具。这种不确定性意味着,Agent 和工具之间的关系不是传统的“API调用”那么简单。

因此,给 Agent 设计工具,不能再用给人或者给传统程序写 API 的思路。你需要考虑 Agent 的行为多样性、理解能力、甚至可能的“误用”或“幻想”。工具要更“人性化”、更直观,既要让 Agent 能用得顺手,也要让人类开发者容易理解和维护。

总结来说,这段话强调了:

    1. 传统软件开发是确定性契约,Agent 工具开发是非确定性契约。
    1. Agent 可能不会总是按你预期的方式用工具,甚至可能用错。
    1. 设计工具时要以 Agent 的实际使用习惯和能力为中心,追求“易用性”和“直观性”。
    1. 好的 Agent 工具,往往对人类来说也很直观易懂。

这种思路转变,是让 AI Agent 真正发挥作用、解决复杂现实问题的关键。

📝 如何编写工具

这段话的意思是,开发者在为 AI Agent 设计工具时,不仅可以自己编写和测试工具,还可以和 Agent 协作,共同完善工具。具体流程是:

首先快速搭建工具原型,并在本地进行测试,发现初步问题; 接着,进行全面的评测,收集数据和反馈,衡量工具的实际表现; 然后,开发者和 Agent 可以反复协作,分析评测结果,持续优化工具的实现和描述,直到 Agent 能在真实任务中表现出色。

本质上,这是一种“人机协作式”的工具开发流程。 开发者不是孤立地设计工具,而是把 Agent 作为合作伙伴,利用其反馈和能力,推动工具不断迭代升级。 这种方式能更高效地发现问题、提升工具的易用性和性能,让 Agent 在实际应用场景中更好地发挥作用。

构建原型

这段内容主要讲的是如何为 AI Agent 构建工具的原型,并进行初步测试。下面我用中文详细解释每个要点,并保留原文中的代码片段。

首先,作者强调:你很难仅凭想象判断哪些工具对 Agent 来说“好用”,哪些“不好用”,所以建议直接动手,快速搭建工具原型,实际测试。这样可以更直观地发现问题和优化空间。

如果你用 Claude Code 来编写工具(甚至可以一次性生成),建议提前把相关的软件库、API 或 SDK 的文档(比如 MCP SDK)提供给 Claude。这样 Claude 能更好地理解你的工具依赖,生成更合适的代码。适合 LLM 的文档通常是扁平的 llms.txt 文件,可以在官方文档站点找到(比如 API 文档)。

接下来,建议把你的工具封装到本地 MCP server 或桌面扩展(DXT)里,这样就能在 Claude Code 或 Claude Desktop App 里直接连接和测试你的工具。

具体操作方法如下:

  • • 如果要把本地 MCP server 连接到 Claude Code,可以运行如下命令:
  • • claude mcp add[args…]
  • • 如果要把 MCP server 或 DXT 连接到 Claude Desktop App,可以分别进入 ‎⁠Settings > Developer⁠ 或 ‎⁠Settings > Extensions⁠。

此外,你也可以把工具直接传递给 Anthropic API,进行程序化测试。

最后,作者建议你自己先测试工具,找出各种“毛边”或潜在问题。同时,收集用户反馈,逐步形成对工具实际用途和典型 prompt 的直觉认知,这对后续优化非常重要。

总结来说,这一段强调了“快速原型—本地测试—用户反馈—持续优化”的开发流程,并给出了具体的连接和测试方法。核心思想是:不要闭门造车,尽快让工具在真实环境下跑起来,及时发现和解决问题。

怎么去运行评估

这段话的意思是:在工具开发完成原型之后,下一步就是要评估 Claude(AI Agent)实际使用这些工具的效果。具体做法是,先设计大量贴近真实业务场景的评测任务,让 Agent 在这些任务中调用你的工具。通过这些评测,你可以系统地收集数据,了解工具在实际应用中的表现和问题。

作者建议开发者和 Agent 一起分析评测结果,找出工具的不足和改进方向。Agent 不仅是工具的使用者,也可以成为你的“合作伙伴”,帮助你优化工具。整个过程可以参考官方的“工具评测手册”,实现从评测到优化的完整闭环。

本质上,这一环节强调“数据驱动”和“人机协作”:用真实任务来检验工具的有效性,结合 Agent 的反馈和分析,不断迭代提升工具的性能和易用性。这样才能确保工具在实际场景下真正发挥作用。

生成评估任务

这段内容主要讲的是如何为 AI Agent 设计评测任务,以便系统性地评估工具的实际效果。下面我用中文详细解释每个要点,并保留原文中的代码片段。

首先,当你有了工具的早期原型,可以用 Claude Code 快速探索这些工具,自动生成大量“prompt-响应”对。这里的 prompt(输入)应该来源于真实业务场景,基于实际的数据和服务,比如公司内部知识库、微服务等。

作者建议不要用过于简单或表面的“沙盒”环境,因为那样无法真正考验工具的复杂性和实用性。优秀的评测任务往往需要多次工具调用,甚至几十次。

举例来说,强评测任务包括:

  • • 安排下周与 Jane 的会议,讨论最新的 Acme Corp 项目。附上上次项目规划会议的笔记,并预订会议室。
  • • 客户 ID 9182 反馈一次购买被重复扣费三次。查找所有相关日志,并判断是否有其他客户也遇到同样问题。
  • • 客户 Sarah Chen 刚提交了取消请求。请准备一个挽留方案,并分析:
  • • (1) 她离开的原因,
  • • (2) 最有吸引力的挽留方案,
  • • (3) 做出挽留前需要注意的风险因素。

而弱评测任务则是:

  • • 安排下周与 jane@acme.corp 的会议。
  • • 搜索支付日志,查找 purchase_complete 和 customer_id=9182。
  • • 查找客户 ID 45892 的取消请求。

每个评测 prompt 都要有一个可验证的结果或输出。验证方式可以很简单,比如用字符串精确比对“标准答案”和 Agent 的输出,也可以更高级,比如让 Claude 来判断响应是否合理。要避免过于严格的验证标准,比如因为格式、标点或表达方式不同而误判正确答案。

对于每组 prompt-响应,你还可以指定希望 Agent 调用哪些工具,这样可以衡量 Agent 是否真正理解了工具的用途。但要注意,任务的正确解决路径可能有多种,不要过度限定或“过拟合”某一种策略。

总结来说,这一段强调了评测任务设计要贴近真实场景、足够复杂,并且验证方式要合理宽容。只有这样,才能真正检验工具的实用性和 Agent 的智能表现。

运行评估

这段内容主要讲的是如何用自动化方式评测 AI Agent(比如 Claude)对工具的实际使用效果,以及如何收集更丰富的评测数据。下面我详细解释每个要点,并保留原文中的代码描述。

首先,推荐用编程方式(比如直接调用 LLM 的 API)来运行评测任务。具体做法是用“agentic loop”,也就是用 while 循环不断交替调用 LLM API 和工具,每个循环对应一个评测任务。每个评测 Agent 都只需要一个任务 prompt 和一组工具。

在给评测 Agent 的系统提示(system prompt)时,建议不仅要求输出结构化的响应(方便后续验证),还要让 Agent 输出推理过程和反馈信息。让 Agent 在调用工具和输出结果之前,先写出自己的思考和理由,这样可以激发 LLM 的“链式思考”(CoT,chain-of-thought)能力,让它表现得更智能、更有逻辑。

如果你用 Claude 进行评测,可以直接开启“拓展思维 thinking”功能,这样 Claude 会自动在工具调用前插入思考和反馈,有助于分析 Agent 为什么会或不会调用某些工具,也能帮助你发现工具描述和规格的改进空间。

除了关注最终的准确率,还建议收集更多维度的数据,比如每次工具调用和任务的总运行时间、工具调用次数、总 token 消耗、工具错误等。通过追踪工具调用,可以发现 Agent 常用的工作流,也能找到工具整合和优化的机会。

总结来说,这一段强调了自动化评测的流程和细节:用循环自动化测试、让 Agent 输出推理和反馈、收集多维度数据,最终帮助你更科学地优化工具和 Agent 的协作方式。

分析结果

这段内容主要讲的是如何分析 AI Agent(比如 Claude)在工具评测中的表现,以及如何通过这些分析持续优化工具。

首先,Agent 不只是工具的使用者,更是开发者的“合作伙伴”。它们能帮你发现各种问题,比如工具描述有矛盾、实现效率低下、Schema 设计让人困惑等。但要注意,Agent 在反馈和响应中“没说”的内容,往往比“说了”的更重要。大模型并不总是把真实想法表达出来,有时会遗漏关键问题。

在分析评测结果时,你要特别关注 Agent 在什么地方卡住了、困惑了。可以仔细阅读 Agent 的推理和反馈(比如 chain-of-thought,CoT),找出工具使用的“毛边”。同时,建议回看原始评测记录(包括工具调用和响应),因为有些行为可能没有在 Agent 的推理里明确描述。要学会“读懂潜台词”,因为 Agent 并不总是知道最优解或最佳策略。

此外,还要分析工具调用的各种数据指标。如果发现大量重复调用某个工具,可能说明分页或 Token 限制参数需要调整;如果出现很多参数错误,说明工具描述不够清晰,或者缺少好的示例。比如在 Claude 的 web search 工具刚上线时,发现 Agent 总是无意义地在 query 参数后加上“2025”,导致搜索结果偏差、性能下降。最后通过优化工具描述,成功引导 Agent 正确使用参数。

总结来说,这一段强调了:

    1. 要把 Agent 当成合作伙伴,善用它的反馈和推理。
    1. 注意 Agent 没说出来的问题,深入分析评测记录。
    1. 通过数据指标(如重复调用、错误率)发现工具设计的不足。
    1. 工具描述和参数设计的细节,直接影响 Agent 的使用效果和最终性能。

这种分析和优化过程,是让工具和 Agent 协同进化、持续提升的关键。

和 Agent 合作

这段内容主要讲的是如何让 AI Agent(比如 Claude)主动参与工具优化,以及团队在实际开发中的经验总结。下面我用中文详细解释每个要点,并保留原文中的代码描述。

首先,作者指出,你可以让 Agent 来分析评测结果,甚至自动帮你改进工具。具体做法是:把所有评测 Agent 的对话记录(transcripts)拼接起来,然后粘贴到 Claude Code 里。Claude 非常擅长分析这些记录,并且能一次性重构大量工具,比如确保工具实现和描述在有新改动时依然保持自洽。

实际上,本文的大部分建议,都是团队通过反复用 Claude Code 优化内部工具实现得出的。评测任务都是基于真实的内部工作流设计的,涵盖了实际项目、文档和消息等复杂场景。

团队还采用了“保留测试集”(held-out test sets)来防止对训练评测过拟合。通过这些测试集,发现即使是专家手写的工具实现,或者 Claude 自动生成的工具实现,经过进一步优化后,性能还能继续提升。

最后,作者提到,下一节会分享从这个过程里学到的经验和原则。

这段话的核心思想是:

    1. 可以让 Agent 主动参与工具分析和优化,极大提升开发效率。
    1. 通过拼接评测记录,Claude 能批量分析和重构工具,保证一致性。
    1. 团队的建议和经验都是在真实复杂场景下反复迭代得出的。
    1. 保留测试集能防止过拟合,确保工具优化的泛化能力。
    1. 工具优化是一个持续迭代的过程,Agent 的参与能带来超越人工的提升空间。

这种“人机协作+自动化优化”的开发模式,既高效又能保证工具质量和适应复杂业务需求。

编写有效工具的原则

我们将我们的学习成果提炼为编写有效工具的几个指导原则。

选择正确的工具

这段内容主要讲的是:为 AI Agent 设计工具时,不能一味追求“工具越多越好”,而是要有选择、有针对性地构建真正适合 Agent 的高价值工具。

首先,作者指出,很多开发者常犯的错误是:把现有软件功能或 API 直接包装成工具,却没考虑这些工具是否真的适合 Agent 使用。原因在于,Agent 的“可操作性”与传统软件不同,它们对工具的理解和使用方式也不一样。

比如,LLM Agent 的“上下文”是有限的(即一次能处理的信息量有限),而计算机的内存却很便宜、很充足。举个例子,传统软件查找通讯录联系人时,可以一条一条高效遍历;但如果 Agent 用一个工具一次性返回所有联系人,然后逐条“读”每个联系人,这样会极大浪费上下文空间,效率极低。更自然的做法是,像人类一样,先按字母查找、直接定位到目标联系人。

因此,建议开发者只构建少量、但高价值、针对具体高频场景的工具,并且这些工具要和你的评测任务紧密结合,后续再逐步扩展。比如在通讯录场景下,应该实现 search_contacts 或 message_contact 工具,而不是 list_contacts 工具。

工具还可以整合多种功能,把多个 API 操作合并到一个工具里。例如,工具可以在响应中附加相关元数据,或者把常见的多步操作封装成一次工具调用。

原文举了几个例子:

  • • 与其实现 list_users、list_events、create_event 三个工具,不如直接做一个 schedule_event 工具,自动查找空闲时间并安排事件。
  • • 与其实现 read_logs 工具,不如做一个 search_logs 工具,只返回相关日志和上下文。
  • • 与其实现 get_customer_by_id、list_transactions、list_notes 三个工具,不如做一个 get_customer_context 工具,一次性汇总客户的所有最新、相关信息。

每个工具都要有明确、独立的用途。工具的设计目标,是让 Agent 能像人类一样分解和解决任务,同时减少中间结果对上下文的消耗。

最后,作者强调,工具太多或功能重叠,会让 Agent分心,难以高效决策。只有经过精心规划和筛选,工具才能真正提升 Agent 的智能和效率。

总结来说,这一段的核心思想是:

    1. 工具不是越多越好,要有选择地构建高价值工具。
    1. 工具要适合 Agent 的实际使用习惯和上下文限制。
    1. 优先考虑整合功能、减少冗余,让工具更智能、更高效。
    1. 工具设计要有明确目标,帮助 Agent 像人类一样高效解决问题。
    1. 精选和优化工具,远比“堆砌”工具更能提升 Agent 的实际表现。

工具命名空间

这段内容主要讲的是“工具命名空间”(Namespacing)在 AI Agent 工具设计中的重要性。随着 Agent 能访问的 MCP 服务器和工具数量激增,如何让 Agent 快速、准确地选用合适的工具,变得非常关键。

首先,Agent 可能会接入几十个 MCP 服务器、上百个工具,其中很多工具来自不同开发者。如果工具功能有重叠,或者描述不清晰,Agent 很容易混淆,不知道该用哪个工具。

命名空间的作用,就是通过统一的前缀或分组,把相关工具归类。例如,可以按服务分组(如 asana_search、jira_search),也可以按资源分组(如 asana_projects_search、asana_users_search)。这样,Agent 在面对大量工具时,可以更容易区分和选择合适的工具。

作者还指出,前缀和后缀的命名方式对 Agent 的工具使用评测有实际影响,不同 LLM 的表现也不一样。建议开发者根据自己的评测结果选择最合适的命名方案。

如果工具命名和分组做得好,Agent 就能更少出错,比如不会调用错误的工具、不会用错参数、不会遗漏关键工具,也不会错误处理工具响应。通过合理的命名空间设计,可以减少 Agent 需要加载的工具和描述数量,把更多的计算和判断交给工具本身,降低 Agent 出错的风险。

总结来说,这一段强调了:

    1. 工具命名空间能帮助 Agent 在海量工具中快速定位和选择合适工具。
    1. 合理的命名分组能减少混淆和错误,提高 Agent 的使用效率和准确率。
    1. 命名方式(前缀/后缀)要根据实际评测效果灵活选择。
    1. 工具分组和命名优化后,Agent 的上下文负担更小,出错概率更低,整体系统更健壮。

这也是大规模 Agent 工具生态中不可忽视的设计细节。

从工具中返回有意义的上下文

这段内容主要讲的是,工具在给 AI Agent 返回信息时,应该优先考虑“高信号、强相关”的内容,而不是一味追求灵活性或技术细节。下面我详细解释每个要点,并保留原文中的代码片段。

在实际应用中,AI Agent(比如 Claude)有时需要用到技术 ID,比如用户的唯一标识符(user_id)、消息的编号(thread_ts)等。这些技术 ID 通常不是给人看的,但对于 Agent 来说,它们在“链式调用”工具时非常重要。举个例子:

假设你有两个工具:

  • • search_user(name=’jane’):通过用户名查找用户,返回用户的详细信息,包括 user_id。
  • • send_message(id=12345):通过 user_id 给用户发送消息。

Agent 先用 search_user 查到 Jane 的 user_id(比如 12345),再用 send_message(id=12345) 给 Jane 发消息。这就是“链式调用”,技术 ID 是中间环节的关键。

但并不是所有场景都需要返回技术 ID。很多时候,Agent 只需要看到简洁的内容,比如用户名、消息内容等。为了兼顾这两种需求,工具可以设计一个参数,让 Agent 自己选择返回“详细”还是“简洁”响应。原文给出的代码示例如下:

enum ResponseFormat {

DETAILED = “detailed”, CONCISE = “concise”

}

  • • 如果 Agent 选择 DETAILED(详细),工具就会返回所有技术细节,比如各种 ID、元数据等,方便后续链式调用。
  • • 如果选择 CONCISE(简洁),工具只返回核心内容,比如文本、名称等,减少无关信息和 token 消耗。

这种设计让工具既能满足复杂场景下的技术需求,又能在简单场景下节省资源,提高效率。Agent 可以根据任务需要灵活选择响应格式,既不会信息冗余,也不会缺少关键参数。

总结一下,这一段的意思是:
工具可以通过 response_format 参数,让 Agent 自主选择返回“详细”还是“简洁”内容。这样既能支持链式调用时的技术 ID 需求,也能在只需要核心信息时节省 token,提高上下文利用率。

详细响应(DETAILED)会包含所有技术细节和 ID,便于后续工具调用;简洁响应(CONCISE)只返回核心内容,比如 Slack 线程只给出 thread 内容,不给出 thread_ts、channel_id、user_id 等技术字段。这样可以大幅减少 token 消耗,提高上下文利用率。

原文还举例说明,简洁响应只用到约三分之一的 token,极大提升了效率。并且,工具响应的结构(比如 XML、JSON、Markdown)也会影响 Agent 的表现,因为 LLM 的训练数据和习惯不同,最优结构要根据实际任务和 Agent 类型来选择。

总结来说,这一段强调了:

    1. 工具返回内容要优先考虑“高信号、强相关”,减少技术细节和冗余信息。
    1. Agent 更擅长处理自然语言标识符,技术 ID 只在必要时返回。
    1. 可以通过 response_format 参数灵活控制响应内容,兼顾效率和功能。
    1. 工具响应结构要根据实际评测结果灵活选择,没有绝对标准。
    1. 这种设计能显著提升 Agent 的检索准确率和上下文利用率,减少幻觉和误用。

这种“以 Agent 为中心”的工具输出策略,是让智能体真正高效、智能地完成复杂任务的关键。

优化工具响应,以节约token

这段内容讲的是:在为 AI Agent 设计工具时,除了保证返回内容的质量(信息相关性和有用性),还要优化返回内容的数量,也就是 token 的使用效率。因为大模型的上下文窗口有限,工具如果一次性返回太多无关或冗余的信息,会极大影响 Agent 的推理效率和任务完成能力。

作者建议,对于可能返回大量内容的工具,可以采用分页(pagination)、范围选择(range selection)、过滤(filtering)、截断(truncation)等方式,并为这些参数设置合理的默认值。例如 Claude Code 默认限制工具响应为 25,000 tokens。虽然未来 Agent 的有效上下文长度会增加,但“节省 token、提高效率”始终是工具设计的核心需求。

如果你选择对响应内容进行截断(truncation),一定要给 Agent 明确的指引,比如告诉它如何获取更多数据、如何分批查询等。你可以直接在工具描述或错误提示中鼓励 Agent 采用更高效的策略,比如“多次小范围精准检索”优于“一次性大范围检索”。

同样地,如果工具调用出错(比如输入参数校验失败),你可以通过 prompt 工程优化错误响应,让错误提示变得具体、可操作,而不是只返回模糊的错误码或 traceback。这样 Agent 能更快理解问题、调整调用方式。

原文虽然没有直接的代码块,但前文提到的 response_format 枚举示例同样适用于 token 优化场景——简洁模式(CONCISE)可以大幅减少 token 消耗:enum ResponseFormat {

DETAILED = “detailed”,

CONCISE = “concise”

}

此外,原文还举了几个例子(虽然是配图未显示,但意思很明确):

  • • 截断后的工具响应示例:只返回部分内容,减少 token。
  • • 不友好的错误响应示例:只给出模糊错误码,Agent 难以理解和修正。
  • • 友好的错误响应示例:明确指出错误原因,并给出可操作建议,帮助 Agent 纠正输入。

合理的截断和错误响应不仅能引导 Agent 采用更高效的工具使用方式(比如用过滤、分页等),还能通过示例帮助 Agent 学会正确的工具输入格式。

总之,这一段强调了“token 效率”在工具设计中的重要性,以及如何通过参数设计、响应优化和错误提示,帮助 Agent 更高效地利用工具、节省上下文资源、提升整体智能表现。

给 tool 描述加上 提示词 和 规范

这段内容讲的是“工具描述的 prompt 工程”在提升 AI Agent 工具效果中的重要作用。

工具描述和规格(spec)会被加载到 Agent 的上下文里,直接影响 Agent 如何理解和调用工具。好的描述能引导 Agent 正确、高效地使用工具,差的描述则可能导致误用、出错或效率低下。

作者建议,编写工具描述时,要像给新同事介绍工具一样,把所有隐含的背景、专有格式、术语定义、资源关系等都写清楚,避免任何歧义。比如参数命名要明确,不能只叫 user,而要叫 user_id,这样 Agent 才不会混淆。

通过评测,你可以量化 prompt 工程的效果。哪怕是对工具描述的小幅优化,也可能带来巨大提升。比如 Claude Sonnet 3.5 在 SWE-bench Verified 评测中,正是因为对工具描述做了精准调整,才大幅降低了错误率、提升了任务完成率。

此外,官方开发指南里有更多工具定义的最佳实践。如果你在为 Claude 构建工具,还可以了解工具如何动态加载到 Claude 的系统 prompt,以及 MCP server 的工具注解(tool annotations),这些都能帮助你更好地管理工具权限和行为。

总结来说,这一段强调:

    1. 工具描述的 prompt 工程是提升 Agent 工具效果的关键手段。
    1. 描述要详细、明确,避免歧义,参数命名要清晰。
    1. 通过评测可以验证描述优化的实际效果。
    1. 参考官方最佳实践和工具注解,能进一步提升工具的安全性和易用性。

本质上,工具描述的 prompt 工程就是用“人性化、结构化、无歧义”的方式,把工具的能力和边界清楚地传达给 Agent,让智能体能像优秀的新人一样,快速上手并高效使用你的工具。

展望未来

这段话是在总结和展望未来 AI Agent 工具开发的方向。作者强调,想要为智能体构建高效的工具,开发者必须从传统的“确定性”软件开发模式,转向适应“非确定性”Agent行为的新范式。

传统软件开发是可预测的、确定性的——输入一样,输出就一样。但 AI Agent 的行为是非确定性的,同样的输入可能有不同的输出。工具开发者需要接受这种不确定性,并用迭代和评测驱动的方式,不断优化工具。

作者总结了成功工具的几个共同特征:工具定义要有意图且清晰,合理利用 Agent 的上下文,工具之间能灵活组合,最终让 Agent 能直观地解决真实世界的问题。这些原则其实是通过反复实践和评测总结出来的。

展望未来,Agent 与世界交互的机制会不断演进,比如 MCP 协议会升级,底层大模型也会持续进化。只要我们坚持系统化、评测驱动的工具优化方法,Agent 的能力提升,工具也会同步进化,始终保持高效和适应性。

总之,未来的 Agent 工具开发要拥抱不确定性,持续迭代,注重评测和实际效果,才能让智能体真正成为解决复杂现实问题的“超级助手”。


如何系统学习掌握AI大模型?

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。

在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 大模型行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐