读完Google这份Agent白皮书，我才理解了什么是Agent

*AI Agent：**是一种由大语言模型、工具、编排层和运行时服务所构成的程序。他通过循环调用大语言模型来达成最终的目标。大模型是一个行动无能的天才，而Agent则是通过软件开发的方式，将大模型封装成一个可以自行处理某项任务的软件。**Tips：**这里与我们之前编写的软件还不一样，我们先前编写的软件是一套固定的规则流程，他接受固定的输入，会流经固定的路径，产生固定的输出；而Agent则更“智能

爱喝白开水a

644人浏览 · 2026-02-03 22:40:28

爱喝白开水a · 2026-02-03 22:40:28 发布

Google和Kaggle之前联合办了一个5天的AI Agent课程，本文章是第一天提供的文档《Introduction to Agents and Agent Architectures》的内容梳理和总结。

获取原文在我的公众号回复：Google Agent Course

同时如果不想看长文的，可以看精简版。

我从开发，运维和项目负责人的三个角度总结了这份文档，需要的话，公众号回复：Google Agent Course Summary

一、

AI Agent的核心定义与架构

1.1

AI Agent 是什么？

**AI Agent：**是一种由大语言模型、工具、编排层和运行时服务所构成的程序。他通过循环调用大语言模型来达成最终的目标。

大模型是一个行动无能的天才，而Agent则是通过软件开发的方式，将大模型封装成一个可以自行处理某项任务的软件。

**Tips：**这里与我们之前编写的软件还不一样，我们先前编写的软件是一套固定的规则流程，他接受固定的输入，会流经固定的路径，产生固定的输出；而Agent则更“智能”，他通过我们为其提供的工具，自行的编排流程，生成输出。

大语言模型、工具、编排层、运行时服务是构成其的四要素。

**大语言模型（大脑）：**智能体的中央推理引擎，主要用于处理信息、评估结果、做出决策。
**选择策略：**不应只看学术基准测试分数，而应寻找在推理能力和工具使用方面表现出色的模型（做好Trade-off）
**协作：**可以不止一个大脑，通过构建一个团队来协作的处理任务
**工具（手）：**连接外部世界，API扩展，代码函数，访问实时信息或数据存储。
**常见工具：**RAG，函数调用，API调用，人机交互

💡 函数调用和API调用的区别

这里指的函数调用并不是我们通常的使用某个函数，而是模型有能力识别出自己要去调用这个函数。做个比方就是模型到餐馆去吃饭，函数调用就是你在菜单上选择菜品，然后在水煮牛肉旁边写上少辣。他能生成结构化的参数，但并不会去厨房做菜。API调用则是拿着你的订单去厨房下单，并做好菜端回给你。

**编排层（神经系统）：**控制智能体的控制流程，规划、记忆、推理策略执行。
记忆管理
**短期记忆：**类似草稿纸，记录当前对话和推理步骤的轨迹
**长期记忆：**类似RAG系统，允许Agent跨会话记住用户的偏好或过去的交互。
推理策略

一般使用思维链和ReAct框架。将复杂的任务分解成简单的任务，并决定合适思考以及合适使用工具。

上下文工程

编排层负责管理输入给模型的Prompt，不仅仅是提示工程，更是对上下文的动态管理。

**部署，运行时服务（身体和腿）：**生产部署能提供可靠的服务，并添加用于监控的日志，管理服务的编排，同时提供A2A的访问模式，来扩展其能力边界。

AI Agent相关工具的介绍在我之前的文章中有介绍过：

AI 应用开发指南：一文带你快速入门 Prompt、RAG、Function Calling、MCP 与 Agent

二、

Agent的运作流程

2.1

基本步骤

智能体通过五个基本步骤构成的循环来解决问题。

接收任务： 流程始于一个明确的高级目标。这可以是用户直接输入的（例如：“帮我安排团队去参加会议的差旅”），也可以是自动化触发的（例如：“收到了一个新的高优先级客户工单”）
感知场景： 在行动之前，Agent 会先通过编排层收集当前的上下文信息。它会“环顾四周”，检查以下内容：

用户的具体请求是什么？
短期记忆中有什么信息（之前的对话历史）？
长期记忆中有无相关偏好或过去的指导？
当前有哪些工具（API、数据库、日历等）是可用的？

**思考：**这是模型的核心工作阶段。Agent 将任务与当前场景结合，制定一个多步骤的计划。这通常涉及思维链推理。

例如：“为了订票，我首先需要获取团队名单（需要调用 get_team_roster 工具），然后我需要检查他们的日历（调用 calendar_api）”。
**注意：**正是在这一步，模型会进行函数调用的生成，决定下一步该用什么工具以及参数是什么。

**采取行动：**编排层执行计划中的第一个具体步骤。它会实际调用模型在“思考”阶段选定的工具——这可能是一个API调用、运行一段代码或查询数据库。这是Agent对外部世界产生实际影响的步骤
**观察与迭代：**Agent 观察行动的结果

例如： get_team_roster 工具返回了5个名字。这一新信息会被添加进Agent的“记忆”或上下文中。然后，流程回到第3步（思考）。Agent 会基于新的信息继续推理：“现在我有名单了，下一步是查这5个人的日历…”。
这个循环会不断重复，直到Agent认为任务已经完成

2.2

示例

客户服务场景

用户提问（Mission）： “我的订单 #12345 到哪了？”
思考（Think）： Agent 制定计划：“我需要先去内部数据库查订单详情，拿到快递单号，然后再去快递公司的API查物流状态，最后回复用户。”
**行动（Act）：**调用 find_order(“12345”)。
观察： 获得结果，其中包括快递单号 “ZYX987”。
迭代/思考： “既然拿到了单号，下一步是查物流。”
行动： 调用 get_shipping_status(“ZYX987”)。
**观察：**获得结果 “Out for Delivery”（派送中）。
最终行动： 综合所有信息，生成回复：“您的订单 #12345 目前正在派送中！”

2.3

对比

客户服务场景

**接单（Mission）：**客人点了一份炒饭。
**思考（Think）：**看一眼冰箱里有什么食材，手边有什么厨具。规划 “我得先切葱花，再打蛋，最后炒饭。”
**行动（Act）：**拿起刀切葱花（使用工具）。
观察（Observe）： 葱花切好了。
迭代： 回到思考步骤，“下一步是打蛋…”，直到炒饭做好端给客人。

2.4

Agent的本质

从更深的技术层面来看，Agent 本质上是一个致力于“上下文窗口精选（Context Window Curation）”的系统。即从大量的信息中搜集提取过滤出关键信息，提供给模型，供其思考。

在这个循环中，Agent 不断地重复下面的步骤，直到得到答案：

组装上下文： 将系统指令、用户输入、历史记忆、可用工具说明打包放入模型的上下文窗口。
提示模型： 请求模型基于这些信息生成下一步（思考）。
观察结果： 获取工具执行后的真实数据。
**重新组装：**将工具返回的结果作为新的上下文再次输入给模型

三、

Agent系统的分级

对于架构师而言，一个关键的决策是确定要构建哪种类型的智能体。Google将智能体划分成了五个级别，每个级别建立在前一个级别的能力上，这五个能力分别是：

第0级：核心推理系统
**定义：**这是智能体的基础，即一个孤立的语言模型。它拥有广泛的预训练知识，但无法与外部世界互动。
**能力：**依赖预训练的知识进行推理和解释。
**局限性：**盲目，无法感知训练数据截止之后发生的任何事情，也无法获取实时信息。
第1级：互联的问题解决者
**定义：**通过连接外部工具（如搜索API），模型演变为一个基础智能体，能够获取实时信息来回答问题。
**能力：**能够执行思考、行动、观察的循环。它可以利用搜索 API、数据库 (RAG) 或其他接口来获取实时数据。
**局限性：**单次的，没有全局的视野。
第2级：战略性的问题解决者
**定义：**智能体学会了制定多步骤计划和进行上下文工程，能够为复杂任务主动选择和打包最相关的信息。
**能力：**它可以分解目标，先做 A，根据 A 的结果决定做 B，再做 C。
**案例：**我的办公室（地点 A）和客户办公室（地点 B）的中间位置找一家评分高的咖啡馆

调用地图工具计算 A 和 B 的中间点（比如是 Millbrae）。
基于上一步的结果，生成新的查询参数（Millbrae + 咖啡馆 + 评分>4.0），调用地点搜索工具。
综合结果回复用户。这体现了它能处理具有依赖关系的连续任务

第3级：协作式多智能体系统 (Collaborative Multi-Agent System)
**定义：**在这一层级，我们不再构建一个万能的“超级智能体”，而是构建一个“专家团队”。一个“项目经理”智能体可以将复杂任务分解，并委派给专门的子智能体去执行。
**核心机制：**这里的 Agent 将其他 Agent 视为一种“工具”。一个“主导” Agent（如项目经理）负责拆解任务并委派给“专家” Agent。
**案例：**发布一款新耳机

项目经理 Agent 接收任务，然后指派：

市场调研 Agent：分析竞争对手价格。

营销 Agent：撰写新闻稿。

Web 开发 Agent：编写产品网页代码。这种分工让每个 Agent 更专注、更容易维护，适合处理复杂的端到端业务流
项目经理 Agent 等待全部完成后，汇总项目报告，反馈

第4级：自我进化系统 (Self-Evolving System)
**定义：**这是自主性的终极飞跃。在这一层级，系统能够识别自身的能力差距，并自主创造新的工具甚至新的智能体来填补这些差距。
**核心机制：**主动扩展其资源库
**案例：**发布一款新耳机

如果项目经理 Agent发现需要监控社交媒体舆情，但团队里没有相关工具：
元推理： “我需要监控舆情，但我做不到。”
自主创造： 调用一个高级的 AgentCreator 工具，编写并部署一个新的“情感分析 Agent”。
观察： 新 Agent 上线，加入团队并开始工作。这使得 Agent 系统能够像一个学习型组织一样不断进化。

在构建企业级应用时，可以从这五个层级出发，确定自己要解决的问题属于哪个层级，然后进行对应的开发。

四、

开发

4.1

AI Agent开发与传统的有什么区别？

Agent和传统开发不同，Agent是开发要一套解决方案的过程，我们不是在编写一个确切的软件流程。而是把所有的工具制造出来，把思考的流程串起来，然后交给大模型进行处理。

一个比较恰当的比喻是传统开发是一个砌砖匠，精确把握每一块砖，把握每一面墙。

而AI Agent开发则是一个导演，他不需要亲自去演戏，而是要设置场景（你的指令，提示词），选择演员（智能体，API，工具）提供必要的背景（数据）。来引导你的演员呈现出你需要的表现。

除此以外，Agent的开发还有一个核心的挑战：其单元测试与我们平时代码开发时也是不一样的，因为其相应本质上是概率性的。

针对此，Google提出了如下五个应对方式：

**衡量关键指标：**设计A/B测试定义KPI（目标完成率，用户满意度，成本）；

**例子：**Gemini/元宝里面的DeepSeek 有的时候会给出两个版本的回答，询问你哪一个版本更有帮助。

**用LLM作为评判：**构造一个裁判Agent根据预定义准则来评估给出的结果质量；
**指标驱动开发：**将新版本的质量得分与生产版本进行比较，作为部署的依据；
**使用链路追踪进行调试：**获取智能体完整执行路径的日志，追溯问题根源；

类似微服务中的链路追踪。

**人类反馈：**收集用户的反馈，转为评估数据集中的新测试样例。

4.2

多智能体设计模式

下面介绍几种典型的多智能体设计模式

协调者模式

适用于复杂的非线性任务。引入一个“管理者”智能体，它负责接收初始请求，将其分解为多个子任务，并智能地路由给相应的专家子智能体。最后，它会汇总所有专家的输出，形成最终的综合性答案。

顺序模式

适用于线性的、类似装配线的工作流。在这种模式下，一个智能体的输出直接成为下一个智能体的输入，形成一个处理链条。

迭代优化模式

了提高输出质量，可以采用此模式。如图所示，一个“生成者”智能体负责创建初稿，而一个“批评者”智能体则根据预设标准对其进行评估和打分。如果质量不达标，输出将被发回并附上改进建议，形成一个持续优化的反馈循环。

人在环路模式（HITL）

在执行财务交易或部署代码等高风险操作前，此模式至关重要。它会在关键节点暂停工作流，并主动请求人类进行审批，从而为自主系统增加一道重要的安全阀。

协调器模式提供了应对动态任务的灵活性，但增加了编排的复杂性和潜在的单点故障风险。顺序模式更简单、可预测，但缺乏适应性，适用于高度结构化的流程。选择哪种模式取决于您对灵活性与可预测性之间的权衡。

4.3

持续的“进化”

我们的现实世界时不断变化的，智能体也应该能适应不断变化的环境（政策、技术、数据格式），来避免性能下降和老化。

在开发的时候我们应该：

完整记录保存会话日志，能够完整的追踪，记忆关联每一次调用。
保存好人类的反馈。
保存好接收外部新信息的接口，比如外部文档，新的政策法规，指南。
考虑构建一个优化智能体来根据上述记录的信息，调整你的提示词，流程编排的方法。但要确保这些更新是经由专家确认后可更新的，不可完全交由智能体控制整个环路。

**前沿工作：**Agent Gym（智能体健身房）

即设计实现一个专用的离线平台，用于在生产环境外优化多智能体系统。（类似于当前的测试版本）

脱离执行路径： 它是一个独立的平台，不受生产环境的资源限制，可以使用任何强大的模型和工具进行优化。
模拟环境： 它提供一个安全的沙箱，让智能体可以在新数据上进行“试错”练习，探索不同的优化路径。
高级工具集： Agent Gym 可以调用合成数据生成器来创造新的测试场景，使用红队测试工具来探测漏洞，并部署一个“批评者”智能体家族来对智能体进行压力测试。
**可扩展的优化工具：**它可以通过开放协议 (如 MCP 或 A2A) 引入新的优化工具，其能力集并非固定不变。
**连接人类专家：**当遇到难以自动解决的“部落知识”等问题时，Agent Gym 能够连接到组织内的人类领域专家，咨询他们以指导优化方向。

4.4

AI Agent 开发圣经

这是白皮书中我认为很重要的一段，我直接将原文和翻译放在这里，这有助于我们认识大模型的本质。

Words are insufficient to describe how humans interact with AI. We tend to anthropomorphize and use human terms like “think” and “reason” and “know.” We don’t yet have words for “know with semantic meaning” vs “know with high probability of maximizing a reward function.” Those are two different types of knowing, but the results are the same 99.X% of the time.

现有的词汇不足以描述人类与人工智能的互动方式。我们往往会将人工智能拟人化，并使用“思考”“推理”“知道”等人类术语。我们还没有专门的词汇来区分“具有语义意义的知道”和“极有可能最大化奖励函数的知道”。这是两种不同类型的“知道”，但在99.X%的情况下，结果是相同的。

我将类似的内容概括为下面的守则：

永远记得LLM的本质是一个概率预测模型，可以帮你避免很多问题。
模型能干好多事，但其最终的回复永远是混沌的，你很难控制其完美返回你想要的东西，做好预案可以节省不少事情。
调试至关重要，一定要做好日志的记录，这样才能在违背预期的时候分析发生了什么事情。
最重要的：智能体的开发是一个迭代的过程，不要期望在一开始就把一切做好。
最最重要的：高风险任务，永远保证HITL（人在环路中）

4.5

开发人员的职责

在Agent的开发的过程中，开发人员的职责不仅仅是设计系统和编写代码。

赋予模型专业领域的知识

明确智能体的个性

为智能体提供完成任务所需的工具

无论什么时候都要深入业务，代码不值钱，值钱的是你能把业务翻译成代码。

五、

企业级智能体的安全性与治理

一个成功的企业级智能体生态系统，其治理模式应如一个管理完善的数字国家：每个智能体都持有可验证的身份，所有流量都必须通过受控的网关，并由一个注册中心来管理谁可以在此运作以及它们被授权做什么。若缺乏这种统一的顶层规划，当企业内部的智能体数量激增时，将不可避免地导致**“智能体蔓延”（agent sprawl）**——一个难以管理且充满安全风险的复杂网络。

5.1

互操作性标准：构建通用语言

为了让智能体能够无缝协作，我们需要为它们之间的交互定义一套通用语言和协议。

**智能体与人类的交互：**交互方式正从简单的文本聊天机器人，向通过实时模式实现的实时、双向、多模态自然对话演进。这种模式允许用户通过语音与智能体交谈，并随时打断，就像与真人对话一样。这对提升用户体验、拓展应用场景（如现场技术支持、实时翻译）具有重大的战略意义。
**智能体之间的协作：**Agent2Agent (A2A) 协议正成为解决这一挑战的开放标准。它扮演着“通用握手协议”的角色，通过两个核心机制解决了不同团队开发的智能体之间的集成难题：
**标准化发现 (Agent Card)：**每个智能体可以发布一个数字“名片”，以标准化的JSON格式描述其功能、网络地址和安全要求，使其他智能体能够轻松发现并理解如何与之交互。
**异步任务通信：**智能体之间的交互被设计为异步的“任务”，而非简单的请求-响应模式。这使得它们能够处理需要长时间运行的复杂协作，并在此期间持续提供状态更新。

5.2

构建纵深防御安全体系

随着智能体被赋予越来越大的权限，它们也成为新的攻击方式。必须建立一个纵深防御的安全体系。

**确立“智能体身份”：**这是企业安全架构的根本性转变。若无专门的身份模型，智能体要么继承其用户的过宽权限，要么使用通用的服务账户，这两种情况都构成了不可接受且无法审计的安全风险。因此，智能体必须被视为继人类用户和服务账户之后的第三类安全主体。每个智能体都必须拥有一个自己可验证的、独立的加密身份（例如，使用SPIFFE标准），并被纳入企业身份与访问管理体系作为一个身份进行管理。
**实施最小权限原则：**一旦智能体拥有了独立身份，我们就可以对其进行精细的授权。通过一个集中的策略引擎，应为每个智能体身份精确授予其完成特定任务所需的最小权限。例如，销售智能体只能读写CRM数据，而绝不能访问人力资源系统。这极大地限制了单个智能体被攻破时可能造成的“爆炸半径”，是控制风险的核心手段。

5.3

建立中央治理控制平面

为了在企业范围内有效实施安全策略并避免“智能体蔓延”，架构的核心是一个中央网关，它作为所有智能体相关流量（用户到智能体、智能体到工具、智能体到智能体）的强制入口。

该控制平面承担两大核心功能：

运行时策略执行：作为所有流量的必经之路，网关是实施认证（我是谁？）、授权（我能做什么？）的理想场所。同时，它还能提供统一的可观测性，集中收集所有交互的日志、指标和追踪数据，将原本分散的系统活动转化为一个透明、可审计的整体。
集中化治理注册中心：将其想象为企业的“智能体应用商店”。这个注册中心是策略执行的“事实来源”，用于管理企业内所有智能体和工具的生命周期。开发者在此发布和发现可重用的组件，而治理团队则可以在此进行安全审查、版本控制，并定义细粒度的访问策略（例如，规定哪些业务部门可以使用哪些智能体）。

一个安全、可治理的架构是智能体生态系统健康发展的基础。而这个生态系统的最终价值，并不仅仅在于执行静态任务，更在于其不断学习和进化的能力。

六、

前沿案例

Google Co-Scientist

这是一个旨在加速科学发现的虚拟研究协作系统。它通过一个**“监督者”**智能体来协调一个由多个专业智能体组成的团队（如“文献研究智能体”、“数据分析智能体”等），从而将复杂的科学研究过程自动化。研究人员只需定义一个高阶的研究目标，Co-Scientist就能系统性地生成、辩论、验证和迭代大量新颖的科学假设，极大地拓展了人类研究者的探索边界。

AlphaEvolve

这是一个用于发现和优化复杂算法的AI系统。其强大之处在于一个不懈的进化循环：它首先生成解决特定问题的算法变体（以代码形式）；接着，一个自动化系统对其性能进行严格评估；然后，它选择出表现最优的算法，并将其作为“灵感”来指导下一代代码的生成。这种人机协作模式（由人类专家定义问题和评估标准）实现了算法发现的自动化，并已找到了超越人类已知最优解的新算法。

七、

思考

通过阅读这份白皮书，我更加确信了我之前的一篇文中提出的一些想法，并有了一些其他的补充：

CDC（变更数据捕获）是一个很有潜力的方向。尤其是关联数据的实时CDC更重要，我们的数据都是包含关系的，现在的CDC都是单表的。
通过文章我们能看出来，互联网时代的很多内容是可以很快迁移到当前的Agent中去的，比如网关、服务发现、调用链路，Docker等。
大数据的仍是一个非常重要的方向，所有的一切都源于数据以及数据的质量。
安全性变得越来越重要了。

END

并将其作为“灵感”来指导下一代代码的生成。这种人机协作模式（由人类专家定义问题和评估标准）实现了算法发现的自动化，并已找到了超越人类已知最优解的新算法。

普通人如何抓住AI大模型的风口？

为什么要学习大模型？

在DeepSeek大模型热潮带动下，“人工智能+”赋能各产业升级提速。随着人工智能技术加速渗透产业，AI人才争夺战正进入白热化阶段。如今近**60%的高科技企业已将AI人才纳入核心招聘目标，**其创新驱动发展的特性决定了对AI人才的刚性需求，远超金融（40.1%）和专业服务业（26.7%）。餐饮/酒店/旅游业核心岗位以人工服务为主，多数企业更倾向于维持现有服务模式，对AI人才吸纳能力相对有限。

在这里插入图片描述

这些数字背后，是产业对AI能力的迫切渴求：互联网企业用大模型优化推荐算法，制造业靠AI提升生产效率，医疗行业借助大模型辅助诊断……而餐饮、酒店等以人工服务为核心的领域，因业务特性更依赖线下体验，对AI人才的吸纳能力相对有限。显然，AI技能已成为职场“加分项”乃至“必需品”，越早掌握，越能占据职业竞争的主动权

随着AI大模型技术的迅速发展，相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业：