为什么説Agent不是AI，而是新型软件架构?

大模型只是“思考者”，Agent才是“行动者”。本文系统梳理Google官方Agent白皮书核心框架，从四要素构成、五级能力演进到企业级安全治理，揭示Agent本质是围绕上下文动态管理的新型软件架构范式，而非简单的AI聊天机器人。

TGITCIC

435人浏览 · 2026-01-15 08:20:49

TGITCIC · 2026-01-15 08:20:49 发布

前言

过去一年，"AI Agent"成了技术圈最热门的 buzzword。但热闹背后，很多人仍把它等同于更聪明的聊天机器人，或者干脆当成Prompt工程的高级玩法。直到我认真读完Google与Kaggle联合发布的《Introduction to Agents and Agent Architectures》这份白皮书，才真正意识到：我们正在经历一次软件架构的根本性迁移。Agent不是在原有软件上加个AI插件，而是用一套全新的逻辑重新组织计算、数据与交互。它把大模型从“回答问题的工具”变成了“驱动任务的引擎”，通过循环调用、工具集成和记忆管理，让程序具备了自主规划与执行的能力。这种转变对开发者、架构师乃至整个软件工程方法论都提出了新要求。本文将系统拆解这份白皮书的核心思想，厘清Agent的技术本质、能力边界与工程实践路径，帮助读者跳出“AI功能”的狭隘视角，理解其作为下一代软件基础设施的深层意义。

1. Agent的四要素构成

1.1 大语言模型：中央推理引擎

大语言模型在Agent中扮演大脑角色，负责信息处理、结果评估与决策制定。选择模型时不应只关注学术基准测试分数，而应重点考察其在推理链条构建和工具调用指令生成方面的能力。模型需能清晰识别任务依赖关系，并输出结构化调用参数。值得注意的是，单一模型并非唯一选择，多个模型可组成协作团队，各自承担不同子任务，形成分工明确的推理网络。

1.2 工具：连接外部世界的手

工具赋予Agent操作现实世界的能力。常见工具包括RAG（检索增强生成）、函数调用、API调用及人机交互接口。需要特别区分函数调用与API调用的本质差异：函数调用是模型生成结构化调用指令（如指定参数），而API调用则是实际执行该指令并返回结果。前者是“点菜”，后者是“上菜”。工具的质量直接决定了Agent的能力边界，高质量工具应具备明确的输入输出规范、稳定的响应格式和完善的错误处理机制。

1.3 编排层：智能体的神经系统

编排层控制整个Agent的运行流程，包含三大核心功能：

记忆管理：短期记忆记录当前对话轨迹，长期记忆存储跨会话的用户偏好或历史交互。
推理策略：通常采用思维链（Chain-of-Thought）和ReAct框架，将复杂任务分解为可执行的子步骤。
上下文工程：动态组装输入给模型的提示词，不仅包含用户原始请求，还整合系统指令、历史记忆和可用工具说明，确保模型始终在最优上下文中进行推理。

1.4 运行时服务：部署与监控的身体

运行时服务提供生产环境所需的可靠性保障，包括日志记录、性能监控、服务编排和A2A（Agent-to-Agent）通信支持。完善的运行时服务能实现全链路追踪，便于调试和优化。同时，它为Agent间协作提供标准化接口，扩展系统整体能力边界。

2. Agent的运作机制

2.1 五步循环工作流

Agent通过持续循环的五个步骤解决问题：

接收任务：获取明确的高级目标，可来自用户输入或自动化触发。
感知场景：收集当前上下文，包括用户请求、短期记忆、长期记忆和可用工具。
思考：结合任务与场景，制定多步骤计划，生成下一步工具调用指令。
采取行动：执行计划中的具体步骤，调用相应工具影响外部世界。
观察与迭代：获取行动结果，更新上下文，返回思考阶段继续推理。

这个循环持续进行，直到任务完成。整个过程本质上是不断精选和重组上下文窗口，为模型提供最相关的信息以支持决策。

2.2 能力演进的五个层级

Google将Agent能力划分为五个递进层级：

层级	名称	核心能力	关键限制
0级	核心推理系统	基于预训练知识的孤立推理	无法获取实时信息，对外部世界“盲目”
1级	互联的问题解决者	通过工具获取实时信息，执行单次思考-行动-观察循环	缺乏全局视野，无法处理多步骤依赖任务
2级	战略性的问题解决者	制定多步骤计划，主动选择和打包相关信息	单一Agent处理复杂任务存在能力瓶颈
3级	协作式多智能体系统	任务分解与专家Agent协作，形成“项目经理+专家团队”模式	需要复杂的协调机制和通信协议
4级	自我进化系统	识别能力差距，自主创建新工具或新Agent填补空白	需要元推理能力和安全可控的自主创造机制

企业在构建Agent应用时，应根据业务需求选择合适的层级，避免过度设计或能力不足。

3. 开发范式的根本转变

3.1 从砌砖匠到导演

传统软件开发如同砌砖匠，精确控制每个执行路径和输出结果。Agent开发则更像导演，重点在于：

设置场景（系统指令和提示词）
选择演员（模型、工具、API）
提供背景（数据和上下文）

开发者不再编写确定性流程，而是构建一套解决方案框架，让大模型在其中自主决策。这种转变带来了新的挑战：Agent的响应本质上是概率性的，无法保证每次输出完全一致。

3.2 评估与调试的新方法

针对Agent的概率性特性，Google提出五种应对策略：

衡量关键指标：通过A/B测试定义KPI，如目标完成率、用户满意度、成本等。
用LLM作为评判：构造裁判Agent，根据预定义准则评估结果质量。
指标驱动开发：将新版本质量得分与生产版本比较，作为部署依据。
链路追踪调试：记录完整执行路径日志，追溯问题根源。
人类反馈闭环：收集用户反馈，转化为评估数据集中的新测试样例。

3.3 多智能体设计模式

面对复杂任务，可采用不同的多智能体协作模式：

协调者模式：管理者Agent分解任务并路由给专家子Agent，适合非线性复杂任务。
顺序模式：Agent形成处理链条，前一个输出作为后一个输入，适合线性工作流。
迭代优化模式：生成者Agent创建初稿，批评者Agent评估并反馈改进建议，形成质量提升循环。
人在环路模式（HITL）：在高风险操作前暂停流程，请求人类审批，增加安全阀。

模式选择需权衡灵活性与可预测性，协调者模式灵活但复杂，顺序模式简单但缺乏适应性。

4. 企业级安全与治理

4.1 互操作性标准

为实现Agent间无缝协作，需建立通用语言和协议：

人机交互：向实时、双向、多模态自然对话演进，支持语音交互和随时打断。
Agent间协作：采用A2A协议，包含标准化发现（Agent Card）和异步任务通信两大机制。Agent Card以JSON格式描述功能、地址和安全要求，异步通信支持长时间运行的复杂协作。

4.2 纵深防御安全体系

随着Agent权限扩大，安全风险同步增加，需建立三层防御：

确立智能体身份：将Agent视为第三类安全主体（继人类用户和服务账户之后），赋予独立加密身份。
实施最小权限原则：通过集中策略引擎，为每个Agent精确授予完成任务所需的最小权限。
建立中央治理控制平面：所有流量经由中央网关，统一执行认证、授权和可观测性收集。

4.3 治理注册中心

中央注册中心作为“智能体应用商店”，管理所有Agent和工具的生命周期：

开发者在此发布和发现可重用组件
治理团队进行安全审查、版本控制和访问策略定义
避免“智能体蔓延”，确保生态系统有序发展

5. 实践启示与未来展望

5.1 开发者的核心职责

在Agent时代，开发者的职责发生根本转变：

赋予模型专业领域知识
明确智能体的个性特征
提供完成任务所需的工具集
深入理解业务逻辑，将业务需求准确翻译为代码

代码本身价值下降，业务理解能力成为核心竞争力。

5.2 技术迁移的机遇

互联网时代积累的许多技术可直接迁移到Agent架构：

网关技术用于流量控制和安全验证
服务发现机制支持Agent动态协作
调用链路追踪实现全链路可观测性
容器化技术（如Docker）便于Agent部署和隔离

这些成熟技术为Agent生态建设提供了坚实基础。

5.3 数据质量的关键作用

所有Agent能力最终都源于数据质量。高质量数据不仅是模型训练的基础，更是工具调用、记忆管理和上下文工程的源头。变更数据捕获（CDC）技术，特别是关联数据的实时CDC，将成为Agent系统的重要支撑。数据的完整性、一致性和实时性直接决定Agent的可靠性。

Agent不是终点，而是软件智能化的新起点。它将大模型从被动问答工具转变为主动任务执行者，重构了软件与现实世界的交互方式。这种架构范式转移带来的不仅是技术挑战，更是对软件工程方法论的深度重塑。当我们真正理解Agent的本质是围绕上下文动态管理的新型软件架构，而非简单的AI功能叠加时，才能在这场变革中把握住真正的机遇。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【智能体初体验】初识RAG

我感觉LangChain4j 中文文档（RAG (检索增强生成) | LangChain4j 中文文档）中的介绍还挺有趣：“RAG 是一种在发送给 LLM 之前，从你的数据中找到并注入相关信息片段到提示中的方法。这样 LLM 将获得（希望是）相关信息，并能够使用这些信息回复，这应该会降低产生幻觉的概率。”我的理解是：例如，向 LLM 提问一个问题（qustion），RAG 从各种数据源检索相关的