【强烈推荐收藏】Agent从入门到精通：小白也能看懂的核心组件与工作原理

文章介绍了Agent的定义及其三大核心组件：模型（思考决策的"大脑"）、工具（执行操作的"手脚"）和指令（规范行为的准则）。Agent不同于传统LLM，不仅能对话思考，还能实际执行任务完成目标。整个Agent系统形成一个"思考-行动-调整"的闭环，能够独立完成复杂任务，是AI领域的重要发展方向。

大模型玩家

670人浏览 · 2025-11-18 10:29:36

大模型玩家 · 2025-11-18 10:29:36 发布

1、首先，聊一聊什么是 Agent?

先来看看openAI给出的定义：

也就是：

Agent 是能够代表你独立完成任务的系统。

说简单一点，可以理解 Agent 就是变个形式的 “人”，不仅可以思考，而且可以实际行动。

传统 LLM 只能进行对话聊天，而无法像人一样帮你完成某些操作，例如你可以和豆包对话，问它 “帮我抢一个从北京到西安最优惠的机票。” 那么它只能给你一个如何去找最优惠机票的方法，而无法实现帮你去抢机票，例如操作手机或电脑来帮你抢机票，而对于 Agent 而言，它不仅可以帮你规划如何去找最优惠的机票，并且可以帮你实际去抢 ，用 OpenAI 的定义来说，也就是独立帮你完成了抢最优惠机票的任务。

2、其次，再来聊聊 Agent 由哪些部分组成？

OpenAI 在相关指南中明确提到，Agent 的三大基础组件为模型（Model）、工具（Tools）和指令（Instructions） ，每一部分都有不可替代的作用。

其实很简单，大家只需将其映射到日常生活即可，就像我们人一样，要完成一项任务，首先需要思考如何去做(大脑)、其次需要实际动手完成（手和脚）、最后在做的过程中如何去做(指令)。 很多抽象的事物，只要将其映射到日常生活，便可一目了然！Agent的框架大致如下图：

在这里插入图片描述

为了进一步加深理解，下面我们结合上面提到的 “抢机票” 的案例逐一拆解：

2.1 模型（LLM）：Agent 的 “大脑”，负责思考与决策

模型是 Agent 的核心决策单元，相当于人类的大脑，主要作用是理解任务目标、分析上下文、规划执行步骤，并判断下一步该做什么。它的能力直接决定了 Agent 能否 “想明白” 任务，比如在 “抢机票” 场景中：

理解需求：模型会先拆解用户需求 ——“北京到西安” 是航线、“最优惠” 是价格优先级、“抢” 意味着需要实时监控库存与价格波动；
规划步骤：它会制定出清晰的执行逻辑，比如 “先调用机票查询工具获取实时航班列表→筛选出价格低于 600 元的航班→判断是否需要对比不同平台价格→确认库存后调用预订工具锁定机票”；
应对意外：如果查询工具返回 “当前航线无直飞低价票”，模型会进一步决策 —— 是推荐中转航班，还是设置价格提醒等待降价，而不是直接暂停任务。

不同模型的 “思考能力” 有差异：简单任务（如筛选机票价格）可用轻量模型，复杂任务（如结合用户出行习惯、退改政策综合选最优机票）则需要更强大的模型。就像新手助手和资深旅行顾问的区别，前者能完成基础筛选，后者能考虑更多细节做出更优决策。

2.2 工具（Tools）：Agent 的 “手脚”，负责执行具体操作

光有 “大脑” 还不够，Agent 需要 “手脚” 才能落地执行 —— 这就是工具的作用，如MCP协议所实现的

工具是 Agent 与外部系统交互的桥梁，能帮它获取信息、操作软件或完成特定动作，比如查询数据、调用 API、操作网页等。在 “抢机票” 任务中，Agent 至少需要这些工具：

信息获取类工具：机票查询 API（获取实时航班价格、库存、起飞时间）、天气查询工具（判断出发日是否有暴雨等影响航班的天气，避免推荐易延误航班）；
操作执行类工具：机票预订工具（登录用户账户、填写乘客信息、锁定座位并支付）、提醒工具（若暂时无低价票，设置价格预警，当票价降至目标区间时自动触发通知）；
特殊场景工具：对于没有公开 API 的旧版订票系统，Agent 还可能用到 “网页自动化工具”—— 像人一样点击网页按钮、输入文字，模拟手动订票操作。

工具的设计有两个关键原则：一是 “标准化”，比如所有工具的输入格式（如航班查询需传入 “出发地 + 目的地 + 日期”）、输出格式（如返回 “航班号 + 价格 + 剩余座位数”）要统一，方便模型快速调用；二是 “可复用”，比如 “价格对比工具” 不仅能用于机票任务，还能在 “订酒店”“买火车票” 任务中复用，减少重复开发。

2.3 指令（Instructions）：定义Agent来做什么(扮演什么角色)，规范行为边界

有了 “大脑” 和 “手脚”，还需要明确的 “操作手册”—— 指令，来告诉 Agent“该做什么、不该做什么、要注意什么”，避免它做出不符合预期的行为。指令就像给助手的工作准则，越清晰具体，Agent 的执行效果越好。以 “抢机票” 为例，指令可以包含这些细节：

明确行动标准：“筛选最优惠机票时，需同时满足‘价格低于 600 元’‘飞行时间不超过 3 小时’‘退改手续费不超过 50 元’，若无法同时满足，优先保证价格最低”；
规定交互方式：“若需要用户补充信息（如身份证号、乘客姓名），必须用‘麻烦提供一下您的 XX 信息，以便完成机票预订’的话术，不使用模糊表述”；
设定风险边界：“若预订时发现票价突然上涨超过 50 元，需先暂停操作，给用户发送‘当前票价较之前上涨 XX 元，是否继续预订’的确认消息，得到回复后再执行”；
覆盖边缘情况：“若调用预订工具时返回‘账户余额不足’，需立即停止操作，提示用户‘您的账户余额不足，无法完成支付，请先充值’，不尝试其他支付方式”。

指令的质量直接影响 Agent 的可靠性：如果指令写 “尽量找便宜机票”，模型可能会忽略退改政策等关键因素；但如果像上面这样明确标准，Agent 就能精准执行，减少出错概率。甚至可以利用现有文档生成指令 —— 比如把航空公司的订票规则、用户的出行偏好整理成文档，让高级模型自动转化为清晰的操作指南，提高指令编写效率。