AI学习笔记整理（52）——大模型之Agent 智能体

Agent是人工智能领域中的一个概念，指的是具有自主性、反应性、主动性和社交能力等特性的计算实体。这种ai能够使用传感器感知周围环境，做出决策，然后使用执行器采取行动。大模型在AI Agent相关研究中得到了快速发展，它被视为通往AGI（Artificial General Intelligence，通用人工智能，是人工智能领域的终极目标，指具备与人类相当甚至超越人类的综合认知能力，能自主适应复杂

丝斯2011

834人浏览 · 2026-01-18 16:51:54

丝斯2011 · 2026-01-18 16:51:54 发布

什么是智能体Agent

大模型大家都知道，比如我们常见的 ChatGPT、DeepSeek 等，但是，这些大模型都有一个关键的问题，那就是他们没办法用工具，比如我想要让大模型帮我查询一个接口，他是做不到的。

Agent是具备感知、决策与行动能力的智能体，通过大模型（LLM）结合记忆（Memory）和工具（Tools）调用，实现自主规划与执行任务，如小爱同学自动点餐。其核心为：LLM + Memory + Tools + Planning。Agent 翻译成中文是智能体，或者叫做助理更合适，比如说这就是个 Agent：你对你的小爱同学说，我想吃肯德基，他就能分析出你可能想吃什么，然后让你确认后，直接就帮你把肯德基点好了。

这个过程需要：
1、小爱同学知道你想吃什么，了解你的口味。
2、小爱同学知道点餐需要打开先软件，然后搜索，然后付款
3、小爱同学可以帮你自动完成这些操作
该怎么实现这样的功能呢？下面这张图就是非常出名的 Agent 的图：
在这里插入图片描述
可以看到，这里面包括了 Tools、Action、Planning 以及 Memory，Tools 就是我们前面说过的工具，而 Action 就可以理解为是对工具的调用。

剩下的 Memory 这个好理解，就是需要有记忆的能力，包括了长期记忆和短期记忆，短期记忆可以理解为上下文记忆，就像你打开一个 ChatGPT 的对话窗口，这个就是个短期记忆，换个窗口记忆就清除了。长期记忆一般是通过一些其他的方式，比如数据库做存储，在每次对话前先让模型读取这些信息，作为长期记忆。

还有一个 Plan 的功能，这其实是在 Agent 有了记忆，会了工具之后，还需要他知道什么时候该调用哪些工具，这就是所谓的规则的能力。
那么总结下，Agent=LLM+Memory+Tools+ Planning（使用 + 规划）
基于以上介绍，差不多就能总结出一个 Agent 具备的能力。主要包括了：
• 感知（Perception）：Agent 能够接收来自环境的输入信息，包括用户输入的问题，以及 Memory。
• 决策（Decision-making）：Agent 根据感知到的信息和内部状态，选择合适（Planning）的行动（包括 Tools）。
• 行动（Action）：指Agent基于环境和规划做出的动作，以实现特定目标。

Agent并非ChatGPT升级版，它不仅告诉你“如何做”，更会帮你去做。如果CoPilot是副驾驶，那么Agent就是主驾驶。

AI小镇开源，含25个Agent，构建"西部世界"AI Town，模拟文明演进。OpenAI创始人Karpathy称AI Agent将颠覆未来。Agent源自拉丁语，意为“行动”，在LLM中指自主执行复杂任务的程序。

一个精简的Agent决策流程，用函数表达式：
Agent：P（感知）—> P（规划）—>A（行动）类似人类「做事情」的过程，Agent的核心功能，可以归纳为三个步骤的循环：感知(Perception)、规划(Planning)和行动(Action)。

感知(Perception)是指Agent从环境中收集信息并从中提取相关知识的能力，规划(Planning)是指Agent为了某一目标而作出的决策过程，行动(Action)是指基于环境和规划做出的动作。其中，Policy是Agent做出Action的核心决策，而行动又通过观察（Observation）成为进一步Perception的前提和基础，形成自主地闭环学习过程。
在这里插入图片描述
一个完整的Agent，一定是与环境充分交互的，它包括两部分——一是Agent的部分，二是环境的部分。此刻的Agent就如同物理世界中的「人类」，物理世界就是人类的「外部环境」。

对于业界，新的共识正在逐渐形成：第一是Agent需要调用外部工具，第二是调用工具的方式就是输出代码——由LLM大脑输出一种可执行的代码，像是一个语义分析器，由它理解每句话的含义，然后将其转换成一种机器指令，再去调用外部的工具来执行或生成答案。
在这里插入图片描述

什么是Planning，Action, Tools

Planning

参考链接：https://zhuanlan.zhihu.com/p/718959013

Agent Planning是Agent能力的核心，一个好的规划决定了Agent能否顺利执行以及解决问题。规划能够将大型任务分解为较小、可管理的子目标，以便高效的处理复杂任务；Agent可以对过去的行为进行自我批评和反省，从错误中吸取经验教训，并为接下来的行动进行分析、总结和提炼，这种反思和细化可以帮助Agent提高资深的智能和适应性，从而提高最终结果的质量。

任务分解：把大任务划分成小任务，进而解决复杂问题；
反思和提炼：基于已有动作做自我批评和自我反思，从错误中学习优化接下来的动作。

任务分解的典型实现方案是 CoT（Chain of thought）和 ToT（Tree of thoughts）。

一项复杂任务包括多个子步骤，智能体需要提前将任务分解，并进行规划。

规划模块分类

无反馈规划:大语言模型在做推理的过程中无需外界环境的反馈。这类规划进一步细分为三种类型:
单路推理，仅一次大语言模型调用就输出完整的推理步骤；
多路推理，借鉴众包思想，让大语言模型生成多个推理路径，进而确定最佳路径；
借用外部的规划器。
有反馈规划:外界环境提供反馈，而大语言模型需要基于环境的反馈进行下一步以及后续的规划。这类规划反馈的提供者来自三个方面:环境反馈、人类反馈和模型反馈

Action

Action模块是AI Agent架构中的核心组件之一。它的主要职责是将智能体的规划和决策转化为具体的操作，以实现预定的目标。这一过程类似于人类将大脑中的想法付诸实践，通过肢体动作与外界交互。

Action模块的核心要素

行动目标：指导智能体要达成的结果，例如完成特定任务、进行交流或探索环境。
行动生成：根据当前状态和目标，生成具体的行动计划。
行动空间：智能体可执行的所有可能动作的集合。
行动影响：评估所采取行动对环境和智能体自身的影响，以便进行反馈和调整。

Action模块的功能
在AI Agent的运行过程中，Action模块承担以下关键功能：

任务分解：将复杂任务分解为一系列可执行的子任务。
执行动作：根据规划模块的指令，执行具体的操作，如调用外部API、控制机器人执行物理动作等。
反馈循环：监测行动结果，并根据反馈调整后续行动策略。

Tools

Tools是一组工具集或者Agent可以利用的所有外部资源。这是Agent可调用、可执行的能力，它既可以是一个函数、API，还可以是其它任何大模型，包括另一个Agent应用等等。
在这里插入图片描述

Agent 的主要类型

规则式Agent：基于预设规则决策，逻辑透明、稳定性高，适合场景固定的任务。例如，快递分拣Agent根据“地址关键词-区域”规则将包裹分配至对应货架，无学习能力，规则需人工维护。
反应式Agent：仅根据当前环境状态响应，不存储历史信息，结构简单。例如，恒温Agent仅监测当前温度，低于阈值则启动加热，高于阈值则关闭。
目标驱动型Agent：结合当前状态与目标计算最优动作，引入“目标函数”指导决策。例如，导航Agent根据“当前位置-目的地-路况”计算最短路线。
学习型Agent：基于机器学习/深度学习模型，通过历史数据或实时反馈优化策略，适合动态复杂场景。例如，推荐Agent通过用户点击、购买数据不断优化推荐内容，是当前AI领域的核心应用类型。
多Agent系统（MAS）：多个独立Agent通过通信协议协作，分工处理子任务，实现“1+1>2”的效果。例如，智慧城市中，交通Agent、能源Agent、安防Agent协同保障城市运行。

Agent五种模式

参考链接：https://blog.csdn.net/qq_45735139/article/details/156370112
在这里插入图片描述

（一）工具使用模式（Tool use pattern）

核心精髓：工具使用模式可以看作是 ReAct 模式的前身或简化版。它允许 Agent 调用外部工具来弥补自身知识的不足，但通常缺乏 ReAct 模式中那种细致入微的“思考-行动-观察”循环。它的局限在于其推理能力较弱，通常只适用于单步、直接的任务，缺乏动态调整和迭代的能力。
工作流程（像请教专家）：

用户问问题：提出一个问题。
LLM 想想：小助手判断需要外援。
调用工具：它找来数据库或 API 查资料。
给出答案：根据查到的东西，生成回复。
交给你：答案回到你手里。

应用场景示例：
智能客服：一个客服 Agent 接到“查询我的订单状态”的请求。它不会胡乱猜测，而是思考需要查询订单信息，然后行动调用 query_order_status(order_id) 这个工具（API），最后根据返回的结果回答用户。
在这里插入图片描述

（二）ReAct模式（ReAct Pattern）

几乎所有高级的 Agent 模式都离不开一个核心思想——ReAct (Reason + Act)。这是 Agent 实现“思考”与“行动”循环的基础。

核心精髓： ReAct（Reasoning and Acting）模式是Agentic思想的奠基性贡献。它将“思考”（Reasoning）和 “行动”（Acting）紧密地结合在一起，形成一个动态的循环。这个模式让Agent不再是简单地调用工具，而是像人类一样“边想边做”。 ReAct 模式最早由 Yao 等人于 2022 年提出（论文《ReAct: Synergizing Reasoning and Acting in Language Models》），并在 Lilian Weng 的博客中得到系统阐述，成为Agentic系统设计的基础。

工作流程：

思考： Agent接收用户请求，推理任务需求并制定初步行动计划。
行动：根据思考结果，决定并执行具体行动（如调用工具）。
行动输入：为选定的工具提供必要参数。
观察：接收工具执行结果，作为对环境的“观察”。
循环迭代：将观察结果反馈给自己，再次思考并决定下一步，直到达到目标。

应用场景示例：
研究助理agent：任务是“查找关于‘大型语言模型在教育领域的应用’的最新研究论文”。

Thought: 我需要去学术搜索引擎搜索相关论文。
Action: search_arxiv(“large language models in education”)
Observation: （返回了10篇论文的标题和摘要）
Thought: 结果太多了，我需要筛选出最近一年且被引用次数最多的论文。
Action: filter_papers(results, min_year=2023, sort_by=“citations”)
Observation: （返回了3篇最相关的论文）
Thought: 我已经找到了最相关的论文，现在可以总结并回答用户了。

（三）反思模式（Reflection pattern）

为了提高任务完成的质量，Agent 在完成一个步骤或整个任务后，会进行自我评估和反思，并根据反思结果进行修正。

核心精髓： 反思模式是 ReAct 模式中“思考”环节的深化。它强调 Agent 在完成任务后，能够像人类一样进行自我审查和评估。这个过程让 Agent 能够从错误中学习，持续优化自己的表现。

工作流程：

用户问问题：你给小助手提个问题。
LLM 给出初稿：小助手先试着回答，写个初步答案。
用户反馈：用户查看答案行不行，提出意见。
LLM 自己反思：小助手想想哪里不对，改改答案。
反复调整：可能来回改几次，直到你满意。
交给你：最终答案交到你手里。

应用场景示例：
AI代码生成器：任务是“写一个 Python 函数来计算斐波那契数列”。

Action: Agent 快速生成了一个使用递归实现的函数。
Reflection (Self-Critique): Agent 开始反思生成的代码。“这个递归实现在计算较大数值时，会因为重复计算而导致性能低下。我应该优化它。”
Action (Refinement): Agent 重新编写代码，使用了带缓存（memoization）的动态规划方法，大大提高了效率，然后将优化后的代码作为最终答案。

（四）规划模式（Planning Pattern）

当任务非常复杂，无法通过简单的 ReAct 循环一步到位时，Agent 需要先进行宏观规划。

**核心思想：**先将一个大目标分解成一个详细的、有序的计划（Plan），然后再逐一执行计划中的每个步骤（每个步骤可能是一个 ReAct 循环）。

应用场景示例：
AI旅行规划师：任务是“帮我规划一个为期五天的巴黎家庭亲子游”。

Planning Phase: Agent 首先生成一个计划：
步骤一：确定旅行日期和预算。
步骤二：根据亲子游的特点，搜索并筛选合适的景点（如迪士尼、卢浮宫儿童区）。
步骤三：规划每日行程，确保节奏轻松，并预订门票。
步骤四：搜索并推荐适合家庭入住的酒店和餐厅。
步骤五：汇总所有信息，生成一份详细的旅行计划文档。
Execution Phase: Agent 开始按顺序执行上述步骤，每一步都可能调用搜索、预订等工具。

（五）多智能体模式（Multi-agent Pattern）

对于极其复杂的系统性任务，单个 Agent 可能难以胜任。这时，可以设计多个具有不同角色和能力的 Agent，让它们协同工作。

核心精髓： 多智能体模式是Agentic思想的终极体现，它模拟了人类团队协作的工作方式。它不再依赖一个Agent单打独斗，而是创建多个具有不同专长的Agent，让它们各司其职、相互协作，共同完成一个复杂的任务。尽管多智能体模式功能强大，但实现时需要解决Agent间的通信效率、任务冲突等问题，这对系统设计提出了更高要求。

应用场景示例：
软件开发过程：

用户问问题：用户提个大需求（比如开发一个软件项目）。
PM Agent：项目经理 Agent 分析需求并分配任务（协调整个团队）。
委托任务：任务交给 DevOps 和 Tech Lead（DevOps 负责运维，Tech Lead 负责技术领导）。
执行任务：DevOps（处理部署和测试）和 SDE（编写代码）干活（具体实施任务）。
结果汇总：大家干完后，把结果汇报给 PM Agent（统一收集反馈）。
交给你：PM Agent 整合所有结果，给用户最终答案（交付完成的项目）。

这个流程通过多个智能体协作，模拟真实团队工作，确保复杂任务高效完成。
在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

大模型入门指南：从“文字接龙”到“数字特工”，小白也能轻松掌握（收藏学习）

大模型是超级统计模型，通过海量数据学习语言规律，而非真正理解。Transformer架构和注意力机制是其核心，使其能处理长文本。大模型通用性强、迁移能力好，但存在幻觉、时效性滞后和复杂逻辑易出错等问题。未来将向多模态和智能体方向发展。使用时应发挥创意、保持警惕，适用于头脑风暴、文字润色等场景，但涉及金钱、医疗等领域需谨慎