Chapter 2: 智能体发展史 (Part 5: LLM 驱动的现代智能体架构)
在集齐了符号推理、强化学习决策和 LLM 通用知识库这三块拼图后,现代智能体终于诞生了。它不再是一个单纯的语言模型,而是一个拥有感知、记忆、规划和工具使用能力的。
基于Datawhale的hello-agent开源项目做的一些笔记,内容仅供参考,原PDF以及代码可以去github仓库获取https://datawhalechina.github.io/hello-agents
在集齐了符号推理、强化学习决策和 LLM 通用知识库这三块拼图后,现代智能体终于诞生了。它不再是一个单纯的语言模型,而是一个拥有感知、记忆、规划和工具使用能力的自主系统。
2.4.4 基于大语言模型的智能体
随着大型语言模型技术的飞速发展,以 LLM 为核心的智能体已成为人工智能领域的新范式。它不仅能够理解和生成人类语言,更重要的是,能够通过与环境的交互,自主地感知、规划、决策和执行任务 。
核心架构图解
如第一章所述,智能体与环境的交互可以被抽象为一个核心循环。LLM 驱动的智能体通过一个由多个模块协同工作的、持续迭代的闭环流程来完成任务。该流程遵循下图所示的架构:
工作流详解:感知-思考-行动循环
该流程具体遵循以下步骤 :
1. 感知 (Perception)
- 输入:流程始于感知模块 (Perception Module)。它通过传感器从外部环境 (Environment) 接收原始输入。
- 转化:形成 观察 (Observation)。这些观察信息(如用户指令、API 返回的数据或环境状态的变化)是智能体决策的起点。
- 流向:处理后的信息将被传递给思考阶段。
2. 思考 (Thought)
这是智能体的认知核心,对应图中的 规划模块 (Planning Module) 和 大型语言模型 (LLM) 的协同工作。
-
规划与分解:规划模块接收观察信息,进行高级策略制定。
-
关键机制:通过 反思 (Reflection) 和 自我批判 (Self-criticism) 等机制,将宏观目标分解为更具体、可执行的步骤。
-
推理与决策: 作为中枢的 LLM 接收来自规划模块的指令。
-
记忆交互:与记忆模块 (Memory) 交互以整合历史信息。
-
输出:LLM 进行深度推理,最终决策出下一步要执行的具体操作,这通常表现为一个 工具调用 (Tool Call)。
💡 深度解析:为什么需要规划?
纯粹的 LLM 是“单步推理”的,容易陷入局部最优。规划模块(如 ReAct, Plan-and-Solve)强制 LLM 先生成一个“计划清单”,然后逐一执行。这大大提升了处理复杂长程任务(Long-horizon Tasks)的成功率。
3. 行动 (Action)
决策完成后,进入行动阶段,由 执行模块 (Execution Module) 负责。
- 解析:LLM 生成的工具调用指令被发送到执行模块。
- 调用:该模块解析指令,从工具箱 (Tool Use) 中选择并调用合适的工具(如代码执行器、搜索引擎、API 等)来与环境交互或执行任务。
- 交互:这个与环境的实际交互就是智能体的 行动 (Action)。
4. 观察 (Observation) 与循环
行动会改变环境的状态,并产生结果,从而闭合循环。
- 工具反馈:工具执行后会返回一个 工具结果 (Tool Result) 给 LLM,这构成了对行动效果的直接反馈。
- 环境变更:智能体的行动改变了环境,产生了一个全新的环境状态。
- 新一轮循环:“工具结果”和“新的环境状态”共同构成了一轮全新的观察。
- 记忆更新:LLM 根据行动结果 更新记忆 (Memory Update),启动下一轮“感知-思考-行动”的循环。
更多推荐



所有评论(0)