基于Datawhale的hello-agent开源项目做的一些笔记,内容仅供参考,原PDF以及代码可以去github仓库获取https://datawhalechina.github.io/hello-agents
在集齐了符号推理、强化学习决策和 LLM 通用知识库这三块拼图后,现代智能体终于诞生了。它不再是一个单纯的语言模型,而是一个拥有感知、记忆、规划和工具使用能力的自主系统

2.4.4 基于大语言模型的智能体

随着大型语言模型技术的飞速发展,以 LLM 为核心的智能体已成为人工智能领域的新范式。它不仅能够理解和生成人类语言,更重要的是,能够通过与环境的交互,自主地感知、规划、决策和执行任务

核心架构图解

如第一章所述,智能体与环境的交互可以被抽象为一个核心循环。LLM 驱动的智能体通过一个由多个模块协同工作的、持续迭代的闭环流程来完成任务。该流程遵循下图所示的架构:

大脑与控制中枢

感知与记忆系统

观察 (Observation)

处理后的观察

计划/指令

学习与检索

学习与检索

决策 (Decision)

行动 (Action)

记忆更新 (Memory Update)

工具调用 (Tool Call)

工具返回结果 (Tool Result)

工具使用 (Tool Use)

信息检索
(搜索, 数据库)

代码执行
(运行, 计算)

外部 API 调用
(邮件, 天气等)

文件操作
(读, 写)

外部环境
(Environment)

感知模块
(传感器: 文本, 图像等)

感官记忆
(多模态)

短期记忆
(上下文 Context)

长期记忆
(向量数据库等)

规划模块 (Planning)
(反思, 自我批判,
思维链 CoT, ToT 等)

大语言模型
(LLM)

执行模块
(Execution)

工作流详解:感知-思考-行动循环

该流程具体遵循以下步骤 :

1. 感知 (Perception)
  • 输入:流程始于感知模块 (Perception Module)。它通过传感器从外部环境 (Environment) 接收原始输入。
  • 转化:形成 观察 (Observation)。这些观察信息(如用户指令、API 返回的数据或环境状态的变化)是智能体决策的起点。
  • 流向:处理后的信息将被传递给思考阶段。
2. 思考 (Thought)

这是智能体的认知核心,对应图中的 规划模块 (Planning Module)大型语言模型 (LLM) 的协同工作。

  • 规划与分解:规划模块接收观察信息,进行高级策略制定。

  • 关键机制:通过 反思 (Reflection)自我批判 (Self-criticism) 等机制,将宏观目标分解为更具体、可执行的步骤。

  • 推理与决策: 作为中枢的 LLM 接收来自规划模块的指令。

  • 记忆交互:与记忆模块 (Memory) 交互以整合历史信息。

  • 输出:LLM 进行深度推理,最终决策出下一步要执行的具体操作,这通常表现为一个 工具调用 (Tool Call)

💡 深度解析:为什么需要规划?
纯粹的 LLM 是“单步推理”的,容易陷入局部最优。规划模块(如 ReAct, Plan-and-Solve)强制 LLM 先生成一个“计划清单”,然后逐一执行。这大大提升了处理复杂长程任务(Long-horizon Tasks)的成功率。

3. 行动 (Action)

决策完成后,进入行动阶段,由 执行模块 (Execution Module) 负责。

  • 解析:LLM 生成的工具调用指令被发送到执行模块。
  • 调用:该模块解析指令,从工具箱 (Tool Use) 中选择并调用合适的工具(如代码执行器、搜索引擎、API 等)来与环境交互或执行任务。
  • 交互:这个与环境的实际交互就是智能体的 行动 (Action)
4. 观察 (Observation) 与循环

行动会改变环境的状态,并产生结果,从而闭合循环。

  • 工具反馈:工具执行后会返回一个 工具结果 (Tool Result) 给 LLM,这构成了对行动效果的直接反馈。
  • 环境变更:智能体的行动改变了环境,产生了一个全新的环境状态。
  • 新一轮循环:“工具结果”和“新的环境状态”共同构成了一轮全新的观察。
  • 记忆更新:LLM 根据行动结果 更新记忆 (Memory Update),启动下一轮“感知-思考-行动”的循环。
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐