一、什么是AI Agent:核心构成与定义

在深入探讨具体的设计模式之前,我们首先需要明确AI Agent(智能体) 的本质。严格来说,当前我们讨论的AI Agent主要是指LLM Agent,其核心是一个模块化架构,可以概括为以下公式:

LLM AGENT = LLM + 记忆 + 规划 + 工具使用

这个框架揭示了构成一个功能完备的智能体所必需的四个基本支柱:

  • LLM(大语言模型):作为系统的“大脑”,负责理解、推理与内容生成,是所有智能行为的核心驱动力。
  • 记忆(Memory):赋予Agent状态持续性,包括短期记忆(如当前的对话上下文)和长期记忆(如向量数据库中的历史知识),使其能进行连贯的、有背景的多轮交互。
  • 规划(Planning):使Agent能够将复杂目标分解为可执行的子任务序列。这涵盖了诸如思维链(Chain of Thoughts)子目标分解(Subgoal Decomposition) 等技术,是实现复杂问题求解的关键。
  • 工具使用(Tools):扩展Agent的能力边界,使其能够与外部世界互动。工具可以包括计算器(Calculator)搜索引擎(Search)代码解释器(Code Interpreter)应用程序API等,将LLM的认知能力转化为实际行动。

这个基础框架为后续所有Agent设计模式的演进与创新提供了共同的基石和设计空间。

二、从ReAct出发:两条核心演进路径

在Agent设计模式的发展历程中,ReAct(Reasoning + Acting)模式是最早出现且应用最广泛的起点。它奠定了Agent通过“思考-行动-观察”循环与环境交互的基本范式。

以ReAct为原点,后续的演进主要沿着两条清晰的技术路径展开:

  1. 规划与执行效率优化路径:旨在解决ReAct模式中存在的Token消耗不可控、执行延迟高等问题,代表模式有ReWOO、Plan & Execute和LLM Compiler。
  2. 推理与反思能力增强路径:旨在提升Agent在复杂任务中的决策质量、可靠性和自主性,代表模式有Basic Reflection、Self-Discover、Reflexion和LATS。

以下我们将对这些关键模式进行详细解析。

2.1 ReAct:思考-行动-观察循环

作为奠基性模式,ReAct模拟人类解决问题的方式,循环执行以下步骤:

  1. 思考(Reason):分析当前状态和任务目标,决定下一步行动。
  2. 行动(Act):执行所决定的动作,通常是调用一个工具。
  3. 观察(Observe):获取工具执行的结果,作为下一轮思考的输入。

如果观察到的结果并不匹配我们预期的答案,那么就需要回到思考阶段,重新审视问题和行动计划。这样,我们就开始了新一轮的TAO循环,直到找到问题的解决方案。

优点:逻辑直观,易于理解和实现,适合简单任务和原型验证。不足

  • 输出不稳定:受LLM本身波动性影响。
  • 成本与延迟不可控:循环次数未知,易导致Token消耗过高和响应时间过长。
  • 不适合同步接口:秒级以上的延迟使其难以用于实时交互场景。

2.2 ReWOO:推理与观察解耦

ReWOO(Reasoning Without Observation)的核心创新在于将规划(推理)阶段与执行(观察)阶段分离。它要求LLM一次性规划出完整的工具调用链,然后再依次执行,避免了ReAct中反复穿插的“思考-观察”所带来的冗余提示。

详细对比一下ReAct和REWOO,如下图所示。

REWOO优点

  • 显著降低Token消耗:ReWOO 将推理过程与使用外部工具的过程分开,避免了在依赖观察的推理中反复提示的冗余问题,减少了大量包含历史观察结果的重复提示。
  • 模块化架构:通过Planner(规划器)、Worker(执行器)、Solver(求解器)的分工,提升了系统的清晰度和可扩展性。

REWOO局限

  • 强依赖初始规划:若规划器生成的计划有误或不完备,整个任务将失败,尤其对复杂任务挑战较大。

2.3 Plan & Execute:分层规划与动态重规划

Plan-and-Execute强调“先计划,再执行”,即先把用户的问题分解成一个个的子任务,然后再执行各个子任务,并根据执行情况调整计划。相比ReWOO,最大的不同就是加入了Replan机制。其架构通常包含规划器、执行器和重规划器。

从原理上看,Plan-and-Execute和ReAct有一定的相似度,都涉及"规划-执行"的循环。但是Plan-and-Execute的核心优点在于具备明确的长期规划能力。它能够在任务开始前,就制定出一个全局性的、分层次的计划蓝图,这一点即使是能力非常强大的LLM在简单的ReAct循环中也难以自发、稳定地做到。

另一大优势是异构模型部署的灵活性:系统可以使用较大的、能力更强的模型(如GPT-4)专门负责复杂的规划工作,而使用较小的、成本更低的模型(如GPT-3.5-Turbo)来执行具体的、定义清晰的子任务步骤。这种分工可以显著降低整体的执行成本。

但是Plan-and-execute模式也有其明显的局限性每个子任务通常是按顺序执行的,下一个任务必须等待上一个任务完成后才能开始。在复杂的任务流中,这种线性的执行方式可能会导致总执行时间的显著增加,无法充分利用任务间的潜在并行性。

2.4 LLM Compiler:基于DAG的并行化规划

LLM Compiler代表了规划效率优化的高阶形态。它在ReWOO引入的变量分配等思想基础上,进一步训练或引导大语言模型生成一个有向无环图(Directed Acyclic Graph,DAG)形式的任务规划

核心创新与价值

  • 明确依赖,实现并行:DAG能够清晰地定义各个子任务步骤之间的依赖关系。这使得没有依赖关系的任务可以并行执行,实现了类似现代处理器“乱序执行”的效果,从而大幅加速AI Agent完成复杂任务的总体速度
  • 解决顺序瓶颈:它从根本上解决了Plan & Execute模式中任务必须顺序执行的瓶颈。

工作流程示例: 例如,当Agent被提问“微软的市值需要增加多少才能超过苹果的市值?”时,LLM Compiler生成的DAG规划会识别出:

  1. 获取“微软当前市值”与获取“苹果当前市值”这两个子任务相互独立,没有依赖关系
  2. 因此,Planner可以并行发起这两个搜索任务。
  3. 在两个结果都返回后,再执行“计算差值”这个依赖前两个结果的任务。 这种并行化显著缩短了响应时间。

2.5 Basic Reflection:生成与反思迭代

Basic Reflection是一种侧重于通过自我审查来优化输出的AI Agent模式,其机制可以形象地类比为“左右互搏”:

  • 左手(Generator/生成器):负责根据用户指令生成初始结果(initial response)。
  • 右手(Reflector/反思器):负责审查Generator的生成结果,并根据开发者预设的要求,给出包含评语、特征和建议的Reflections(反思反馈)。

工作流程: Generator接收到用户输入后,输出第一轮响应;该响应被送入Reflector进行审查并获得反馈;Generator再根据此反馈进行修改和优化,输出下一轮响应。这个过程循环往复,直到达到预设的循环次数或满足终止条件。

总体评价与缺陷: Basic Reflection是一种思路非常朴素、实现和使用成本相对较低的反思类设计模式,在实践中非常高效。然而,它也存在明显缺陷:

  1. 对生成器能力要求高:对于复杂问题,Generator需要具备强大的推理能力才能生成有优化价值的基础答案。
  2. 结果可能发散:Generator的生成结果有时会过于发散,与预期目标相去甚远,导致反思循环难以收敛。
  3. 循环次数难定义:在复杂场景下,循环次数不易设定。次数太少,优化效果不理想;次数太多,则会急剧增加Token消耗和成本。

2.6 Self-Discover:自主构建推理结构

Self-Discover是由Google研究人员提出的一种旨在提升模型推理能力的AI Agent框架。其核心是让模型自主发现和构建解决特定任务所需的推理结构,而无需依赖大量带有明确推理过程标签的数据。

框架的两个主要阶段

  1. 阶段一:自发现特定任务的推理结构此阶段包含三个关键动作:
  • 选择(SELECT):从一组预定义的原子推理模块(如“批判性思维”、“逐步思考”、“从多角度分析”等)中,挑选出与当前任务相关的模块。
  • 适应(ADAPT):将这些通用模块的表述,改编成与当前具体任务紧密结合的指令。
  • 实施(IMPLEMENT):将改编后的模块组合成一个完整的、可执行的推理结构(常以JSON等结构化形式表示)。
  1. 阶段二:应用推理结构解决问题完成阶段一后,模型便拥有了一个为当前任务定制的专用推理蓝图。在解决实际问题时,模型只需遵循这个结构,像填写模板一样逐步执行并填充内容,直至得出最终答案。

关键优势: 整个Self-Discover框架的关键在于,它允许模型在没有人类直接干预的情况下,自主生成适合特定任务的推理结构。这不仅显著提高了模型处理复杂和多样化任务的推理能力,也极大地增强了推理过程的可解释性

2.7 Reflexion:强化学习驱动的进阶反思

Reflexion本质上是结合了强化学习思想的反思机制,可以理解为是Basic Reflection的升级版。其架构同样包含两个核心角色:Responder(应答器)Revisor(修订器),与Basic Reflection中的Generator和Reflector功能类似,但存在关键增强。

核心区别与增强

  1. 批判性思考内化Responder在生成初始答案时,就自带批判式思考的陈述,将推理痕迹暴露出来。
  2. 上下文化修订Revisor在修订答案时,会以Responder提供的批判性思考作为重要的上下文参考,而不仅仅是基于最终输出文本。
  3. 引入外部验证:最关键的是,Revisor引入外部数据或知识来评估回答的准确性。这使得反思过程不再完全依赖于模型自身的固有知识或逻辑,极大地提升了反思内容的可靠性和事实准确性

2.8 LATS:融合搜索与反思的集大成者

LATS,全称Language Agent Tree Search,正如其名,它是一个集多种先进技术于大成的复合型框架LATS = Tree Search(树搜索) + ReAct + Plan & Execute + Reflexion

核心机制: LATS将智能体的决策过程构建为一棵搜索树。在每个节点(决策点),它:

  1. 像ReAct一样进行“思考-行动-观察”。
  2. 像Plan & Execute一样进行规划与执行。
  3. 在行动后,像Reflexion一样进行自我反思,不仅利用环境反馈,还结合来自语言模型自身的反馈,以判断推理中是否存在错误并提出替代方案。

与其他树搜索方法的区别: 这种将自我反思能力与强大搜索算法相结合的特点,是LATS的突出优势。它使得Agent能够在探索解决方案空间时不断自我纠正和优化路径,从而特别适合处理那些结构不明确、需要试错和深度推理的相对复杂任务

代价: 然而,这种强大的能力伴随着显著的代价。由于算法本身的复杂性和多轮的反思步骤,LATS通常比其他单一的智能体方法消耗更多的计算资源(Token),并且完成任务所需的总体时间也通常更长

四、总结与选型建议

从ReAct的基础循环到LATS的复杂融合,Agent设计模式的演进历程,实质上是围绕 “LLM + 记忆 + 规划 + 工具” 这一核心公式,在规划效率推理深度两个维度上持续创新与平衡的过程。

在实际项目中,技术选型应基于任务需求:

任务类型 推荐模式 核心考量
原型验证、简单任务 ReAct 简单直观,快速实现
工具调用频繁,需控成本 ReWOO Token消耗低,模块清晰
复杂多步骤,需长远规划 Plan & Execute 规划能力强,支持动态调整,可异构部署降成本
子任务可并行,追求极速 LLM Compiler 基于DAG的并行执行,效率最高
需优化输出,成本敏感 Basic Reflection 低成本反思,需注意循环控制
需优化输出,要求高可靠性 Reflexion 结合外部验证的反思,结果更可靠
开放域复杂推理,需高自主性与可解释性 Self-Discover 自主构建推理结构
极度复杂、模糊,需多路径探索与试错 LATS 搜索与多种机制融合,能力最强,资源消耗大

未来,随着基础模型能力的提升和架构工程的深化,Agent设计模式将继续向更高效、更自主、更可靠的方向演进,成为连接大模型智能与现实世界应用的关键桥梁。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐