小白也能快速看懂的 AI Agent 主流的设计模式🐶。

在进一步深入研究 Claude Code 之前,有必要在快速梳理下 Agent 的设计模式。因为我发现 Claude Code 的原理比 React 稍微灵活点。 本文可以解答一下问题:

  • 说到 AI Agent 的设计模式,不知道大家知道有几种?

  • 看似牛哄哄的设计模式,是如何被发现的?又是如何被使用的?

  • 我们开发智能体一定需要借助框架吗?

首先就是大名鼎鼎的 ReAct ...

ReAct (Reasoning and Acting)

核心概念与工作原理

ReAct架构的核心是其“思想-行动-观察”(Thought-Action-Observation)的交错循环 。在此范式下,LLM不再是单纯地生成答案,而是扮演了一个中央控制器的角色 。首先,Agent通过“思想”(Thought)来分析任务、制定高层计划、分解子任务或处理异常情况。接着,它将思想转化为“行动”(Action),即调用外部工具,如搜索引擎、计算器或API 。当工具执行完毕后,Agent获得环境返回的“观察”(Observation),并利用这些新信息来指导下一轮的“思想”和“行动”,如此循环,直到任务完成 。  

与纯粹的Chain-of-Thought(CoT)推理方法相比,ReAct最本质的区别在于其将推理过程与外部世界进行了紧密结合。CoT仅依赖于模型内部知识进行逐步思考,这在处理需要最新信息或外部验证的任务时,极易陷入幻觉或错误传播

ReAct通过交错式的工具调用,将推理过程中的每一步都与现实世界的反馈进行核对,从而显著提升了答案的准确性和可信度(本质也就是强化学习)。这种设计范式将LLM从一个“内容生成器”提升为“任务执行器”,实现了从“开放式生成”到“闭环控制”的根本性转变。  

图片

React 的设计想法并不难,它就源自于你我日常解决问题的方法。 举个开发的例子嘛,比如:

  • 你写了一段程序(类似思考了一番)

  • 然后放到编译器里运行一下(类似 Action,执行某种动作),

  • 然后得到运行结果(来自现实环境的反馈),

  • 再然后通过观察(看看运行结果),来决定下一步动作,

    • 是修复细节问题呢?

    • 还是不修了(退出编程循环)提交代码。

其实再抽象一层,这是所有人解决问题的一般“方法论”。就是实践 - 认识 - 再实践 - 再认识 - ...

对于一些刚接触的同学,肯定都会有个疑惑:为啥大模型的 API 通常都是无状态的(也就是大模型并不认识你,或者存储你的记忆),React 是如何转动的?

详细优缺点分析

优点: ReAct架构的动态适应性极强,能够根据实时的环境观察灵活调整其行动计划,有效应对不确定性和突发情况(事实上,后面所有的设计模式,本质都是基于 ReAct 的)。其显式的推理轨迹使得整个决策过程高度可解释,这不仅便于开发者进行调试,也增强了用户对Agent的信任度。

缺点: 每次工具调用都需要进行一次LLM推理,这导致ReAct的执行速度相对较慢,并会产生高昂的Token消耗。此外,由于其每次只规划下一步,这种“规划近视”可能导致Agent陷入局部最优解,而无法找到全局最优的行动路径。

典型应用场景

ReAct架构非常适合需要与外部环境进行持续交互的场景。例如,

  • 在知识密集型问答任务中,Agent可以利用搜索引擎API动态检索信息,以验证和补充其内部知识(尤其是那种需要反复查阅的复杂问题,不是现在很多聊天应用上简单的“联网回答”功能)。

  • 在模拟游戏环境或网页浏览等需要多步交互和决策的任务中,ReAct也能够灵活地进行路径探索和任务完成。

Plan & Execute

核心概念与工作原理

Plan & Execute(计划与执行)架构的出现,是对ReAct高成本和低效率问题的一种直接回应。其核心思想在于将Agent的工作流明确地分为两个独立的阶段:一个由功能强大的LLM负责的“规划”阶段,和一个由更轻量级或特定模型负责的“执行”阶段。在规划阶段,LLM一次性生成一个详细的、多步骤的静态计划。随后,执行器会根据这个计划逐一完成每个步骤,而无需每次都调用大型LLM进行决策。

与ReAct的主要区别在于,ReAct是动态的、反应式的,每一步都可能重新规划,这赋予了其灵活性;而Plan & Execute则是静态的、预先确定的。它牺牲了ReAct的实时适应性,换来了更高的执行效率和更低的运营成本。这种设计模式通过将“智慧”(规划)与“体力”(执行)解耦,为Agent的实际工程化提供了更具成本效益和可控性的方案。   

图片

这个图和他的解释其实对不上,我在调研的时候也比较奇怪。

不过这个模式也不是重点,大家了解下知道就行。 有兴趣可以参考 langchain 的这个文章

详细优缺点分析

优点: 该架构显著减少了对昂贵大型LLM的调用次数,仅在初始规划和当计划失败需要重新规划时才使用,执行阶段可以利用更小、更快的模型,从而实现了更高的效率和成本节约。同时,由于它强制LLM在任务开始时就进行全局思考,有助于避免ReAct可能出现的局部最优问题 。  

缺点: 其主要局限在于鲁棒性较差。由于计划是静态的,Agent无法在执行过程中动态应对突发状况或错误,一旦某个步骤失败,除非重新启动整个规划流程,否则无法继续 。此外,许多Plan & Execute的实现仍依赖于串行执行,效率仍有提升空间 。  

典型应用场景

Plan & Execute架构适用于流程相对固定但步骤繁多、需要调用多种工具的复杂任务。例如,

  • 自动化报告生成、数据分析工作流或保险理赔处理。 朋友 在这种预先定义的工作流中,LLM用于处理每个子任务中的模糊性,而整体流程则由静态计划严格控制 。

REWООO (Reasoning Without Observation)

核心概念与工作原理

ReWOO(Reasoning Without Observation,无观察推理)是Plan & Execute架构的一种高效变体。其核心理念在于,Planner一次性生成一个完整的、包含变量占位符的计划,然后Worker根据该计划执行,并由Solver进行结果汇总 。Planner的输出不仅包含推理步骤,还包括带变量赋值的工具调用,例如 #E1 = Tool[argument]。其中的变量(如#E1)代表前一步骤的输出,可以在后续步骤中直接引用,从而实现了数据的高效传递 。  

ReWOO与Plan & Execute的根本区别在于对变量的支持。传统的Plan & Execute在步骤间传递信息效率低下,而ReWOO通过引入变量,避免了在每个子任务执行后再次调用LLM进行数据传递和重新规划,从而显著提升了流程效率 。这种设计模式将编译原理中的“变量”概念引入自然语言计划,实现了更高效的数据流编排。

图片

详细优缺点分析

优点: ReWOO通过一次性规划整个任务链,避免了ReAct中反复调用LLM所产生的冗余提示词和历史上下文,因此显著减少了Token消耗,提高了Token效率。此外,由于规划数据在理论上不依赖于工具的实时输出,该架构简化了模型的微调过程 。  

缺点: 尽管引入了变量,但其任务执行本质上仍是串行的,无法充分利用可以并行的任务 。与Plan & Execute类似,ReWOO的容错能力也较弱,一旦某个任务执行失败,整个流程可能会中断,需要重新开始 。  

典型应用场景

ReWOO架构特别适用于需要链式调用工具来获取信息,且工具之间需要传递数据。例如,

  • 一个多步骤的知识问答任务,如“查询某超级碗球队的四分卫数据”,就需要先查询球队信息,再用结果作为输入去查询四分卫数据。

  • 此外,它也适用于文档摘要和信息提取任务,通过规划多个步骤来处理文档的不同部分,然后将结果汇总。

这个 ReWoo 就想加快工具的使用,并且节省 Token 的目的。 但是他好像没有考虑「根据现实反馈调整策略」这一个特性,和 Plan & Execute 一样了。也就是没用循环了,直接退出了。

说实话,他说他是基于 React 的,我觉得实在是牵强,怎么能开历史倒车呢?

LLM Compiler

核心概念与工作原理

LLM Compiler架构被设计为进一步提升任务执行速度,其核心思想是让Planner生成一个任务的有向无环图(DAG),而非简单的列表 。这个任务图清晰地定义了所有任务、所需的工具、参数以及任务间的依赖关系。一个独立的任务调度单元会根据这个DAG,自动并行执行所有依赖已满足的任务,从而实现最大化的并发执行,提供显著的速度提升 。  

需要明确的是,LLM Compiler这一术语存在概念上的混淆。它既指由Meta发布的、专注于代码优化和编译器推理的预训练模型 ,也指一种创新的Agent架构 。本报告所讨论的是后者,即利用LLM生成任务图并进行高效并行执行的框架。  

LLM Compiler与ReWOO最根本的区别在于,它从根本上解决了ReWOO的串行执行限制,通过DAG将任务的执行从串行提升到了并行 。这标志着Agent架构的设计开始融合计算机科学中成熟的系统工程和算法优化思想,而非仅仅模仿人类的思维过程。  

thumbnail.png

详细优缺点分析

优点: 通过并行调用工具,LLM Compiler能够实现极高的执行效率,相比其他规划类方法,可获得显著的速度提升(论文中宣称可达3.6倍) 。这种速度提升也带来了成本节约,因为减少了总体执行时间 。此外,任务图的结构化输出便于理解和调试,提高了可解释性 。  

缺点: 该架构的工程实现难度较高,需要构建复杂的任务调度单元和依赖管理机制 。与所有预规划架构类似,LLM Compiler也面临单点任务失败可能导致整个流程中断的风险,鲁棒性仍然是其面临的挑战。  

典型应用场景

LLM Compiler架构非常适合需要同时获取多项独立信息或调用多个API以完成任务的场景。例如,

  • 电商比价、多源数据整合或需要并发执行多个子任务以加速整体流程的应用 。

说实话,这后三个我感觉比较类似,他们俩的优化核心其实在于,React 太消耗 token 了,并且太慢了。

 你想如果我们需要去读10个文件,或者说做10个同样操作的事情。这样一个过程对于对 React 来说,需要至少使用10次以上。

于是他就通过构建 类似工作流的形式 去加速,哎 ... 

但 React 的核心优势就是用 “强化学习” 的思路获取了真实环境的反馈,像 REWООO 就舍弃了这一点。

我认为,基本上可以放弃这种方式了,他没法避免大模型幻觉问题。

反思与增强类架构深度剖析

反思与增强类架构的核心在于赋予Agent自我评估和从经验中学习的能力。它们超越了简单的规划执行,让Agent能够像人类一样进行自我批判、试错学习和元认知,从而实现持续的性能提升。

Basic Reflection (基础反思)

核心概念与工作原理

基础反思架构的核心思想是在任务完成后,显式地要求LLM对自己的输出进行“反思”和“批判” 。这种反思可以基于LLM自身的内在知识,也可以结合外部反馈(如代码编译错误或单元测试结果) 。Agent会利用这些批判性意见来指导新一轮的生成或行动,从而通过迭代循环来优化结果 。这种方法旨在自动化人类的“System 2”思维过程,即将有意识、有条理的思考作为LLM工作流的一个独立步骤,而不是被动地等待人类反馈 。  

与传统方法相比,基础反思的最大不同在于,它将反思明确地作为Agent工作流中的一个可编程步骤。这利用了LLM的元认知能力,即模型能够思考其自身的思考过程,并根据其内在逻辑进行自我纠正。 

图片

详细优缺点分析

优点: 即使是简单的自反思循环,也能在代码生成和文本创作等任务中带来显著的性能提升 。这种方法可以帮助LLM减少输出中的偏见、毒性和政治立场倾向,从而提升其安全性与中立性 。  

缺点: 如果反思过程缺乏有效的外部反馈(如环境奖励或错误信息),Agent可能会陷入低效的自我循环中,无法找到正确的解决方案 。这种固定的循环模式可能不足以应对极其复杂的、需要深度试错才能解决的任务 。  

典型应用场景

基础反思最典型的应用场景是需要迭代优化的创作或编程任务。例如,

  • 在文本创作中,Agent也可以在完成初稿后,根据预设的批判性标准(如逻辑一致性、内容完整性)进行自我评审和修正 。

这种设计模式他也是基于 React 的,算是一个重大分支,他的希望能够去减少大模型幻觉带来的影响,只不过他这个检测方式吧,它不是来自于工具调用真实世界的反馈,而是让另一个模型直接去“挑刺”。 也就是说,她的应用场地可能无法快速地冲工具箱里面去得到真实的反馈。或者这个工具要用非常的昂贵。以至于他必须经过一系列反思,才能决定去使用。

  • 比如说最近使用的例子就是写文章,或者这种主观判断特别多的场景。非常适合这种左右互搏。

Reflexion (强化反思)

核心概念与工作原理

Reflexion框架将基础反思提升到了一个更高级的层次。它将“语言反馈”作为一种强化学习的替代品,让Agent通过跨试验(trial)的试错学习来不断改进其行为 。该框架利用一个“评估器”来判断当前行动轨迹的成功或失败,然后由一个“反思器”生成一段文本化的反思。这段反思作为“动态记忆”被存储起来,并在下一次尝试中被用作上下文,以指导Agent避免重复过去的错误 。  

Reflexion与基础反思的区别在于其引入了“动态记忆”和跨试验的学习机制 。基础反思通常局限于单次任务内的迭代,而Reflexion则通过累积并利用过去的成功与失败经验,实现Agent在多个任务尝试之间的持续改进。这种将语言作为一种通用“强化信号”的范式,解决了Agent在长轨迹任务中常犯的“重复性错误”和“幻觉循环”问题 。  

图片

注:在某些文献中,该架构的拼写可能出现“Reflextion”的变体,但其原始论文和主流社区所使用的正确名称为“Reflexion”。

详细优缺点分析

优点: Reflexion无需对底层模型进行微调,仅通过文本反馈就能实现显著的性能提升 。它在需要多次尝试才能成功的复杂任务(如编程、顺序决策)上表现出色,成功率远超基础的ReAct 。此外,由于其记忆是显式的反思文本,Agent的“学习”过程透明可追踪,提供了更高的可解释性 。  

缺点: 该框架的有效性高度依赖于LLM能否准确评估自己的表现并生成有用的反思 。尽管引入了记忆,但对于极其复杂的任务,滑动窗口或有限容量的记忆仍是Agent长期发展的瓶颈 。  

典型应用场景

Reflexion架构非常适用于需要从失败中汲取教训以找到解决方案的复杂任务。在类似AlfWorld这样的多步、高难度环境中,Agent可以通过记忆过去的失败路径来避免重复犯错,从而找到正确的行动序列。在编程和代码生成任务中,Reflexion Agent可以从编译错误和测试失败中学习,从而编写出更高质量的代码,在HumanEval等基准测试上甚至超越了无反思的GPT-4基线 。

LATS (Language Agent Tree Search)

核心概念与工作原理

LATS(Language Agent Tree Search)是LLM Agent架构的集大成者,它将语言模型的推理能力与经典的**蒙特卡洛树搜索(MCTS)**算法完美结合,创造了一个能够探索多条可能路径并进行深度决策的框架 。LATS将LLM作为Agent、价值函数和优化器,通过树状搜索同时探索多个ReAct序列,并利用自反思和外部反馈来评估和回溯最优路径 。  

LATS与Self-Discover的区别在于,Self-Discover是为任务寻找一条最佳的“思考路径”,然后单路径执行;而LATS则是通过多路径探索来寻找最佳的“行动序列” 。它在每次决策点都生成多个可能的行动分支,并根据其价值评估进行权衡,从而避免在单一路径上陷入困境。这种多路径探索与反思的结合,使其在复杂决策空间中表现出卓越的鲁棒性。   

图片

详细优缺点分析

优点: LATS能够在复杂决策空间中进行深度探索,有效避免在单一路径上陷入死胡同或重复循环 。该架构在编程、问答和网页浏览等任务上均表现出优越的性能和通用性 。它有机地融合了ReAct的行动能力、Reflexion的反思反馈和树状搜索的规划优势,是一种综合性的强大架构 。  

缺点: 探索多条路径需要大量的LLM调用,导致Token消耗和计算成本极高,这成为了该架构的核心瓶颈 。此外,LATS的成功依赖于环境能够支持“回溯”(即回到过去的某个状态),这在大规模的现实应用中可能难以实现 。  

典型应用场景

LATS架构特别适用于需要深度探索和权衡多种可能性的复杂决策任务,例如复杂策略规划、多步编程等。它的出现标志着Agent的智能水平达到了一个新高度,即能够进行深思熟虑的、多维度的决策。

总结

总结来看,

通用场景,React 作为最基础的设计模式他的本身其实很简单的,但是

  • 因为他每次限定了自己只能执行一个程序,因此他也是比较慢的。

  • 因此呢,出现了一些性能优化,比如工具并行执行,但是如果要想保持优化的同时也保留 React 灵活调整的策略,就需要打破每次只能执行一个工具的限制。这也是 Plan & Execute 和 LLM Compiler,所做的事。更进一步呢,如果我们希望工具之间能够进行信息传输,可以使用 REWООO,

  • 但是这一些,请交给 LLM 去计划,做出工作流的话,产品化之路会很艰难。

我们整个设计的核心:还是希望能够获取到一些真实情况的反馈,用于监督和避免模型出现幻觉的情况。比如编程领域。 但是并不是每次我们都能够简单地构造出这样的反馈,或者说很多时候我们并没有一个客观的评价标准,比如说写文章。这个时候我们就需要大模型进行一些自我纠正,以保证整体的结果更能 Match 到用户的意图。 就是 Basic Reflection 和 Reflexion

除此之外,我们还需要他去解决一些探索性的问题。那么对于这种情况我们希望他足够发散,并且发展想法进行具体落实,就是 LATS

 AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型,我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!

如果你也想通过学大模型技术去帮助就业和转行,可以点扫描下方👇👇
大模型重磅福利:入门进阶全套104G学习资源包免费分享!
在这里插入图片描述

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

02.AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

在这里插入图片描述

​​在这里插入图片描述

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

在这里插入图片描述

04.大模型面试题目详解

在这里插入图片描述

在这里插入图片描述

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

在这里插入图片描述
如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐