收藏必备！小白也能看懂的AI Agent主流设计模式，大模型入门必学指南

本文系统介绍AI Agent主流设计模式，包括ReAct、Plan & Execute、ReWOO、LLM Compiler及反思类架构。详细解析各模式核心原理、优缺点与应用场景，强调真实环境反馈对避免模型幻觉的重要性，对比不同架构在灵活性与执行效率间的权衡，适合开发者理解AI Agent工作原理。

yihanss

822人浏览 · 2025-10-27 21:44:55

yihanss · 2025-10-27 21:44:55 发布

小白也能快速看懂的 AI Agent 主流的设计模式🐶。

在进一步深入研究 Claude Code 之前，有必要在快速梳理下 Agent 的设计模式。因为我发现 Claude Code 的原理比 React 稍微灵活点。本文可以解答一下问题：

说到 AI Agent 的设计模式，不知道大家知道有几种？
看似牛哄哄的设计模式，是如何被发现的？又是如何被使用的？
我们开发智能体一定需要借助框架吗？

首先就是大名鼎鼎的 ReAct …

ReAct (Reasoning and Acting)

核心概念与工作原理

ReAct架构的核心是其“思想-行动-观察”（Thought-Action-Observation）的交错循环。在此范式下，LLM不再是单纯地生成答案，而是扮演了一个中央控制器的角色。首先，Agent通过“思想”（Thought）来分析任务、制定高层计划、分解子任务或处理异常情况。接着，它将思想转化为“行动”（Action），即调用外部工具，如搜索引擎、计算器或API 。当工具执行完毕后，Agent获得环境返回的“观察”（Observation），并利用这些新信息来指导下一轮的“思想”和“行动”，如此循环，直到任务完成。

与纯粹的Chain-of-Thought（CoT）推理方法相比，ReAct最本质的区别在于其将推理过程与外部世界进行了紧密结合。CoT仅依赖于模型内部知识进行逐步思考，这在处理需要最新信息或外部验证的任务时，极易陷入幻觉或错误传播

ReAct通过交错式的工具调用，将推理过程中的每一步都与现实世界的反馈进行核对，从而显著提升了答案的准确性和可信度（本质也就是强化学习）。这种设计范式将LLM从一个“内容生成器”提升为“任务执行器”，实现了从“开放式生成”到“闭环控制”的根本性转变。

React 的设计想法并不难，它就源自于你我日常解决问题的方法。举个开发的例子嘛，比如：

你写了一段程序（类似思考了一番）
然后放到编译器里运行一下（类似 Action，执行某种动作），
然后得到运行结果（来自现实环境的反馈），
再然后通过观察（看看运行结果），来决定下一步动作，

是修复细节问题呢？
还是不修了（退出编程循环）提交代码。

其实再抽象一层，这是所有人解决问题的一般“方法论”。就是实践 - 认识 - 再实践 - 再认识 - …

对于一些刚接触的同学，肯定都会有个疑惑：为啥大模型的 API 通常都是无状态的（也就是大模型并不认识你，或者存储你的记忆），React 是如何转动的？

详细优缺点分析

优点： ReAct架构的动态适应性极强，能够根据实时的环境观察灵活调整其行动计划，有效应对不确定性和突发情况（事实上，后面所有的设计模式，本质都是基于 ReAct 的）。其显式的推理轨迹使得整个决策过程高度可解释，这不仅便于开发者进行调试，也增强了用户对Agent的信任度。

缺点：每次工具调用都需要进行一次LLM推理，这导致ReAct的执行速度相对较慢，并会产生高昂的Token消耗。此外，由于其每次只规划下一步，这种“规划近视”可能导致Agent陷入局部最优解，而无法找到全局最优的行动路径。

典型应用场景

ReAct架构非常适合需要与外部环境进行持续交互的场景。例如，

在知识密集型问答任务中，Agent可以利用搜索引擎API动态检索信息，以验证和补充其内部知识（尤其是那种需要反复查阅的复杂问题，不是现在很多聊天应用上简单的“联网回答”功能）。
在模拟游戏环境或网页浏览等需要多步交互和决策的任务中，ReAct也能够灵活地进行路径探索和任务完成。

Plan & Execute

核心概念与工作原理

Plan & Execute（计划与执行）架构的出现，是对ReAct高成本和低效率问题的一种直接回应。其核心思想在于将Agent的工作流明确地分为两个独立的阶段：一个由功能强大的LLM负责的“规划”阶段，和一个由更轻量级或特定模型负责的“执行”阶段。在规划阶段，LLM一次性生成一个详细的、多步骤的静态计划。随后，执行器会根据这个计划逐一完成每个步骤，而无需每次都调用大型LLM进行决策。

与ReAct的主要区别在于，ReAct是动态的、反应式的，每一步都可能重新规划，这赋予了其灵活性；而Plan & Execute则是静态的、预先确定的。它牺牲了ReAct的实时适应性，换来了更高的执行效率和更低的运营成本。这种设计模式通过将“智慧”（规划）与“体力”（执行）解耦，为Agent的实际工程化提供了更具成本效益和可控性的方案。

这个图和他的解释其实对不上，我在调研的时候也比较奇怪。

不过这个模式也不是重点，大家了解下知道就行。有兴趣可以参考 langchain 的这个文章

详细优缺点分析

优点：该架构显著减少了对昂贵大型LLM的调用次数，仅在初始规划和当计划失败需要重新规划时才使用，执行阶段可以利用更小、更快的模型，从而实现了更高的效率和成本节约。同时，由于它强制LLM在任务开始时就进行全局思考，有助于避免ReAct可能出现的局部最优问题。

缺点：其主要局限在于鲁棒性较差。由于计划是静态的，Agent无法在执行过程中动态应对突发状况或错误，一旦某个步骤失败，除非重新启动整个规划流程，否则无法继续。此外，许多Plan & Execute的实现仍依赖于串行执行，效率仍有提升空间。

典型应用场景

Plan & Execute架构适用于流程相对固定但步骤繁多、需要调用多种工具的复杂任务。例如，

自动化报告生成、数据分析工作流或保险理赔处理。朋友在这种预先定义的工作流中，LLM用于处理每个子任务中的模糊性，而整体流程则由静态计划严格控制。

REWООO (Reasoning Without Observation)

核心概念与工作原理

ReWOO（Reasoning Without Observation，无观察推理）是Plan & Execute架构的一种高效变体。其核心理念在于，Planner一次性生成一个完整的、包含变量占位符的计划，然后Worker根据该计划执行，并由Solver进行结果汇总。Planner的输出不仅包含推理步骤，还包括带变量赋值的工具调用，例如 #E1 = Tool[argument]。其中的变量（如#E1）代表前一步骤的输出，可以在后续步骤中直接引用，从而实现了数据的高效传递。

ReWOO与Plan & Execute的根本区别在于对变量的支持。传统的Plan & Execute在步骤间传递信息效率低下，而ReWOO通过引入变量，避免了在每个子任务执行后再次调用LLM进行数据传递和重新规划，从而显著提升了流程效率。这种设计模式将编译原理中的“变量”概念引入自然语言计划，实现了更高效的数据流编排。

详细优缺点分析

优点： ReWOO通过一次性规划整个任务链，避免了ReAct中反复调用LLM所产生的冗余提示词和历史上下文，因此显著减少了Token消耗，提高了Token效率。此外，由于规划数据在理论上不依赖于工具的实时输出，该架构简化了模型的微调过程。

缺点：尽管引入了变量，但其任务执行本质上仍是串行的，无法充分利用可以并行的任务。与Plan & Execute类似，ReWOO的容错能力也较弱，一旦某个任务执行失败，整个流程可能会中断，需要重新开始。

典型应用场景

ReWOO架构特别适用于需要链式调用工具来获取信息，且工具之间需要传递数据。例如，

一个多步骤的知识问答任务，如“查询某超级碗球队的四分卫数据”，就需要先查询球队信息，再用结果作为输入去查询四分卫数据。
此外，它也适用于文档摘要和信息提取任务，通过规划多个步骤来处理文档的不同部分，然后将结果汇总。

这个 ReWoo 就想加快工具的使用，并且节省 Token 的目的。但是他好像没有考虑「根据现实反馈调整策略」这一个特性，和 Plan & Execute 一样了。也就是没用循环了，直接退出了。

说实话，他说他是基于 React 的，我觉得实在是牵强，怎么能开历史倒车呢？

LLM Compiler

核心概念与工作原理

LLM Compiler架构被设计为进一步提升任务执行速度，其核心思想是让Planner生成一个任务的有向无环图（DAG），而非简单的列表。这个任务图清晰地定义了所有任务、所需的工具、参数以及任务间的依赖关系。一个独立的任务调度单元会根据这个DAG，自动并行执行所有依赖已满足的任务，从而实现最大化的并发执行，提供显著的速度提升。

需要明确的是，LLM Compiler这一术语存在概念上的混淆。它既指由Meta发布的、专注于代码优化和编译器推理的预训练模型，也指一种创新的Agent架构。本报告所讨论的是后者，即利用LLM生成任务图并进行高效并行执行的框架。

LLM Compiler与ReWOO最根本的区别在于，它从根本上解决了ReWOO的串行执行限制，通过DAG将任务的执行从串行提升到了并行。这标志着Agent架构的设计开始融合计算机科学中成熟的系统工程和算法优化思想，而非仅仅模仿人类的思维过程。

详细优缺点分析

优点：通过并行调用工具，LLM Compiler能够实现极高的执行效率，相比其他规划类方法，可获得显著的速度提升（论文中宣称可达3.6倍）。这种速度提升也带来了成本节约，因为减少了总体执行时间。此外，任务图的结构化输出便于理解和调试，提高了可解释性。

缺点：该架构的工程实现难度较高，需要构建复杂的任务调度单元和依赖管理机制。与所有预规划架构类似，LLM Compiler也面临单点任务失败可能导致整个流程中断的风险，鲁棒性仍然是其面临的挑战。

典型应用场景

LLM Compiler架构非常适合需要同时获取多项独立信息或调用多个API以完成任务的场景。例如，

电商比价、多源数据整合或需要并发执行多个子任务以加速整体流程的应用。

说实话，这后三个我感觉比较类似，他们俩的优化核心其实在于，React 太消耗 token 了，并且太慢了。

你想如果我们需要去读10个文件，或者说做10个同样操作的事情。这样一个过程对于对 React 来说，需要至少使用10次以上。

于是他就通过构建类似工作流的形式去加速，哎 …

但 React 的核心优势就是用 “强化学习” 的思路获取了真实环境的反馈，像 REWООO 就舍弃了这一点。

我认为，基本上可以放弃这种方式了，他没法避免大模型幻觉问题。

反思与增强类架构深度剖析

反思与增强类架构的核心在于赋予Agent自我评估和从经验中学习的能力。它们超越了简单的规划执行，让Agent能够像人类一样进行自我批判、试错学习和元认知，从而实现持续的性能提升。

Basic Reflection (基础反思)

核心概念与工作原理

基础反思架构的核心思想是在任务完成后，显式地要求LLM对自己的输出进行“反思”和“批判” 。这种反思可以基于LLM自身的内在知识，也可以结合外部反馈（如代码编译错误或单元测试结果）。Agent会利用这些批判性意见来指导新一轮的生成或行动，从而通过迭代循环来优化结果。这种方法旨在自动化人类的“System 2”思维过程，即将有意识、有条理的思考作为LLM工作流的一个独立步骤，而不是被动地等待人类反馈。

与传统方法相比，基础反思的最大不同在于，它将反思明确地作为Agent工作流中的一个可编程步骤。这利用了LLM的元认知能力，即模型能够思考其自身的思考过程，并根据其内在逻辑进行自我纠正。

详细优缺点分析

优点：即使是简单的自反思循环，也能在代码生成和文本创作等任务中带来显著的性能提升。这种方法可以帮助LLM减少输出中的偏见、毒性和政治立场倾向，从而提升其安全性与中立性。

缺点：如果反思过程缺乏有效的外部反馈（如环境奖励或错误信息），Agent可能会陷入低效的自我循环中，无法找到正确的解决方案。这种固定的循环模式可能不足以应对极其复杂的、需要深度试错才能解决的任务。

典型应用场景

基础反思最典型的应用场景是需要迭代优化的创作或编程任务。例如，

在文本创作中，Agent也可以在完成初稿后，根据预设的批判性标准（如逻辑一致性、内容完整性）进行自我评审和修正。

这种设计模式他也是基于 React 的，算是一个重大分支，他的希望能够去减少大模型幻觉带来的影响，只不过他这个检测方式吧，它不是来自于工具调用真实世界的反馈，而是让另一个模型直接去“挑刺”。也就是说，她的应用场地可能无法快速地冲工具箱里面去得到真实的反馈。或者这个工具要用非常的昂贵。以至于他必须经过一系列反思，才能决定去使用。

比如说最近使用的例子就是写文章，或者这种主观判断特别多的场景。非常适合这种左右互搏。

Reflexion (强化反思)

核心概念与工作原理

Reflexion框架将基础反思提升到了一个更高级的层次。它将“语言反馈”作为一种强化学习的替代品，让Agent通过跨试验（trial）的试错学习来不断改进其行为。该框架利用一个“评估器”来判断当前行动轨迹的成功或失败，然后由一个“反思器”生成一段文本化的反思。这段反思作为“动态记忆”被存储起来，并在下一次尝试中被用作上下文，以指导Agent避免重复过去的错误。

Reflexion与基础反思的区别在于其引入了“动态记忆”和跨试验的学习机制。基础反思通常局限于单次任务内的迭代，而Reflexion则通过累积并利用过去的成功与失败经验，实现Agent在多个任务尝试之间的持续改进。这种将语言作为一种通用“强化信号”的范式，解决了Agent在长轨迹任务中常犯的“重复性错误”和“幻觉循环”问题。

注：在某些文献中，该架构的拼写可能出现“Reflextion”的变体，但其原始论文和主流社区所使用的正确名称为“Reflexion”。

详细优缺点分析

优点： Reflexion无需对底层模型进行微调，仅通过文本反馈就能实现显著的性能提升。它在需要多次尝试才能成功的复杂任务（如编程、顺序决策）上表现出色，成功率远超基础的ReAct 。此外，由于其记忆是显式的反思文本，Agent的“学习”过程透明可追踪，提供了更高的可解释性。

缺点：该框架的有效性高度依赖于LLM能否准确评估自己的表现并生成有用的反思。尽管引入了记忆，但对于极其复杂的任务，滑动窗口或有限容量的记忆仍是Agent长期发展的瓶颈。

典型应用场景

Reflexion架构非常适用于需要从失败中汲取教训以找到解决方案的复杂任务。在类似AlfWorld这样的多步、高难度环境中，Agent可以通过记忆过去的失败路径来避免重复犯错，从而找到正确的行动序列。在编程和代码生成任务中，Reflexion Agent可以从编译错误和测试失败中学习，从而编写出更高质量的代码，在HumanEval等基准测试上甚至超越了无反思的GPT-4基线。

LATS (Language Agent Tree Search)

核心概念与工作原理

LATS（Language Agent Tree Search）是LLM Agent架构的集大成者，它将语言模型的推理能力与经典的**蒙特卡洛树搜索（MCTS）**算法完美结合，创造了一个能够探索多条可能路径并进行深度决策的框架。LATS将LLM作为Agent、价值函数和优化器，通过树状搜索同时探索多个ReAct序列，并利用自反思和外部反馈来评估和回溯最优路径。

LATS与Self-Discover的区别在于，Self-Discover是为任务寻找一条最佳的“思考路径”，然后单路径执行；而LATS则是通过多路径探索来寻找最佳的“行动序列” 。它在每次决策点都生成多个可能的行动分支，并根据其价值评估进行权衡，从而避免在单一路径上陷入困境。这种多路径探索与反思的结合，使其在复杂决策空间中表现出卓越的鲁棒性。

详细优缺点分析

优点： LATS能够在复杂决策空间中进行深度探索，有效避免在单一路径上陷入死胡同或重复循环。该架构在编程、问答和网页浏览等任务上均表现出优越的性能和通用性。它有机地融合了ReAct的行动能力、Reflexion的反思反馈和树状搜索的规划优势，是一种综合性的强大架构。

缺点：探索多条路径需要大量的LLM调用，导致Token消耗和计算成本极高，这成为了该架构的核心瓶颈。此外，LATS的成功依赖于环境能够支持“回溯”（即回到过去的某个状态），这在大规模的现实应用中可能难以实现。

典型应用场景

LATS架构特别适用于需要深度探索和权衡多种可能性的复杂决策任务，例如复杂策略规划、多步编程等。它的出现标志着Agent的智能水平达到了一个新高度，即能够进行深思熟虑的、多维度的决策。

总结

总结来看，

通用场景，React 作为最基础的设计模式他的本身其实很简单的，但是

因为他每次限定了自己只能执行一个程序，因此他也是比较慢的。
因此呢，出现了一些性能优化，比如工具并行执行，但是如果要想保持优化的同时也保留 React 灵活调整的策略，就需要打破每次只能执行一个工具的限制。这也是 Plan & Execute 和 LLM Compiler，所做的事。更进一步呢，如果我们希望工具之间能够进行信息传输，可以使用 REWООO，
但是这一些，请交给 LLM 去计划，做出工作流的话，产品化之路会很艰难。

我们整个设计的核心：还是希望能够获取到一些真实情况的反馈，用于监督和避免模型出现幻觉的情况。比如编程领域。但是并不是每次我们都能够简单地构造出这样的反馈，或者说很多时候我们并没有一个客观的评价标准，比如说写文章。这个时候我们就需要大模型进行一些自我纠正，以保证整体的结果更能 Match 到用户的意图。就是 Basic Reflection 和 Reflexion

除此之外，我们还需要他去解决一些探索性的问题。那么对于这种情况我们希望他足够发散，并且发展想法进行具体落实，就是 LATS

下一讲我们通过研究 Claude Code 日志，分析其行为逻辑。

大模型未来如何发展？普通人如何抓住AI大模型的风口？

※领取方式在文末

为什么要学习大模型？——时代浪潮已至

随着AI技术飞速发展，大模型的应用已从理论走向大规模落地，渗透到社会经济的方方面面。

技术能力上：其强大的数据处理与模式识别能力，正在重塑自然语言处理、计算机视觉等领域。
行业应用上：开源人工智能大模型已走出实验室，广泛落地于医疗、金融、制造等众多行业。尤其在金融、企业服务、制造和法律领域，应用占比已超过30%，正在创造实实在在的价值。

请添加图片描述
未来大模型行业竞争格局以及市场规模分析预测:

同时，AI大模型技术的爆发，直接催生了产业链上一批高薪新职业，相关岗位需求井喷：
请添加图片描述
AI浪潮已至，对技术人而言，学习大模型不再是选择，而是避免被淘汰的必然。这关乎你的未来，刻不容缓！

那么，我们如何学习AI大模型呢？

在一线互联网企业工作十余年里，我指导过不少同行后辈，经常会收到一些问题，我是小白，学习大模型该从哪里入手呢？我自学没有方向怎么办？这个地方我不会啊。如果你也有类似的经历，一定要继续看下去！这些问题，也不是三言两语啊就能讲明白的。

所以呢，这份精心整理的AI大模型学习资料，我整理好了，免费分享！只希望它能用在正道上，帮助真正想提升自己的朋友。让我们一起用技术做点酷事！

ps:微信扫描即可获取
加上后我将逐一发送资料
与志同道合者共勉
真诚无偿分享！！！

在这里插入图片描述

适学人群

我们的课程体系专为以下三类人群精心设计：

AI领域起航的应届毕业生：提供系统化的学习路径与丰富的实战项目，助你从零开始，牢牢掌握大模型核心技术，为职业生涯奠定坚实基础。
跨界转型的零基础人群：聚焦于AI应用场景，通过低代码工具让你轻松实现“AI+行业”的融合创新，无需深奥的编程基础也能拥抱AI时代。
寻求突破瓶颈的传统开发者（如Java/前端等）：将带你深入Transformer架构与LangChain框架，助你成功转型为备受市场青睐的AI全栈工程师，实现职业价值的跃升。

在这里插入图片描述

※大模型全套学习资料展示

通过与MoPaaS魔泊云的强强联合，我们的课程实现了质的飞跃。我们持续优化课程架构，并新增了多项贴合产业需求的前沿技术实践，确保你能获得更系统、更实战、更落地的大模型工程化能力，从容应对真实业务挑战。
在这里插入图片描述资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。