文章介绍了AI Agent的定义、决策流程和四个核心模块,详细解析了9种设计模式:ReAct、Plan and Solve等,每种模式各有适用场景。文章还提及智泊AI提供AI大模型课程,帮助不同背景人群成为AI人才,结合理论学习和实战项目,培养核心竞争力。

Al Agent 的定义:

Agent是让LLM根据动态变化的环境信息选择执行具体的行动或者对结果做出判断,并影响环境,通过多轮迭代重复执行上述步骤,直到完成目标。精简的决策流程:P(感知)–>P(规划)–>A(行动)

为了Agent像人一样干活,Agent需要具备四个模块:推理、记忆、工具、行动

Agent的9种设计模式:

一、ReAct模式

这是 LLM Agent 第一文,发表于 2022年10 月,现在看起来特别简单,但当时ChatGPT还没有面世,能够提出让LLM 学会使用工具,具有一定的开创性。

ReAct模式的提出,是对AI工具使用能力的一次重大突破。它通过将行动(Action)与观察(Observation)相结合,使AI能够进行更为连贯的任务执行。

与传统的分离式任务执行相比,ReAct模式让AI在执行每一步行动后都能进行即时的反思和调整,显著提高了任务完成的准确性和效率。

ReAct 原理很简单,没有 ReAct 之前,Reasoning和 Act 是分割开来的。举个例子,你让孩子帮忙去厨房里拿一瓶胡椒粉,告诉 ta 一步步来(COT提示词策略)

1.先看看台面上有没有

2.再拉开灶台底下抽屉里看看

3.再打开油烟机左边吊柜里看看

没有 React 的情况就是:

不管在第几步找到胡椒粉,ta都会把这几个地方都看看(Action)

有 React 的情况是:

Action1: 先看看台面上有没有

Observation1: 台面上没有胡椒粉,执行下一步

Action2: 再拉开灶台底下抽屉里看看

Observation2: 抽屉里有胡椒粉

Action3: 把胡椒粉拿出来

是的,就是这么简单,在论文的开头作者也提到人类智能的一项能力就是 Actions with verbal reasoning,即每次执行行动后都有一个“碎碎念(Observation”: 我现在做了啥,是不是已经达到了目的。这相当于让 Agent 能够维持短期记忆。

具体过程:

(1) 构建提示词模板。初始阶段需将预设的ReAct提示词框架(结构为Question-Thought-Action-Observation)与用户输入整合。

若需领域适配,应替换fewshot示例中的特定内容,例如当Action包含"Send message to someone"时,该Action需映射至相应外部工具的API接口。

(2) 触发大模型推理。将fewshot提示词输入大模型后,系统会生成Thought与Action序列。

为避免过早输出Observation结果,代码中设置了Stop.Observation终止条件,确保模型仅返回Thought和Action部分。

(3) 执行工具调用。当Action非Finish状态时,通过大模型的function calling能力将自然语言指令转换为API可识别的格式。

此功能本质上是针对语言格式转换的模型微调,但需注意并非所有大模型均支持该特性。

(4) 迭代处理结果。API返回数据经自然语言转换生成Observation后,结合当前Thought和Action重新输入大模型,循环执行步骤2-3直至Action标记为Finish。

(5) 最终结果呈现。将末次Observation转换为自然语言输出。

由此,我们可以看到 Agent 要落地一个场景,需要定制两项内容:

Prompt 模板中 few shot 中的内容

function calling 中的外部工具定义

而 Prompt 模板中 fewshot 本质上就是人类思维模式的结构化体现,通过查阅各个设计模式的 prompt 模板是很好的学习 Agent 设计模式的方法

二、Plan and Solve 模式

顾名思义这种设计模式是先有计划再来执行。如果说 ReAct更适合 完成“厨房拿胡椒粉”的任务。

那么 Plan & solve 更适合完成“西红柿炒鸡蛋”的任务: 你需要计划,并且过程中计划可能会变化(比如你打开冰箱发现没有西红柿时,你将购买西红柿作为新的步骤加入计划)

Plan and Solve模式适用于需要详细规划和可能需要调整的任务。

这种模式通过先制定计划再执行的方式,允许AI在面对任务变化时灵活调整策略,类似于烹饪过程中根据食材的实际情况调整菜谱。

架构上它的组成是这样的:

规划器‌:驱动LLM构建多阶段任务执行方案的核心模块。其实现包含Planner(初始计划生成器)与Replanner(动态调整器)

Planner 负责第一次生成计划,Replanner会在单步任务完成后,综合当前目标、初始方案及已执行步骤等上下文信息进行二次规划Replan。

因此其提示词模板需整合Zeroshot基础指令与上述动态参数,Replanner 提示词中除了 Zeroshot,还会包含:目标,原有计划,和已完成步骤的情况。

‌执行器‌:通过解析用户请求与规划步骤序列,协调调用特定工具链实现任务落地。

三、Reason without observation(REWOO)

REWOO模式摒弃了传统的观察步骤,而是将观察结果隐式地融入到下一步的执行中。

这种方法在审批流程等场景中尤为有效,因为它允许AI在每一步中自动考虑前一步的输出,从而实现更流畅的任务执行。

REWOO这种方法是相对 ReAct中的Observation 来说的,ReAct 提示词结构是Thought→Action→Observation,而 REWOO把 Observation 去掉了。

但实际上,REWOO 只是将 Observation 隐式地嵌入到下一步的执行单元中了,即由下一步骤的执行器自动去 observe 上一步执行器的输出。

举个例子,常见的审批流都是环环相扣的,比如我们的目标是完成c,我们的步骤是:

我们需要从部门 A 中拿到 a 文件

然后拿着 a文件去部门 B 办理 b 文件

然后拿着b文件去部门C办理c文件-任务完成。

这其中第 2,3 步骤中 B,C 部门对 a,b 文件的审查本身就是一类Observation。

又比如下面提示词模板中给出 one shot 内容中定义出每一步的 plan 都会依赖上一步的输入。

架构上它由三个组件组成

Planner: 负责生成一个相互依赖的“链式计划”,定义每一步所依赖的上一步的输出。

Worker: 循环遍历每个任务,并将任务输出分配给相应的变量。

当调用后续调用时,它还会用变量的结果替换变量。

Solver: 求解器将所有这些输出整合为最终答案。

四、LLMCompiler

LLMCompiler模式的核心在于通过并行Function calling提高AI的工作效率。

这种模式通过优化任务编排,使得AI能够同时处理多个任务,从而大幅度提升处理速度。

Compiler-编译一词在计算机科学的意义就是如何进行任务编排使得计算更有效率。

原论文题目是《An LLM Compiler for Parallel Function Calling》

很直白,就是通过并行Function calling来提高效率,比如用户提问张译和吴京差几岁,planner搜索张译年龄和搜索吴京年龄同时进行,最后合并即可。

架构上它由三个组件组成:

Planner: 流式处理任务的有向无环图(DAG)

Task Fetching Unit: 一旦任务可执行,便立即调度并执行它们。

Joiner: 响应用户或触发第二个计划

五、Basic Reflection

Basic Reflection模式通过模拟师生互动的方式,让AI在生成答案后能够得到反馈,并据此进行修正。

这种模式提高了AI生成内容的质量和准确性。

Basic Reflection 可以类比于学生(Generator)写作业,老师(Reflector)来批改建议,学生根据批改建议来修改,如此反复。提示词就是复刻师生之间的交互。

六、Reflexion

Reflexion模式在Basic Reflection的基础上整合了强化学习机制,通过外部数据对答案质量进行量化评估,从而推动更有效的自我修正。

作为Basic Reflection的进阶版本,其论文《Reflexion: Language Agents with Verbal Reinforcement Learning》的核心思想是将强化学习应用于语言代理。

与基础版本相比,Reflexion通过外部数据验证回答的准确性,并强制识别响应中的冗余(Superfluous)与遗漏(missing),显著提升了反思的实践价值。

在提示词设计上:该模式要求大模型在生成回答前执行系统性反思,包括批判性分析内容的完整性与重复性,随后输出初步回答,再基于反馈进行针对性修订(Revise)。

七、Language Agent Tree Search (LATS)

LATS模式是多种Agent设计模式的融合,它结合了树搜索、ReAct、Plan&Solve以及反思机制,通过多轮迭代来寻找最优解。

LATS 相应论文标题是《Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models》

很直白:是 Tree search+ReAct+Plan&solve 的融合体。

在原作的图中,我们也看到 LATS 中通过树搜索的方式进行 Reward(强化学习的思路),同时还会融入 Reflection,从而拿到最佳结果。所以:

LATS=Tree search + ReAct+Plan&solve+ Reflection + 强化学习

八、Self-Discover

Self-Discover模式鼓励AI在更小的粒度上对任务本身进行反思,从而实现更深层次的任务理解和执行。

Self-discover 的核心是让大模型在更小粒度上 task 本身进行反思,比如前文中的 Plan&Slove 是反思 task 是不是需要补充,而 Self-discover 是对 task 本身进行反思。

架构上它由三个组件组成:

Selector: 从众多的反省方式中选择合适的反省方式

Adaptor: 使用选择的反省方式进行反省

lmplementor: 反省后进行重新 Reasoning

九、Storm

Storm模式专注于从零开始生成内容,如维基百科文章。它通过先构建大纲,再丰富内容的方式,提供了一种系统化的内容生成方法。

Storm 相应论文标题是《Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models》

很直白: 可以从零生成一篇像维基百科的文章。主要思路是先让 agent 利用外部工具搜索生成大纲,然后再生成大纲里的每部分内容。

在Agent设计模式的选择上,并没有一成不变的最佳方案。每种模式都有其独特的使用场景和优势。

产品经理需要根据用户的具体需求和场景特点,选择最合适的设计模式。随着AI技术的不断发展,新的设计模式将不断涌现,为AI应用带来更多可能性。

那么,如何系统的去学习大模型LLM?

作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
在这里插入图片描述

为什么要学习大模型?

我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。

在这里插入图片描述

在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
在这里插入图片描述
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐