【深度收藏】姚顺雨的AI智能体之路：ReAct框架如何让大模型从“军师“变“将军“

姚顺雨，OpenAI前研究员，现担任腾讯首席AI科学家，提出ReAct框架和思维树方法，推动AI从"军师"变为"将军"。ReAct通过"推理-行动-观察"循环，使大模型能主动调用工具解决问题，与CoT、ToT形成互补。这一框架已成为AI智能体研究的基石，在需要整合多源信息和多步操作的场景中尤为关键。

耿直学编程

1023人浏览 · 2026-01-04 15:46:20

耿直学编程 · 2026-01-04 15:46:20 发布

2025年的最后一个月，27岁的OpenAI前研究员姚顺雨正式出任腾讯"CEO/总裁办公室"首席AI科学家，同时兼任新成立的AI Infra部、AI Data部和数据计算平台部的总负责人，这一消息在科技圈引起了不小的震动，毕竟27岁就成为了腾讯帝国的AI掌舵者，非常了不起，不是普通人能羡慕的。

然后，我翻阅了一下他的个人的履历，用“大神”已经无法形容他的能力了。

高考状元、清华姚班、普林斯顿博士、OpenAI首批智能体产品Operator 与Deep Research 的核心贡献者。

其博士研究聚焦于解决一个核心问题：如何让AI像人一样边思考边行动。

现在我们做智能体离不开的ReAct（Reasoning+Acting）框架，就是姚顺雨在2020年提出的，首次引入"推理一行动"结合的智能体范式，这一思路不但增强了模型的可控性，也极大拓展了其在各类实际领域中的适用能力。紧接着在2022年提出了思维树（Tree of Thoughts，ToT）方法。

了解提示词工程的学者对CoT和ToT都有一定的了解，从CoT到ToT，再到ReAct，是对大模型推理能力的持续突破。

在ReAct框架中，AI不再是"闭门思考"然后"执行行动"，而是像人类一样，将推理与行动结合在一起，每一步推理都伴随着行动与验证。

同样地，ToT允许AI在解决复杂问题时探索多条推理路径，每条路径都是一个"思维分支"，AI可以在这些分支间比较、评估和回溯。这不仅提高了AI解决复杂问题的能力，更重要的是为AI的"深度思考"提供了机制基础。

根据Google Scholar统计，ReAct和思维树的引用次数已超过4000次，姚顺雨的个人总引用次数超过1.5万次。更重要的是，这些方法成为了后续AI Agent研究的重要基石。

至今为止，我们与大型语言模型（LLM）的交互大多是“一问一答”式的，仅限于聊天，我们提出问题，它提供答案。它再聪明也只能“说”，无法“干”，就是一个军师，而不是一个将军。

比如，如果问题是“帮我查询今天北京的天气，并根据天气情况预订一家评分最高的中餐厅”，LLM本身就无能为力了，因为它无法执行查询和预订这些“动作”。同时，大语言模型是预训练，无法获取实时的信息，这也极大的限制了模型的能力，导致可能出现的幻觉，一本正经的胡说八道。

AI智能体（Agent）正是为了打破这层壁垒而设计的。它是一个以LLM为“大脑”的自主系统，能够理解用户意图和复杂目标，进行推理和规划，并调用外部工具来执行任务，经过多轮的循环，最终达成目标。

Agent的核心：不再是简单的信息生成，而是决策与行动。它将LLM从一个“语言模型”升级为一个能够与数字世界甚至物理世界交互的“行动者”。

AI智能体具有这样的能力，最核心的技术就是ReAct框架，核心目标是让大语言模型具备“主动解决问题”的能力，它通过融合推理/思考(Reason)、行动(Act) 和观察(Observe) 三个步骤，模拟人类解决问题的方式。

ReAct (Reason + Act) 是驱动许多现代Agent工作的核心框架。它是一种优美的“推理-行动-观察”循环模式。其工作原理如下表所示：


步骤	核心任务	关键作用	类比（人类打包行李）
推理（思考）	分析当前状况，规划下一步	将大任务分解为可执行的子任务	思考：“那里天气如何？我需要带什么衣服？”
行动	执行具体操作（通常调用外部工具）	将想法转化为实际行动，获取新信息	行动：查看天气预报，打开衣柜查看衣物
观察	获取行动结果，评估并更新状态	为下一轮推理提供依据，形成反馈闭环	观察：“预报说会冷，但我发现厚衣服都收起来了。”

在一个ReAct循环中，LLM会交替生成：

这个“推理-行动-观察” 的循环会持续进行，直到智能体认为收集到足够信息，可以给出最终答案。为了避免无限循环，通常需要设定最大迭代次数。

在一个典型的Agent由以下几个关键部分组成，已实现Agent的ReAct机制：

1.大脑 (Brain) - LLM：这是Agent的核心引擎，负责理解、推理、规划和决策。Agent的所有“思考”过程都由LLM完成。

2.规划 (Planning)：面对一个复杂任务，Agent需要将其分解为一系列可执行的小步骤。

自我反思 (Self-reflection)：Agent会评估自己上一步行动的结果，并根据结果修正下一步的计划。
任务分解 (Task Decomposition)：将宏大目标（如“组织一次团队旅行”）分解为具体子任务（“查询机票”、“预订酒店”、“规划行程”等）。

3.工具 (Tools)：这是Agent与外界交互的“手和脚”。工具本质上就是Agent可以调用的函数或API。

示例：搜索引擎API、计算器、数据库查询接口、发送邮件的函数、天气查询API等。
工具选择：LLM根据当前任务和上下文，从其“工具箱”中选择最合适的工具来执行。

4.记忆 (Memory)：为了执行长期和复杂的任务，Agent需要记忆。

短期记忆：通常指当前的对话历史和上下文窗口，帮助Agent保持对话连贯。
长期记忆：Agent可以将关键信息、过去的经验和学习成果存储在外部数据库（如向量数据库）中，以便在未来执行类似任务时参考，实现“经验积累”。

你可以通过编写特定的提示词（Prompt Engineering）或使用专门的框架来实现ReAct智能体。

提示词模板示例一个典型的ReAct提示词会明确指导模型遵循循环，并列出可用的工具。例如，要求模型回答“速滑500米世界纪录保持者是谁？她的年龄的0.43次方是多少？”时，一个有效的ReAct提示词会引导模型进行如下思考：

思考：我需要先找到世界纪录保持者及其年龄，然后计算幂运算。我先用搜索工具。

行动：{ “action”: “search”, “action_input”: “速滑500米世界纪录保持者年龄” }

观察：[搜索引擎返回的结果，例如“运动员A，28岁”]

思考：我得到了年龄是28。现在需要计算28的0.43次方，使用计算器工具。

行动：{ “action”: “calculator”, “action_input”: “28 ** 0.43” }

观察：[计算结果，例如“4.12”]

最终答案：世界纪录保持者是运动员A，她的年龄的0.43次方约为4.12。

使用开发框架从头实现完整的循环和状态管理比较复杂，通常可以借助成熟的AI开发框架，例如 LangChain/ LangGraph，CrewAI和AutoGen等。这些框架提供了构建ReAct智能体的高级模块，能简化工具调用、循环控制和记忆管理等工作。

ReAct并不是对CoT、ToT的替代，而是它的增强和延伸。核心区别在于与外部世界的互动能力。CoT和ToT提高模型的思考推理能力，ReAct解决的与外部世界的互动能力。

CoT（思维链）：线性、单一路径的推理过程，像一个人在纸上演算，进行纯粹的、内在的逻辑推理。
ToT（思维树）：多路径探索、评估与回溯

的树状推理框架，超越线性推理的突破性技术。同时探索几条路，边走边看地图，发现死胡同就退回上个路口，最终找到相对最好的那条路。
ReAct (推理-行动)：像一个人动手做实验，不仅思考，还会使用工具（如搜索、计算）获取新数据，并根据实验结果调整思路。

选择何种方案，取决于任务的复杂性和可预测性。


方案	核心特点	适用场景
零样本/直接提问	模型直接生成最终答案	简单、事实性的问答
CoT (思维链)	模型展示逐步推理，但所有信息源于内部知识	逻辑推导、数学解题等无需外部信息的复杂任务
ToT（思维树）	模型展示多步可能的推理，可以回溯推理过程，最终给出结果，但所有信息源于内部知识	逻辑推导、开放式问题等存在多种可能的复杂任务
ReAct (推理-行动)	模型能主动调用工具与环境交互，进行动态推理	需要查询最新信息、进行计算或操作外部系统的复杂多步任务
函数调用	模型根据严格定义的规则调用工具，更高效、直接	任务步骤固定、可预测，且对执行速度和成本敏感的场景

简单来说，当你需要AI模型像一个“智能助手”一样，自主查询信息、使用工具来完成一个动态任务时，ReAct是理想的选择。

总结来说，ReAct框架通过赋予大模型“推理(思考)-行动-验证”的能力，使其从被动的知识库转变为主动的问题解决者。它在智能客服、旅行规划、金融报告生成等需要整合多源信息和多步操作的场景中尤其有用。

随着Agent技术的持续演进，用户的需求场景也会越来越复杂，Agent之间的技术差距才会真正显现。谁能在复杂推理、多目标权衡、长期记忆等方面建立优势，谁才能在下一代AI竞争中占据制高点。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2025 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要 《AI大模型入门+进阶学习资源包》，下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

在这里插入图片描述

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！
在这里插入图片描述

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述