ReAct代理

摘要：ReAct代理是一种结合推理与行动的智能系统，通过"思考-行动-观察"循环解决复杂问题。其核心组件包括语言模型（负责推理决策）、工具集（实现外部交互）、提示模板（规范操作流程）、循环控制器和记忆模块。构建流程涉及任务定义、工具配置、提示设计和循环执行。相比传统AI，ReAct代理具有透明度高、灵活性好、准确性强的优势，适用于需要多步推理或工具交互的场景，但也面临工具调用准

BelongToMe@Hui

557人浏览 · 2026-01-27 07:52:04

BelongToMe@Hui · 2026-01-27 07:52:04 发布

ReAct代理的构建”指的是基于ReAct（Reasoning + Acting，推理+行动）框架设计、开发和实现一个具备“思考-行动-观察”循环能力的智能代理（Agent）。ReAct是一种让AI模型（如大语言模型LLM）通过显式推理和工具调用解决复杂任务的范式，核心是解决传统LLM“仅生成文本”或“盲目调用工具”的局限性，让代理更透明、可控且高效。

一、先理解：什么是ReAct框架？

ReAct由普林斯顿大学和谷歌在2022年的论文《ReAct: Synergizing Reasoning and Acting in Language Models》中提出，其设计灵感来自人类解决问题的方式——边想边做：
人类遇到问题时，会先“推理”（分析现状、规划步骤），再“行动”（动手尝试，比如查资料、操作工具），然后根据“观察”（行动结果）调整推理，循环直到解决问题。

ReAct将这一逻辑转化为AI代理的工作流程，核心公式是：
Thought（推理）→ Action（行动）→ Observation（观察）→ Thought（新推理）→ ... → Final Answer（最终答案）

二、ReAct代理的核心组件

要构建一个ReAct代理，需要整合以下关键模块：

1. 基础语言模型（LLM）

ReAct的“大脑”，负责生成Thought（推理）、Action指令和Final Answer。

要求：具备一定的逻辑推理和指令遵循能力（如GPT-3.5/4、Claude、LLaMA系列等）；
作用：根据任务输入和历史交互记录，决定“现在需要想什么”“接下来该做什么”。

2. 工具集（Tools）

ReAct的“手脚”，是代理与外部世界交互的手段。代理通过Action调用工具，获取自身知识库外的信息或完成具体操作。

常见工具类型：
- 信息查询类：搜索引擎（如Google Search API）、维基百科API、数据库查询接口；
- 计算/操作类：计算器、代码执行器（如Python sandbox）、文件读写工具；
- 专业领域类：天气API、地图导航API、医疗数据库接口等；
要求：工具需定义清晰的调用格式（如JSON schema），确保LLM能正确生成调用指令。

3. 提示模板（Prompt Template）

ReAct的“规则手册”，用于引导LLM按照ReAct的逻辑工作。模板需明确告诉模型：

任务目标是什么；
可用的工具有哪些（名称、功能、调用格式）；
必须遵循“Thought→Action→Observation”的循环格式；
何时停止循环并输出Final Answer。

示例提示模板片段：

你是一个ReAct代理，需解决用户问题。请严格按以下格式交互：
Thought: [分析当前状态，规划下一步]
Action: [工具名称，参数]  // 可用工具：Search(query)、Calculator(expression)、Wikipedia(page_title)
Observation: [工具返回的结果]
...重复上述循环...
Final Answer: [最终结论]

用户问题：巴黎的面积是多少？
历史记录：无

4. 交互循环控制器（Controller）

ReAct的“调度中心”，负责管理“Thought→Action→Observation”的循环流程，直到满足终止条件。

核心逻辑：
1. 接收用户输入，初始化历史记录；
2. 将“提示模板+历史记录”发送给LLM，获取LLM的输出；
3. 解析LLM输出：
  - 如果是Thought+Action：提取Action中的工具名和参数，调用对应工具；
  - 如果是Final Answer：终止循环，返回结果给用户；
  - 如果格式错误：重新生成提示或报错；
4. 将工具返回的Observation加入历史记录，回到步骤2继续循环。

5. 记忆模块（Memory）

存储代理与用户的交互历史（包括Thought、Action、Observation），帮助LLM理解上下文，避免重复劳动或逻辑断裂。

实现方式：可以是简单的列表（存储每轮对话的文本），也可以是向量数据库（对历史记录做embedding，支持语义检索）。

三、ReAct代理的构建流程

以“用ReAct代理回答‘2024年诺贝尔物理学奖得主是谁？’”为例，步骤如下：

步骤1：定义任务与工具集

任务：回答用户关于2024年诺奖的问题；
工具：Search API（用于查询最新资讯，因为LLM训练数据可能未包含2024年信息）。

步骤2：设计提示模板

你是ReAct代理，需回答用户问题。规则：
1. 可用工具：Search(query) → 返回搜索结果的摘要；
2. 格式：Thought→Action→Observation循环，最后输出Final Answer；
3. 若已有足够信息，直接给Final Answer。

用户问题：2024年诺贝尔物理学奖得主是谁？
历史记录：

步骤3：初始化控制器与记忆

记忆模块初始为空；
控制器加载提示模板，准备开始循环。

步骤4：运行ReAct循环

第1轮：

LLM输入：提示模板+空历史记录；

LLM输出：

Thought: 用户问的是2024年诺贝尔物理学奖得主，我的训练数据截止到2023年10月，没有该信息。需要用Search工具查询最新消息。
Action: Search(query="2024年诺贝尔物理学奖得主")

控制器解析Action：调用Search工具，参数query为“2024年诺贝尔物理学奖得主”；

工具返回Observation：

2024年诺贝尔物理学奖授予皮埃尔·阿戈斯蒂尼（Pierre Agostini）、费伦茨·克劳斯（Ferenc Krausz）和安妮·吕利耶（Anne L’Huillier），以表彰他们在“产生阿秒光脉冲以研究物质中电子动力学方面的实验方法”的贡献。

控制器将Observation加入历史记录。

第2轮：

LLM输入：提示模板+历史记录（包含Thought、Action、Observation）；

LLM输出：

Thought: 已通过Search工具获取到2024年诺贝尔物理学奖得主的信息，足够回答问题。
Final Answer: 2024年诺贝尔物理学奖授予皮埃尔·阿戈斯蒂尼（Pierre Agostini）、费伦茨·克劳斯（Ferenc Krausz）和安妮·吕利耶（Anne L’Huillier），以表彰他们在“产生阿秒光脉冲以研究物质中电子动力学方面的实验方法”的贡献。

控制器检测到Final Answer，终止循环，返回结果给用户。

四、ReAct代理的优势与适用场景

优势：

透明性：Thought过程可见，便于调试和理解代理的决策逻辑（对比“黑箱”式的端到端生成）；
灵活性：可通过扩展工具集适配不同领域任务（如科研、客服、自动化运维）；
准确性：结合外部工具弥补LLM的知识截止问题，减少幻觉（Hallucination）；
可控性：通过提示模板约束代理行为，避免无意义或危险的行动。

适用场景：

需要多步推理+外部信息的任务：如复杂问答（“为什么最近某地区暴雨频发？”）、数据分析（“统计近一年公司销售额的季度趋势”）；
需要工具交互的任务：如代码调试（调用代码执行器测试代码）、旅行规划（调用地图API查路线+酒店API订房）；
需要可解释性的场景：如医疗诊断辅助（展示推理过程和检查依据）、金融风控（说明决策的风险评估逻辑）。

五、构建ReAct代理的挑战与优化方向

工具调用的准确性：LLM可能生成错误的工具名或参数（如把“Search”写成“Searth”），需通过工具描述的清晰化或少量微调提升指令遵循能力；
循环效率：避免无限循环（如代理反复调用同一工具却得不到有效信息），需设置最大循环次数或无效Action检测机制；
成本与延迟：每次调用LLM和工具都会产生成本（尤其是GPT-4等付费模型）和延迟，需优化提示模板减少不必要的循环轮次；
安全性：工具调用可能带来风险（如代码执行器被注入恶意代码），需添加权限控制和沙箱环境。