OpenManus 原理浅析（一）——Agent 基本原理

是一个开箱即用的智能体系统，基于 LLM 和工具链实现端到端任务自动化，更接近 “成品应用”。用户可直接通过指令驱动其完成复杂任务，如生成代码、数据分析、网页交互等。本文将简单介绍 OpenManus Agent 是如何运行的。我们希望在了解 OpenManus Agent 工作原理后，能够回答这两个问题。

wopelo

737人浏览 · 2025-12-21 17:49:19

wopelo · 2025-12-21 17:49:19 发布

前言

OpenManus 是一个开箱即用的智能体系统，基于 LLM 和工具链实现端到端任务自动化，更接近 “成品应用”。用户可直接通过指令驱动其完成复杂任务，如生成代码、数据分析、网页交互等。
本文将简单介绍 OpenManus Agent 是如何运行的。我总结下来，一个 Agent 的运行原理，可以总结为如下两个问题：

Agent 接收任务之后，是如何规划和执行的？
Agent 是如何判断任务达到完成状态的？

我们希望在了解 OpenManus Agent 工作原理后，能够回答这两个问题。

项目目录

OpenManus 项目中关键目录和文件有这些：

OpenManus/
├── app/                    # 核心应用目录
│   ├── agent/             # 智能体实现模块
│   │   ├── base.py        # 基础智能体接口定义
│   │   ├── manus.py       # 主要智能体实现
│   │   ├── planning.py    # 任务规划模块
│   │   ├── react.py       # 反应式决策模块
│   │   ├── swe.py         # 软件工程相关能力
│   │   └── toolcall.py    # 工具调用处理模块
│   ├── flow/              # 流程控制模块
│   │   ├── base.py        # 流程管理基础类
│   │   ├── flow_factory.py # 流程工厂
│   │   └── planning.py     # 任务规划流程
│   ├── tool/              # 工具集合模块
│   │   ├── base.py        # 工具基础接口
│   │   ├── browser_use_tool.py  # 浏览器操作工具
│   │   ├── file_saver.py  # 文件操作工具
│   │   ├── google_search.py # 搜索工具
│   │   └── python_execute.py # Python代码执行工具
│   ├── prompt/            # 系统提示词模块
│   │   ├── manus.py       # Manus智能体提示词
│   │   ├── planning.py    # 规划相关提示词
│   │   └── toolcall.py    # 工具调用提示词
│   └── config.py          # 配置管理
├── config/                # 配置文件目录
│   ├── config.example.toml # 配置文件示例
│   └── config.toml        # 实际配置文件
├── main.py               # 主程序入口
├── run_flow.py           # 流程运行脚本
├── setup.py              # 项目安装配置
└── requirements.txt      # 项目依赖列表

基本框架

OpenManus 以 ReAct 框架作为基本框架。所谓的 ReAct 框架（Reasoning-Acting）是一种将推理（Reasoning）和行动（Action）相结合的框架，其中：

Reasoning 包括了对当前环境和状态的观察，并生成推理轨迹。这使模型能够诱导、跟踪和更新操作计划，甚至处理异常情况。
Acting 在于指导大模型采取下一步的行动，比如与外部源（如知识库或环境）进行交互并且收集信息，或者给出最终答案。

ReAct 的典型流程可以用一个循环来描述：

思考（Thought）→ 行动（Action）→ 观察（Observation）→ 思考（Thought）→ ...  → 最终答案

如上循环即是 TAO 循环：

思考（Thought）：面对一个问题，我们需要进行深入的思考。这个思考过程是关于如何定义问题、确定解决问题所需的关键信息和推理步骤。
行动（Action）：确定了思考的方向后，接下来就是行动的时刻。根据我们的思考，采取相应的措施或执行特定的任务，以期望推动问题向解决的方向发展。
观察（Observation）：行动之后，我们必须仔细观察结果。这一步是检验我们的行动是否有效，是否接近了问题的答案。
循环迭代。

在启动 OpenManus 项目后，会按如下流程执行：

实例化 OpenManus Agent 实例，并初始化所有的工具；
接收用户的提示词；
进入 ReAct 循环，在循环内根据大模型的决策选择调用不同的工具来完成用户的需求；
返回结果；

工作流程图

OpenManus 的工作流程如下：

整体看下来还是比较清晰简单的。

关键实现

TAO循环

一开始，我们提出了一个问题“Agent 接收任务之后，是如何规划和执行的？”，现在知道 OpenManus 的 Agent 是按照 ReAct 框架执行，其工作流程可以概括为 TAO 循环。那么其规划和执行就需要分析 TAO 循环中每一步是如何运行的。

思考 Thought

在每次 TAO 循环中，会先调用 ToolCallAgent 实现的 think 方法，该方法实际通过 Function Call 的方式调用LLM，由 LLM 决策是否调用工具？调用什么工具？

可用的工具在 Manus 类中定义，其实就是上文提到的 5 个内置工具。

think 方法返回布尔值是否需要调用工具。

行动 Action

如果需要调用工具，则由 ToolCallAgent 实现的 act 方法调用具体的工具。

观察 Observation

think 和 act 方法会将 LLM 的返回、工具执行结果添加到内存的记忆中。在下一次 TAO 循环中， think 方法会将序列化好的记忆传递给 LLM，由 LLM 根据执行情况决定下一步操作。

循环终止条件

OpenManus TAO 循环有两种终止条件：

循环次数达到限制，次数限制在 ToolCallAgent 设置为 30 次。
任务达到完成状态，OpenManus 有一个内置的工具 Terminate，当这个工具在用户需求得到满足或 Agent 无法继续执行任务时调用。在每次调用工具后，ToolCallAgent 会判断调用的工具是否是 Terminate。如果是，则将 Agent 状态修改为结束，进而退出 TAO 循环。