【干货收藏】大模型智能体(Agent)全解析：从零基础入门到实战应用，架构、类型、趋势一网打尽！

本文系统介绍大模型与智能体(Agent)技术，详细阐述智能体的四大类型（提示词、工作流、自主规划、垂直领域）、核心构成（记忆、工具、规划、RAG）及发展趋势（MCP协议、多模态创作、智能机器人）。文章还提供Agent创建与使用的核心策略（提示词工程、任务拆解、上下文管理），帮助读者从零基础入门到实战应用，全面掌握AI智能体技术。

ai绘画-安安妮

407人浏览 · 2025-12-16 10:43:51

ai绘画-安安妮 · 2025-12-16 10:43:51 发布

（一）、大模型与智能体

1. 大模型与智能体 (背景与起源)
1. 什么是智能体 (核心构成)
1. 为什么要创建智能体 (核心价值)

（二）、智能体的类型

1. 核心定义
1. 提示词智能体 (Prompt Agent)
1. 工作流智能体 (Workflow Agent)
1. 自主规划智能体 (Autonomous Planning Agent)
1. 垂直领域智能体 (Vertical Domain Agent)
1. 总结

（三）、AI Agent 核心构成

1. Agent总体架构图
1. 核心架构
1. 记忆 (Memory)
1. 工具 (Tools)
1. 规划 (Planning)
1. RAG (检索增强生成)

（四）、Agent发展趋势

1. 【架构革新】MCP-连接万物的“AI版USB协议”
1. 【能力爆发】多模态创作 - Agent 成为“创意魔法师”
1. 【形态演进】Agent 与智能机器人 - 从虚拟走向现实

（五）、Agent创建与使用的核心策略

1. 【精准驾驭】提示词工程 (Prompt Engineering) —— 为Agent设定清晰的航向
1. 【化繁为简】任务拆解 (Task Decomposition) —— 将宏大目标分解为可行步骤
1. 【持续校准】上下文管理与效果评估 —— 在长跑中保持方向与评估效果

（六）、总结

（一）、大模型与智能体

1. 大模型与智能体 (背景与起源)

大模型近期进展 (2025年)

1.模型能力快速迭代

•思维链模型趋于成熟：Deepseek R1宣告CoT思维链模型已经趋于成熟

•多项能力快速提升：Cursor与Claude Code的爆火证明了大模型在代码能力方面已经接近生产实践水平

•多模态能力快速涌现：流媒体平台随处可见的AI短视频宣告大模型的多模态能力已经来了井喷

2.应用落地，开花结果

•自主规划Agent初露锋芒：Manus, DeepResearch

•垂直类Agent异军突起：

◦Lovart专注设计领域

◦Cursor专注编程

•基于LLM的全新应用正在涌现 (例如: AI浏览器, AI搜索)

3.资本市场，疯狂热捧

•OpenAI月营收超10亿美元

•Google以24亿美元收购Windsurf

•Meta为顶尖研究员开出超1亿美元年薪

大模型的局限性 (催生智能体的原因)

1.知识时效性差

•模型知识有截止日期，无法获取最新信息

•大模型因为本身迭代速度问题，无法将最新的知识训练到模型里去

2.上下文窗口长度受限

•处理长文本或复杂任务时，会丢失信息。

•从最早的4K、8K乃至后来的128K、256K，哪怕再长窗口也总有不堪使用的时候

3.输出存在幻觉

•可能会生成不真实或错误的信息

•幻觉更是大模型阿克琉斯之踵，令无数人皱眉不已

•虽然可以通过模型参数、RAG、提示词等方式降低模型产生的幻觉的概率，但它依然无法被消除

4.思考稳定性欠佳

•对于同一问题，多次回答可能不一致

•大模型对于同一问题每一次都会回答，都会给出彼此相差甚远的解题思路

•放在文本生成领域，这也许是一个优点，但如果放在像贷款审核、合同审查等领域，每一次此回答无法保证它的稳定可靠，对于应用场景来说是无法接受的

5.内容审核左右为难

•严格则限制创造力，宽松则有风险

•从法律上来说，虽然遵照法律要求为它为大模型加上内容审核和输出对齐，但是他实际上依然会出现一些惊人之语

•如果说我们这把审核限制收到最紧，那么对于用户体验的损害也是无法接受的

6.解决复杂任务的能力不足：难以处理需要多步骤、多工具协作的复杂问题

2. 什么是智能体 (核心构成)

智能体是一种以大语言模型为基础，具备规划、感知、记忆、行动能力，最终能自主完成给定任务的一种服务。它一般包含规划、感知、行动、记忆四个模块，这四个模块组合在一起才是完整的智能体。

规划能力 (Plan) - 大脑

•规划是智能体的大脑，它负责责规划任务路径，拆解任务步骤

• 描述：基于专家经验/领域知识，规划任务路径，拆解任务步骤。

•目的：降低大模型的不确定性。
感知能力 (Perception) - 眼睛和耳朵

• 感知是智能体的眼睛和耳朵，它能够处理各种各样多模态的输入信息

• 描述：处理各种视频/图像/音频/文档等输入，将多模态输入转化为结构化信息

• 目的：延申大模型的处理边界
行动能力 (Action) - 双手与双脚

• 行动是智能体的双手与双脚，它通过驱动不同工具来完成各多多种多样的任务

• 描述：包括但不限于内容输出、工具使用、驱动硬件

• 目的：赋予大模型更大的应用空间
记忆能力 (Memory) - 海马体

而记忆则是智能体的海马体，通过将长期记忆与短期记忆相结合，从而完善智能体的认知结构

• 描述：长期记忆与短期记忆结合，完善Agent的认知结构

• 目的：帮助LLM越过上下文长度限制和会话间内容完全互相独立的限制

在这里插入图片描述

3. 为什么要创建智能体 (核心价值)

多模态融合，高效生成

• 整体可以完成成对于像图像、视频、音频的动态信息处理

•

能力：能理解文本、图像等多种数据，处理海量复杂信息。

• 价值：快速解析并生成高质量内容
知识融合，释放数据价值

• 融合RAG和在线搜索为大模型加载不同行业专家知识库和最新的搜索信源驱动创新和决策

• 能力：结合大模型与行业数据，构建精准知识库。

• 价值：驱动决策与创新
稳定提效，使用方便

• 像workflow式工作流智能体，更是满足了企业场景下对于稳定性和可靠性的期待

• 能力：直接使用预设prompt与参数的智能体，免调试、高稳定

• 价值：直接提升生产力
一键共享，协同复用

• 智能体平台则是把发布后的智能体的业务价值，发布后的智能体一键推到飞书等不同的渠道，降低了智能体的使用门槛，提升了应用价值

• 能力：快速分发定制化助手，支持多人协作与跨场景应用

• 价值：解决多人使用的难题

（二）、智能体的类型

1. 核心定义

智能体（Agent）是能够感知环境、进行决策并执行动作以实现特定目标的自主实体。

随着技术发展，涌现出多种不同设计和能力的智能体。

2. 提示词智能体 (Prompt Agent)

本质

这是最基础、最简单的智能体形式。
核心构成

由一组精心优化过的提示词组成。

通过对角色的设定、任务的描述、需求说明、约束条件、输出形式等关键要素的定义，从而极大的优化了智能体的输出效果。

一般来说在提示词智能体中，大家还会为它附加上搜索、知识库、绘图和代码生成等少量精品工具，内置到知道背后的MoE模型中，从而提升提示词智能体的泛用性
能力扩展

• 内置少量精品工具: 通常会集成一些特定的工具来扩展其应用边界，例如：

◦ RAG (Retrieval-Augmented Generation): 检索增强生成，用于结合外部知识库回答问题。

◦ 代码生成 (Code Generation): 自动编写代码。

◦ 联网搜索 (Web Search): 获取实时信息。

◦ 文生图 (Text-to-Image): 根据文字描述生成图片。

• 实现方式: 将这些工具内置到底层的混合专家（MoE）模型中，提升了智能体的泛用性。

3. 工作流智能体 (Workflow Agent)

核心理念

• 将复杂的任务分解为标准化的流程，提升稳定性和效率

•

通过预先定义的流程固化了业务逻辑，并且通过合理优化的步骤，提升了整体的稳定性，降低了智能体不稳定的风险。

• 并且由于工作流智能体往往附带丰富的工具生态，从而为Agent增加了三头六臂，极大提升Agent的能力范围。

• 工作流智能体这种形式天然的是适合于使用模块化设计的。每一个小工作流可以专注完成一个模块子任务。

• 通过人工或者自动的方式串联多个不同的工作流模块可以实现多Agent的协作，从而使这一个工作流Agent最终能够解决一类非常复杂的业务场景
主要特点

• 合理优化的任务流程:

◦ 通过预先定义的流程来固化业务逻辑。

◦ 显著降低了智能体输出不稳定的风险，提高了可靠性。

• 丰富的工具生态:

◦ 通常会附带和集成丰富的工具集，为 Agent “增添了三头六臂”。

◦ 极大地扩展了 Agent 的能力范围，可以处理更复杂的任务。

• 模块化设计:

◦ 天然优势: 工作流的形式非常适合进行模块化设计。

◦ 实现多 Agent 协作：
1. 将大任务拆解成多个模块化的子任务。
2. 每个工作流可以专注于完成一个子任务。
3. 通过人工或自动化的方式，将多个不同的 Agent 模块串联起来。
4. 最终实现多个 Agent 的协同工作，解决非常复杂的业务场景。

4. 自主规划智能体 (Autonomous Planning Agent)

标志性进展

以 Manus 为代表，是智能体在“智能”层面上的进一步提升。

能够基于给定的任务和一些预定的限制逻辑生自主的规划一个任务应当如何去实现，生成一个ToDo List，然后基于这样一个ToDo List，大模型会在Thought、Action、Observation也就是思考行动观察之间不断循环，基于ReAct的思维链进行自我迭代，直到任务的最终完成。

从现在的智能表现上来说，自主规划智能体是距离通用人工智能AGI最近的一条路，被视大家视为通向AGI的钥匙。
核心能力

• 大模型自主规划任务路径:

◦ 能够基于给定的任务和一些预设的逻辑限制，自主地规划出完成任务的步骤。

◦ 生成一个清晰的待办事项列表 (To-Do List)。

• 基于 ReAct 的自我迭代:

◦ ReAct 框架: 这是一种结合了思考（Reasoning）和行动（Acting）的框架。

◦ 循环机制: 在思考 (Thought) -> 行动 (Action) -> 观察 (Observation) 之间不断循环。

◦ 自我修正: 通过观察行动结果，不断调整下一步的思考和行动，进行自我迭代，直到最终完成任务。

• 重要意义:

◦ 被视为通向 AGI 的钥匙: 从目前的智能表现上来看，自主规划智能体是距离通用人工智能（AGI）最近的一条路径。

5. 垂直领域智能体 (Vertical Domain Agent)

定义

专注于特定行业或领域的专用智能体，解决该领域的特定问题。
典型案例

• 代码 Agent

◦ 代表: Cursor, GitHub Copilot。

◦ 功能: 随着大语言模型（LLM）编码能力的提升，这类 Agent 迎来了大爆发，能够极大地提升开发效率。

◦ 影响: 能够为广大程序员不是或者是不懂程序的同学、产品同学快速的生成代码，从而提升大家的生产力。程序员们正又一次在“革自己的命”。

• 设计 Agent

◦ 代表: Lovart。

◦ 特点: 异军突起，是 AIGC 应用于艺术创作和设计行业的探索。

◦ 创新: 率先探索出了适合设计行业的工作流范式。

• 视频 Agent

◦ 像即梦、可灵这样的视频平台，已经开始推出各自的视频 Agent，以完善其视频创作生态。未来，用户将能更方便地使用小云雀这类 Agent 创作短视频。

6. 总结

智能体正从简单的提示词驱动，发展到结构化的工作流执行，再到具备自我思考能力的自主规划，并最终在各个垂直领域开花结果。

理解这些不同类型的 Agent，不仅能帮助我们把握 AI 技术的前沿动态，更能启发我们思考如何将这些强大的工具应用到未来的学习和工作中。

（三）、AI Agent 核心构成

1. Agent总体架构图

在这里插入图片描述

Agent总体架构图

Agent总体架构图，它包含了agent的记忆、规划和行动。感知模块属于工具，工具属于行动。

为什么会有这样划分呢？

因为在Agent真正使用时的过程中，大家往往会把像OCR工具，图片理解工具，语音转写工具，也划入了工具的范畴里面去。

智能体规划，主要有反思，然后自我批评、思维链、多任务目标分解，来实现智能体对于复杂任务的规划和解构

2. 核心架构

•代理人 (Agent): 整个系统的核心，负责接收任务、进行思考和决策。

•记忆 (Memory): 负责储存和检索信息，是 Agent 做出正确决策的基础。

•工具 (Tools): 赋予 Agent 与外部世界交互、获取信息和执行特定任务的能力。

•规划 (Planning): Agent 对复杂任务进行拆解、制定执行步骤和自我反思的过程。

•行动 (Action): Agent 根据规划和可用工具，最终执行的具体操作。

3. 记忆 (Memory)

短期记忆

• 定义: 将智能体本次任务中的关键信息进行提炼和收集

• 作用: 通过对短期记忆的善加利用，可以将任务的关键信息提炼收集，从而避免上下文长度过长以后可能会出现智能体对于一些关键信息的误判或遗漏。

• 示例: 在订票对话中，记住用户的出发点、出发时间、出发到达城市、使用的交通工具、需要的购票金额以及是否有票的一些信息，就是这次短期记忆中需要重点保障的东西
长期记忆:

• 定义: 通过长期收集用户的使用习惯，形成对用户的深入了解。

• 作用: 让智能体能更好的理解用户需求，实现高效沟通，培养人和大模型之间的默契

• 示例: 记住用户的职业、兴趣爱好、常用城市等信息，从而提供更个性化的服务，沟通也会更加高效

4. 工具 (Tools)

核心作用

• Agent 连接世界的桥梁。

• 通过工具的赋能，Agent 能够获取外部信息，与现实环境交互，或者说有更多的第三方生产工具进行交API交互，从而完成更多更复杂任务
Agent 的自主规划调用

• 随着大模型效果的提升，人们不再满足于让 Agent 解决单点问题。

• 未来的趋势是 Agent 能够自主规划，组合调用多个工具来解决一个复杂的任务。
工具示例 (星辰 Agent 平台)

• 聚合搜索、联网搜索

• 文生图、文生图-可灵版

• 超拟人合成

• 感知模块的工具：通用 OCR 大模型、图片理解

5. 规划 (Planning)

核心要素

• 反映/反思 (Reflection): 对过去的行动和结果进行回顾和总结。

• 自我批评 (Self-criticism): 发现并修正自己的错误和不足。

• 思想链 (Chain of Thought): 模拟人类的思考过程，将复杂问题分解为一系列中间步骤。

• 子目标分解 (Subgoal Decomposition): 将一个大的、复杂的目标拆解成多个小的、可执行的子目标。
目的

随着大模型效果不断提升，人们已经不满足于让Agent用工具来解决一些单点问题，比如说让他给我生成一张配图，或者让他去给我生成一段话。

人们有些时候会说，你能不能基于用搜索文生图和超拟人合成来给我生成一段播客。

比如说对于老年人骨质疏松有没有一些保养的健康内容，这就属于让智能体通过自主规划来调用工具，它能够自主决定我每一步应该使用什么样的工具，解决什么样的问题。

通过将多个工具进行组合调用的方式，是来解决一个复杂问题。对于工具的自主规划调用是这今年以来整个行业的大体的趋势

6. RAG (检索增强生成)

在这里插入图片描述

RAG

提出背景

出现的根本原因是为了解决大部分知识更新频率不够及时、信息不够准确的问题。
核心思想

• 通过 RAG 将人类已有的知识快速提供给 Agent，从而提升其回答的准确率、及时性和专业度。

• RAG它可以是知识库，但它不局限于知识库。它不仅仅是可以是离线的，它也可以是在线的知识库

• RAG的一般的构建方式

◦ 首先上传本地文档或者在线信源给到RAG。

◦ 然后由RAG对文档的内容做切片，然后切分成不断的一个个文档段，然后再把这些文档段构建一个Embedding在数据库里。

◦ 然后用户会像大模型或者Agent的提问的时候，由大模型对用户的query进行改写和优化。

◦ 优化好之后去对刚刚的知识库里去做命中和检查相应的的索引分片。

◦ 然后把召回的的知识库片段进行组合排序，然后就交由大模型基于给定的提示词模板或者说是给定的用户问题，其根据刚刚命中的知识库分片进行组合和生成对应的答案。
工作流程

• 数据处理: 文件上传 -> 文件解析 -> 切片 -> 构建索引。

• 用户查询: 用户提问 -> Query 改写 -> 路由 -> 向量化。

• 信息检索: 从数据库中多路召回（语义检索、关键词检索）。

• 答案生成: 对检索到的信息进行排序 -> 结合用户问题和提示词模板 -> 交给大语言模型（LLM）-> 输出最终答案。

（四）、Agent发展趋势

中心主题：Agent 的进化之路——从协议、创作到实体

1. 【架构革新】MCP-连接万物的“AI版USB协议”

点击跳转MCP官方介绍页面

核心定义 (一句话弄懂)

它是一种标准化的“万能插座”协议，让AI Agent（大脑）可以轻松地调用和控制各种内外部工具与资源（手脚）。
三大核心组件 (角色扮演)

• MCP 主机 (Hosts) - “总指挥官”

◦ 角色: AI Agent 本体，比如我们熟知的 Copilot、Cursor 或各种大模型应用。

◦ 任务: 产生需求，希望通过统一的方式访问世界上的各种资源来完成复杂任务。

• MCP 客户端 (Clients) - “通讯员”

◦ 角色: 实际上是一个协议客户端，它在这里面充当了一个调用方的一个角色。负责传递命令的协议客户端。

◦ 任务: 将“总指挥官”的指令，按照 MCP 的标准格式，准确无误地传达给相应的“工具兵”。

• MCP 服务端 (Servers) - “全能工具兵”

◦ 角色: 各种具体能力的提供者，是被调用的那一方。

◦ 任务:

▪ 将自身的具体能力（如操作本地文件、调用在线API）打包成一个标准化的服务

▪ 将各种各样的本地资源或在线资源封装成MCP Server。

• 既包含了这些被调用方的一些功能的基本描述，也包含被调方有哪些接口，以及每个接口对应的参数的描述。

• 这样的话通过提供这样一些描述信息给大模型，那么大模型就可以理解，我在给定的步骤和给定的问题下，我每一步应当调用哪个MCP Server能够满足我的目的。

• 然后再基于MCP Server描述知道应当生成什么样的调用参数，能够把MCP Server调用起来，返回我的调用结果。

◦ 比喻: 就像一个USB扩展坞，把各种各样不同的本地或者在线的资源统一的封装给大模型来使用，转换成AI Agent能理解的标准信号。
工作流程 (如何协作)

• 发布“说明书”: 每个“工具兵”（MCP Server）都会提供一份详细的能力说明书，告诉“总指挥官”自己能干什么、怎么调用、需要哪些参数。

• 智能决策: “总指挥官”（大模型）阅读这些说明书后，就能理解在特定任务下，应该调用哪个“工具兵”，并生成正确的指令。

• 执行与返回: “通讯员”传递指令，“工具兵”执行任务，然后将结果返回。
重大意义

• 标准化与解耦: 解决了AI Agent与无数工具之间连接混乱的问题。

• 无限扩展: 理论上，任何资源只要遵循MCP标准，就能被Agent使用，极大地扩展了Agent的能力边界。

2. 【能力爆发】多模态创作 - Agent 成为“创意魔法师”

核心趋势

AI Agent 正在从单一的文本处理，进化为能够理解和创作图像、音乐、视频的全能型创意伙伴。
三大创作领域

• 图文生成 (已进入成熟期)

◦ 代表工具: FLUX, ComfyUI

◦ 应用现状: 工作流工具已经非常成熟，在游戏设计、美术创作等专业领域被广泛应用，成为生产力工具。

• 音乐生成 (大众化进行时)

◦ 代表工具: Suno

◦ 能力表现: 可以根据风格描述，创作出完整的原创歌曲（包含编曲和人声）。

◦ 社会影响: 已经在B站、抖音等平台掀起AI音乐创作热潮，人人都可以是“作曲家”。

• 视频生成 (技术迭代最前沿)

◦ 代表工具: 可灵, 即梦

◦ 发展阶段: 技术正在飞速迭代，从几秒的片段向更长、更复杂的叙事视频迈进。

◦ 未来展望: “创意即视频”将成为可能。未来会出现更多像“小云雀”这样的垂直领域Agent，让普通人也能轻松将脑海中的故事变为影像，直接让创意生成视频会有一种可能

3. 【形态演进】Agent 与智能机器人 - 从虚拟走向现实

核心趋势

Agent 不再满足于活在软件里，它正在寻找“身体”，与硬件结合，进入我们的物理世界。
两大结合方向

• 智能硬件 (方兴未艾)

◦ 概念: 为我们日常使用的硬件设备装上一个更聪明的“大脑”（Agent）。

◦ 应用实例:

▪ 家庭中枢: 电视、智能音箱（如天猫精灵、小爱音箱）开始集成Agent，能更主动、更智能地理解和执行命令。

▪ 个人设备: 手表、智能陪伴硬件（如“闺蜜机”）等C端设备，通过Agent提升交互体验和个性化服务。

◦ 目标: 让硬件不再是冷冰冰的工具，而是贴心的智能伙伴。

• 具身智能 (前景可期)

◦ 概念: 让 Agent 拥有可以感知和操作物理世界的身体，即智能机器人。

◦ 行业呼声: 机器人行业迫切需要更智能、更高效的Agent作为机器人的“大脑”，来完成复杂的现实任务。

◦ 代表形态: 宇树科技等的双足、四足机器人。

◦ 终极梦想: 打造一个“能听会写，能读会说”的完整智能体，它不仅能理解语言，还能在现实世界中行动，真正实现科幻电影中的场景。
总结

AI Agent的发展正沿着三条清晰的脉络前进：

• 以MCP协议统一“语言”，实现能力的无限扩展；

• 在多模态领域释放“创意”，成为人类的创作伙伴；

• 与硬件结合获得“身体”，从虚拟世界走向物理现实。

这不仅仅是技术趋势，更预示着一个全新的智能时代的到来。

（五）、Agent创建与使用的核心策略

如何更好地驾驭AI Agent，使其成为我们强大的助手。

从三个核心维度展开：精准的指令（提示词工程）、清晰的路径（任务拆解）和持续的校准（过程管理）。

一些Agent的或者说大模型在常见使用过程中一些小tips，能够帮助更好地使用它们

1. 【精准驾驭】提示词工程 (Prompt Engineering) —— 为Agent设定清晰的航向

核心思想

• 提示词不是简单的提问，而是为Agent构建一个有明确规则和边界的工作框架。

• 首先它应当遵循一定的框架布置、结构。

◦ 就是我们要给他明确的决策设定、思考步骤、需求描述，输出规范、参考样例这样一些提示词模板。

◦ 通过这样一些手段，对大模型的最终输出效果进行一定程度的约束。

• 除了刚才我们规范化的来撰写我们提示词之外，我们还有要考虑一点就是不同模型在具体问题上表现是相差很多的。我们需要选择合适的模型去解决合适的问题。这个时候需要相应的开发者长期的试错和的测评来积累宝贵的一手经验。
遵循特定的框架结构

• 角色设定 (Role Setting): 赋予Agent一个明确的专家身份。

◦ 示例：“你是一位资深的金融分析师”、“你是一名富有创意的营销文案策划”。

◦ 目的：使其输出的内容和风格更专业、更聚焦。

• 思考步骤 (Thinking Steps): 引导Agent进行结构化思考。

◦ 示例：“请遵循以下步骤：1. 分析问题背景；2. 提出三个解决方案；3. 评估每个方案的优缺点。”

◦ 目的：避免逻辑混乱，确保思考的完整性。

• 需求描述 (Requirement Description): 清晰、无歧义地描述你的任务目标。

• 输出规范 (Output Format): 严格限定输出的格式。

◦ 示例：“请以Markdown表格形式输出”、“请用总分总的结构进行论述”。

◦ 目的：让结果更易于使用和解读。

• 范例引导 (Few-shot Learning): 给出1-2个完整的“问题-答案”范例。

◦ 目的：让Agent快速学习并模仿你想要的风格和标准。
选择合适的模型

• 性能差异: 不同的AI大模型在处理特定任务（如逻辑推理、创意写作、代码生成）时，表现千差万别。

• 实践出真知: 需要开发者和使用者通过不断地测试和试错，找到最适合当前任务的模型，并积累宝贵的一手经验。

2. 【化繁为简】任务拆解 (Task Decomposition) —— 将宏大目标分解为可行步骤

用好Agent的还有一个点就是做好任务拆解，为什么呢？

首先就是我们虽然认为自主规划智能体是我们将来的趋势，但是现在当下的智能体的规划能力还有待提升。

目前只有极少数领域可以放手让Agent的自行发挥。

比如说，你要是用真正使用一次Manus，或者说是尝试让他尝试解决一些稍微复杂的问题，就会发现Manus有些时候还会遇到一些像死锁、死循环这样一些情况。

这种时候就说明大模型的“俺寻思”能力还不够可靠。

真实的业务场景，有些时候也不赞成像让Manus这样的智能体对于工作流程和工作步骤进行任意发挥。

比如说像财务质检测试，他对于工作的流程步骤是有严格要求的。

就是需要我们Agent完全可以遵循给定的步骤去执行任务，才能够合规的运行下去，保证结果可靠可信。

同时最后呢，在长期实践过程中，也发现将步骤拆解的越细越小，能够让大模型对于最后的整体结果表现的越好。有时候也是提倡将任务拆解到一些更细的颗粒度。

核心思想

当前Agent的自主规划能力有限，我们需要像项目经理一样，将复杂任务拆解成一系列简单、明确的子任务。
智能体的规划能力尚待提升

• 现状: 完全自主规划是未来的趋势，但目前Agent在面对复杂问题时，容易陷入“死锁”或“死循环”，可靠性不足。

• 结论: 在大多数场景下，不能完全放手让Agent自行发挥。
真实业务场景要求流程固化

• 场景特点: 在金融、质检、测试等专业领域，业务流程有严格、固定的要求，不允许随意创造。

• 执行要求: Agent必须严格遵循预设的步骤执行任务，以确保结果的合规性、准确性和可靠性。
任务步骤的细化能提升模型表现

• 关键原则: 任务拆解的“颗粒度”越细，Agent执行的效果越好。

• 实践建议: 将一个大任务（如“分析市场报告”）拆解成多个小步骤（“1. 提取报告关键数据；2. 识别主要趋势；3. 总结核心观点”），能显著提升最终结果的质量。

3. 【持续校准】上下文管理与效果评估 —— 在长跑中保持方向与评估效果

现阶段Agent的专业知识是人灌输给他的，他自己并不具备真正的经验和常识，有些时候他会就闹出来8.11比8.9大这样的一些笑话。

这时候说明Agent还是需要对人类专家对于它的效果不断的check和指引，来指导Agent真真正正的完成一个给定的任务。

业务专家的经验才是Agent它运行成果真正的保障。

上下文管理是指什么呢？

是指我们在和大模型Agent不断的多轮沟通过程中，每沟通完一轮让大模型对于刚刚的执行结果做归纳总结，生成摘要。

这个原因在于哪呢？是因为如果说你和Agent沟通达到10轮甚至更多的时候，大模型对于长度很长的上下文中的重点可能会遗漏或可能会跑偏。这时候它的结果可能会产生一定程度的失控或者是跑飞。

这个时候你就要使用让大模型刚刚让大模型生成摘要和总结，复制出来，然后另开一个窗口，让大模型基于刚刚的摘要总结重新开始往下写。

这就是刚刚我们所说的上下文管理，就是针对agent以及明显跑飞的时候，这个时候不要犹豫果断重开。

核心思想

Agent不是一次性工具，在连续的互动中，我们需要主动管理它的“记忆”并持续评估其表现。
上下文 (Context) 管理

• 面临挑战: 在多轮长对话中，随着上下文信息累积，Agent会逐渐“忘记”初始目标或关键信息，导致对话“跑偏”或失控。

• 应对策略:

◦ 阶段性总结: 要求Agent在每一步或每一轮对话后，对当前结果进行归纳总结，生成摘要。

◦ 果断重启: 当发现Agent已经明显“跑飞”（回答与主题无关或出现逻辑混乱）时，不要试图纠正。应复制之前的有效摘要，在一个全新的对话窗口中重新开始，将摘要作为初始输入。
效果评估

• 认知局限: Agent的知识来源于数据灌输，它并不具备人类真正的经验和常识，有时会犯一些低级的常识性错误。

• 人类专家的必要性:

◦ Check (核查): 需要领域专家对Agent输出的关键结果进行持续的核查和验证。

◦ 指引 (Guidance): 在Agent偏离方向时，及时给予纠正和引导。

• 成功保障: 业务专家的经验和判断，是确保AI Agent最终能成功运行、创造价值的真正保障。