面试官问：Agent 的规划模块是怎么实现的？

Agent规划模块的实现逻辑与工程取舍当前Agent系统的规划模块主要采用"人工预设+模型填充"的混合模式，而非完全依赖LLM自主规划。主流实现方式包括：框架控制：通过Prompt模板（如ReAct的Thought-Action循环）或程序结构（如BabyAGI的任务分派机制）固定规划流程；分层设计：将规划拆分为任务分解、优先级排序、执行监控等子模块，LLM仅负责具体内容

AI大模型啼啼

601人浏览 · 2025-11-20 13:48:51

AI大模型啼啼 · 2025-11-20 13:48:51 发布

面试官问：Agent 的规划模块是怎么实现的？

这篇文章完全来自大模型训练营里的 Agent 实战素材与项目拆解，遵循“能落地、可面试、可复用”的三件套思路：原理认知 → 工程取舍 → 面试表达 → 实战案例。

回到主题，在面试中常被问到这样一个问题：

“Agent 的 Planning（规划）模块 是怎么实现的？”

这个问题看似简单，很多人回答都是一句话：“让大模型自己规划任务就行。”

但在真实工程里，这句话往往不成立。

今天我们就把这件事讲透：当前主流的 Agent 系统，规划到底是怎么做的？为什么多数时候不是模型自己想，而是人帮它“写死”的？

unsetunset一、当前 Agent 系统的规划，基本是“人为写进去”的unsetunset

在大多数现有的 Agent 框架中，所谓的 “Planning（规划）”，并不是 LLM 自发产生的，而是通过 Prompt 或程序结构人工嵌入进去的。

换句话说，现在的 LLM，并不会自动思考“下一步该干什么”，而是我们先告诉它该怎么想、怎么拆、怎么执行。

一个最典型的例子是这样的提示词：

You are an AI assistant.To complete tasks, always think step by step,consider tools you have, and reason before acting.Use this format:ThinkDecideActObserve

或者更复杂一点，比如 AutoGPT、BabyAGI 这类框架，会在程序中写死任务拆解、执行、回顾的循环逻辑。 LLM 只是负责在框架给的空格里，填上具体内容。

unsetunset二、那 LLM 能不能“自己规划”？unsetunset

能，但目前还不太可靠。

比如你可以 prompt 它说：

“请给我一个完成‘写一个产品需求文档’的行动计划。”

它确实能输出一套看起来挺合理的 steps，但问题是：

这些步骤可能不具备上下文一致性；
执行几轮后容易偏题；
无法在执行中动态修正。

于是出现了各种折中做法——让 LLM 做“半自动规划”：

我们告诉它：“你是 Planner，负责拆分任务”；
然后再由另一个 Executor 模块执行；
中间还要有人或代码帮它检查计划是否合理。

这就是现在绝大多数 Agent 框架的样子：规划看似自动，其实半自动。

unsetunset三、在真实项目里，规划谁来做？unsetunset

落地时最常见的问题是：哪些逻辑写在 Prompt 里交给模型做，哪些逻辑写在代码里人为固定？

这个问题没有标准答案，但可以从三类取舍逻辑出发来看。

3.1 什么时候交给 LLM 自行规划（Prompt）

适合场景：

**问题不确定、场景多变：**比如要写营销方案、生成创意文案、制定调研计划，这些任务本身没有固定解，模型发挥空间更大。
**希望模型具备灵活应变能力：**当需求常变、数据来源复杂时，手写规则成本太高，不如让模型按原则生成方案。
**人力维护成本高：**如果每天都要手动改规则，不如让模型通过 Prompt 自己“思考”并给出步骤。

换句话说——适合让模型“自由发挥”的地方，就用 Prompt。

3.2 什么时候要人工或程序硬编码

适合场景：

**流程固定，可控性要求高：**比如实名认证、法务审核、风控决策。这些环节要的是“绝对可靠”，不是灵活。
**不需要模型推理的逻辑：**例如按钮点击、表单验证、API 调用流程，这类纯逻辑性代码交给程序更安全。
**安全与合规要求高：**模型可能输出不合规的答案，而硬编码逻辑可以被审计、被复盘。

一句话总结：凡是出错代价大的地方，不要让模型“想”。

3.3 混合模式：最常见也最实用

绝大多数工程项目采用的是混合式规划：

**主流程由人工或代码固定；**确保关键步骤不会跑偏。
**关键节点交给模型规划；**比如内容生成、策略制定、风险分析等。
**Prompt 嵌入规则和约束条件；**例如告诉模型“遇到非法输入要直接返回失败”，而不是随意发挥。
**LLM 规划后再经人工/程序校验；**提高安全性与可解释性。

这其实就是“灵活与可控的平衡点”。

unsetunset四、真实案例解析unsetunset

为了更直观地理解，我们来看几个典型场景。

Case 1：电商客服问答系统

硬编码部分：

身份验证、订单查询、退款流程；
售后政策逻辑；这些步骤要固定、可审计、不可被模型更改。

Prompt 部分：

用户自然语言问答；
问题总结与推荐；模型通过 Prompt 来生成更自然的对话和解释。

总结：客服业务逻辑硬编码，用户交互语言用 Prompt。

Case 2：企业知识库问答

硬编码部分：

权限管理；
检索与查询语句；

Prompt 部分：

对文档内容的总结、解释；
多文档整合与推理。

总结：权限与结构写死，内容生成交模型。

Case 3：舆情监测系统

硬编码部分：

数据采集与标签定义；

Prompt 部分：

文本打标签；
每日报告总结。

总结：结构化任务交程序，语义化分析交模型。

Case 4：合同审核 Agent

硬编码部分：

法律条款库；
风险等级定义；

Prompt 部分：

条款分析；
合规建议生成。

总结：风险规则写死，文本分析用模型。

Case 5：项目任务规划 Agent

硬编码部分：

项目管理权限；
任务追踪逻辑；

Prompt 部分：

需求拆解；
沟通建议。

总结：项目结构程序控制，内容生成模型负责。

unsetunset五、主流框架的规划机制unsetunset

接下来看看目前主流 Agent 框架里，Planning 是怎么实现的。

5.1 ReAct

论文：《ReAct: Synergizing Reasoning and Acting in Language Models》

**核心思路：**让模型一边推理，一边行动。输出格式固定为：

Thought → Action → Observation → Thought → ...

规划机制：

Prompt 中写明固定循环；
LLM 在 “Thought” 阶段思考下一步；
外部程序解析 “Action” 并调用工具。

**总结：**即时规划（on-the-fly），靠 Prompt + 控制循环实现。

5.2 MRKL

论文：《Modular Reasoning, Knowledge and Language》

**核心思路：**LLM 充当“控制中枢”，通过推理决定要调用哪个工具。典型流程：

思考 → 选择工具 → 执行 → 获取结果 → 再思考

规划机制：

Prompt 中提供可用工具列表；
LLM 推理选择；
外部代码负责执行工具调用。

**总结：**规划 = 工具选择；Prompt 决定路线，程序保证执行。

5.3 BabyAGI

**核心思路：**自动化任务管理循环。

包含三个 Agent：

创建任务；
任务排序；
执行任务。

规划机制：

Task Creation Agent 负责子任务规划；
Task Prioritization Agent 负责排序；
执行 Agent 实际执行。

**总结：**规划逻辑在外部 Python 框架里，模型只是填任务文本。

5.4 AutoGPT

**核心思路：**更强的自我驱动循环系统。包含：

Memory；
Planner；
Command Executor。

规划机制：

LLM 生成下一个行动描述；
程序解析命令、执行；
写回记忆，再继续下一轮。

**总结：**看似自动，其实每一步都由外部循环驱动。

5.5 对比小结

框架	规划核心	LLM作用	控制逻辑
ReAct	即时思考 + 行动	小步规划	Prompt 模板
MRKL	工具路由	工具选择	Prompt + 程序
BabyAGI	子任务生成	子任务规划	外部循环
AutoGPT	自我迭代	下一步命令生成	主循环驱动

这些系统的共同点是：规划逻辑主要靠 Prompt 和外部程序控制，而不是 LLM 自己全盘思考。

unsetunset六、面试官在听什么？unsetunset

面试官通常不是想听名词堆砌，而是要判断你是否理解“规划的本质是控制结构”。

可以这样答：

目前主流 Agent 框架中的规划（Planning），主要是通过 Prompt 模板 + 程序循环实现的。 LLM 负责局部的推理和决策，但总体流程由人工定义。例如 ReAct 框架通过“Thought–Action–Observation”循环实现即时规划，BabyAGI 则通过任务创建与优先级模块做宏观调度。

unsetunset七、总结unsetunset

**现状：**当前 LLM 的规划能力有限，主要依赖人为定义的结构与提示。
**原因：**因为语言模型只是生成模型，不具备稳定的状态记忆与执行控制，需要外部框架帮它“分步走”。
**趋势：**新研究开始尝试让模型自我改写 Prompt、自主规划任务，但仍依赖元框架管理。
**核心启发：**真正稳定的 Agent，往往是“人工控制主干 + 模型填充细节”的混合结构。

这篇文章完全来自训练营里的 Agent 实战素材与项目拆解，遵循“能落地、可面试、可复用”的三件套思路：原理认知 → 工程取舍 → 面试表达 → 实战案例。

unsetunset最后说一句unsetunset

这段时间，我陆续写了二十几篇关于 RAG（检索增强生成）的面试答题文章。

很多同学说，看完之后不仅知道“怎么答”，还知道“为什么这么答”，甚至能把思路直接用到自己的项目里。

其实，这些文章并不是凭空写出来的，也不是简单整理网络资料，而是来自我在大模型训练营里的真实项目沉淀。

训练营里有多个从零到落地的实战项目。

1、企业培训问答 Agent（含多轮理解与记忆模块）

2、金融研报 RAG 系统（混合检索、重排序、多模态解析）

3、行业深研助手 DeepResearch（实时检索 + 知识沉淀链路）

4、深学 AI 学习助手（上下文结构化与生成链路可解释）

这些实战项目不是“照着文档做一遍”那种，而是会带着同学一步步拆逻辑、跑代码、调权重、对指标，最终能说清楚“为什么这么设计、哪里容易踩坑、怎么迭代优化”。

这些内容最终沉淀成训练营内部的体系化笔记、方法论文档、Badcase 修复记录和面试表达模板，而我近期写的那一系列文章，就是从这些文档中衍生出来的。

所以你会看到：

不是只讲概念，而是讲落地。

不是只讲方案，而是讲取舍。

不是只讲原理，而是告诉你面试官到底在听什么。

如果你正在准备大模型方向的求职，或希望真正把 RAG 从“知道”变成“能做、能讲、能复盘”，那大模型训练营可能会非常适合你。

真正能拉开差距的，从来不是知识点，而是体系与思考方式。

在过去的几个月中，我们已经有超过 80 个 同学（战绩真实可查）反馈拿到了心仪的 offer ，包含腾讯、阿里、字节、华为、快手、智谱、月之暗面、minimax、小红书等各家大厂以及传统开发 / 0 基础转行的同学在短时间内拿到了各类大中小厂的 offer。

最近这几年，经济形式下行，IT行业面临经济周期波动与AI产业结构调整的双重压力，很多人都迫于无奈，要么被裁，要么被降薪，苦不堪言。但我想说的是一个行业下行那必然会有上行行业，目前AI大模型的趋势就很不错，大家应该也经常听说大模型，也知道这是趋势，但苦于没有入门的契机，现在他来了，我在本平台找到了一个非常适合新手学习大模型的资源。大家想学习和了解大模型的，可以**点击这里前往查看**

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Spring AI MCP Client Boot Starter 技术详解与最佳实践

Spring AI MCP（Model Context Protocol）Client Boot Starter 是 Spring Boot 生态下的自动化配置组件，旨在简化 MCP 客户端的集成与管理，实现与多种 AI/LLM 服务和工具的高效连接。支持同步（SYNC）与异步（ASYNC）客户端，涵盖多种传输协议（STDIO、HTTP/SSE、Streamable HTTP），并具备工具过滤、命

2048 AI社区

领码课堂 | 抛弃AOP！SpringBoot 配置化实现零侵入数据脱敏神操作

📌 摘要本文提出一种基于Nacos配置中心的Spring Boot零侵入数据脱敏方案，解决传统AOP+注解方式在维护性、性能与动态更新方面的不足。方案通过外置YAML规则、动态下发、递归路径匹配实现低耦合脱敏，支持嵌套对象与集合处理。核心设计包括：1）Nacos存储分层规则（按交易码+字段路径）；2）统一响应拦截器实现零代码侵入；3）可扩展的规则引擎（支持正则/脚本/自定义函数）。文章详细展示