【必学收藏】从零实现ACE智能体：无需微调，让大模型自我学习进化的上下文工程

ACE框架下的自我进化智能体实现本文介绍了基于ACE(Agentic上下文工程)框架的自我进化智能体实现方案。该系统包含四大核心组件：Playbook(策略知识库)、Generator(执行引擎)、Reflector(复盘模块)和Curator(策略优化器)。通过"执行→评估→反思→优化"的闭环机制，智能体能够持续积累经验并自我进化，无需依赖传统模型微调。系统支持离线预训练和

编程唐小宝

438人浏览 · 2025-11-04 21:15:00

编程唐小宝 · 2025-11-04 21:15:00 发布

#本文介绍了ACE(Agentic上下文工程)框架，该框架通过上下文自我演化实现智能体"自学成长"。文章详细实现了基于ReAct范式的ACE智能体原型，包含Playbook(策略手册)、Generator(行动者)、Reflector(复盘者)和Curator(策略管家)四大核心组件。系统通过执行→评估→反思→策略的闭环流程，让智能体不断积累经验并自我进化，无需依赖传统模型微调。文中还探讨了离线与在线运行模式及未来改进方向。

本篇参考 ACE 论文中的架构与提示词设计，实现一个可自我学习与进化的 ACE 智能体原型，帮助你更直观地理解 ACE 在实际系统中的运作机制。

内容概览：

整体架构与流程
实现Playbook – “策略手册”
实现Generator – “行动者”
实现Reflector – “复盘者”
实现Curator – “策略管家”
工作流组装与测试
问题与改进方向

本文参考源代码在文末。

整体架构与流程

参考 ACE 论文提出的结构，我们将其应用于一个基于 ReAct 范式 的智能体中。这个智能体具备自我“反思—学习—成长”的能力：

【设计要点】

用ReAct Agent代表Generator（行动者）

用一个ReAct Agent来承担Generator校色，接受输入任务，输出答案与推理过程。当然，实际应用中可以是任何形态的Agent。

离线模式与在线模式

关于ACE论文中的两种典型运行模式：

离线模式（Offline Adapter）

即"训练模式"，用来在固定的训练数据集上多轮迭代运行ACE流程，每轮处理相同的样本，生成初始的策略库（Playbook）。这类似于学生反复做题，总结规律，积累经验。
在线模式（Online Adapter）

即"生产模式"：部署到真实业务场景中。此时输入数据不再固定，也不会多次迭代，但智能体会根据新任务实时更新 Playbook。它更像是一个在实战中不断成长的从业者，边工作边学习。

两者间的“协作”大概是这样：

两者间的区别用下表总结：

实际上，对于单次任务输入（迭代次数=1） 的情况，两者在基本流程上并无本质区别。因此我们可以构建一个统一的工作流结构：

若需“预训练”，只需在固定数据集上重复运行多轮
若直接“生产”，则让工作流持续接收新输入并在线更新策略

接下来，我们将逐步拆解各个模块的实现逻辑，从 Playbook 开始（为了更好地聚焦于 ACE 框架的核心逻辑，原型实现做了很多简化）。

实现Playbook – “策略手册”

Playbook 是 ACE 系统的"记忆中枢"，负责存储和管理 Agent 在实践中学到的所有策略。不仅记录Agent在不同任务中的“经验与教训”，还通过评分机制和语义检索，让Agent在后续任务中能够主动调用最优策略。

结构如下：

【设计要点】

多样的检索策略

Playbook 提供两种检索方式：

基于评分：基于评分优先返回表现好的策略
基于语义：借助向量实现语义级检索

2. 动态学习与优胜劣汰

每条策略都会在任务执行后根据反馈被打上标签（helpful / harmful / neutral）。系统根据这些反馈自动计算得分（Score）：

score = helpful_count - harmful_count

高分策略在检索时权重更高，而低分策略会逐步被淘汰。这使得智能体的经验体系具备自我优化能力。

3. 策略去重与整合

为避免知识冗余，Playbook 会在新增策略时进行去重检测（基于向量相似度）。当系统检测到已有相似策略时，不会简单新增，而是更新已有策略的统计信息。

持久化与可重建

支持将Playbook持久化（文件或数据库），在系统重启后可快速加载使用，同时在模型或存储结构变化后，也能快速重建语义索引。

【策略结构】

每个策略包含有内容、分类标签、使用反馈与实践信息等。

class Strategy:id: str # 唯一标识    content: str # 策略内容    category: str # 分类（如 "react", "calculation"）    helpful_count: int        # 有效次数    harmful_count: int        # 有害次数    neutral_count: int        # 中性次数    created_at: str # 创建时间    updated_at: str # 更新时间       @property    def score(self):        # 净得分 = 有效次数 - 有害次数        returnself.helpful_count - self.harmful_count...

【策略样例】

以下是一条典型的策略示例：

"dat-00007": {      "id": "dat-00007",      "content": "信息来源评估原则：在确认信息时，必须对每个信息来源进行权威性评估。步骤：1) 获取多个来源的信息；2) 评估来源的权威性，例如是否为政府机构或知名组织；3) 选择最权威的来源并说明选择理由；4) 若存在差异，需给出合理解释。",      "category": "data_verification",      "helpful_count": 1,      "harmful_count": 0,      "neutral_count": 0,      "created_at": "2025-10-31T04:24:00.338080+00:00",      "updated_at": "2025-10-31T04:24:00.338084+00:00"    }

通过这样的结构，Playbook 在执行阶段能动态调用最优策略，在反思阶段生成并吸收新策略，最终形成一个能够持续自我进化的“知识系统”— 让Agent不仅记得“做过什么”，还知道“怎样可以做得更好”。

实现Generator – “行动者”

Generator 是 ACE 框架中的执行者。它可以是一次简单的 LLM 调用。我们采用****ReAct范式的 Agent：根据输入问题生成可验证的答案，并产生可追溯的“推理轨迹”，供后续 Reflector 与 Curator 使用：

【设计要点】

用ReAct驱动任务执行

借助LangChain的create_agent创建，让模型在需要时自动调用工具（通常是通过 Function Calling功能）。

这种基于FunctionCalling的Agent在输出“推理轨迹”时不太友好。详见最后一节“问题”部分。

工具集成

配备简单的计算器与搜索引擎用于测试。

策略注入

每次任务开始前，从 Playbook 检索问题相关的Top-K策略（基于分数或语义，注意不是所有策略都适合语义检索）。
将这些策略以“片段/指南”的形式动态注入系统提示，作为经验性先验，引导 ReAct 的思考与工具选择。

def_get_or_create_agent(self, question: str = "", context: str = ""):        """        根据当前问题动态创建 agent，以便使用最相关的策略。                参数：            question: 当前问题            context: 额外的上下文信息        """      return create_agent(            model=f"openai:{self.model_name}",            tools=self.tools,            system_prompt=self._get_system_prompt(question, context)        )

动态系统提示（上下文）

系统提示词动态组装，包含内容有：

Top-K 相关策略（含策略 ID，便于追溯）
工作原则与关键指令（如：必须逐步输出、遇到不确定先验证等）
工具使用说明（可选，FunctionCalling不需要）
任务上下文与边界（输入背景、约束、期望输出格式）

结构化与可审计输出

为了方便后续Reflector的“复盘”，要求ReAct在每轮：

输出简明的“思考”过程（Reasoning）
明确所引用的Playbook策略ID
清晰标准工具调用相关信息

执行结束整理为统一的数据结构，至少包括：

最终答案（Final Answer）
推理轨迹（每轮Reasoning/Action序列）
使用的策略ID列表（用于之后的策略评估与计分）

总之，Agent的“思考”过程越详细，越有利于后续Reflector的“复盘”；这和做数学题一样：过程越详细，越有利于“复查”发现问题。

实现Reflector – “复盘者”

它对 Generator（行动者）的推理链与执行轨迹进行系统化复盘，围绕三个关键问题给出结构化结论：

「哪里做得好？哪里出了错？下一次该怎么做得更好？」

【设计要点】

适应有无ground_truth两种模式

有ground_truth：先用评估器对最终答案与标准答案进行比对，生成客观评估信号（正确/错误、评估反馈、置信度）。Reflector 将该评估作为附加证据纳入分析，给出更精确的复盘结论。
无ground_truth：采用自我审查策略，基于推理链一致性检查、工具调用合理性、来源可靠性等信号，评估结果可信度并提出改进建议。

类比：一种是“做作业时有参考答案的反思”；另外一种则是考试时无答案的复查。

多维度诊断（通过Prompt)

Reflector 从多个维度分析Agent的表现，而不是只判断对错。：

成功模式：哪些策略、方法和推理链起到了正面作用？能否泛化？
策略问题模式：哪些策略选择不当、理解偏差或逻辑跳跃？
工具使用错误：是否调用了错误工具、参数是否合理？
数据源问题：检索来源是否权威？信息是否一致？
计算错误：检测到LLM不擅长的数值推理等。

通过这种方式产出根因分析、改进建议、关键洞察等高价值输出。

策略使用评估

Reflector不仅要发现新的可用策略，更要对旧的策略使用进行评估：

helpful：明确帮助了任务推进或提高了答案质量；
harmful：误导了推理或导致错误；
neutral：影响不大或无关。

并给出简短理由，作为 Curator 更新 Playbook 计数与内容的依据。

【输出结构（建议）】

from dataclasses import dataclassfrom typing import List@dataclassclass StrategyTag:    id: str # 策略ID    tag: str # "helpful" | "harmful" | "neutral"    justification: str # 标记理由（引用具体证据点）@dataclassclassReflectionResult:    reasoning: str # 系统化分析（精炼、可读）    error_identification: str # 错误识别（发生了什么问题）    error_location: str # 错误位置（哪一步/哪条消息/哪次工具调用）    root_cause_analysis: str # 根因分析（为什么会错）    correct_approach: str # 正确方法（可操作的改进建议）    key_insight: str # 关键见解（可沉淀为策略的抽象经验）    confidence_in_analysis: float # 置信度（0~1）    strategy_tags: List[StrategyTag] # 对已用策略的评估标签

总之，Reflector 的价值在于从任务过程中提炼可执行的改进与可复用的经验。

实现Curator – “策略管家”

Curator 是 ACE 框架的“知识管理者”，它负责把 Reflector 的复盘结果转译为对 Playbook 的具体操作，让“经验教训”沉淀为可复用的策略，确保策略库持续进化且质量可控。

Curator有点像Text2SQL：把反思的结果转化成对Playbook的“SQL”操作

【设计要点】

策略操作类型

支持Playbook的多种操作类型，用于不同的策略更新场景：

* ADD：新增具体可执行且可泛化的策略（附简短示例/适用边界）

* UPDATE：对既有策略做增量补充（边界、例外、参数约束、误用警示）

* REMOVE：移除持续有害/过时/与事实冲突的策略

* 有效性计数更新：根据Reflector的输出，更新策略的有效性计数

质量控制

在Curator执行的过程加入质量控制是有必要的。其中最重要的是排重与合并（否则可能导致无限制的上下文增长），除了前面Playbook本身具备的基于向量的重复检查外，可以在Curator的提示中加入对现有策略的相似度判断（比如相似度较高，则使用UPDATE而不是ADD）。

输出结构（建议）

from dataclasses import dataclassfrom typing import List, Dict, Any@dataclassclass CurateOperation:    operation: str # "ADD" | "UPDATE" | "REMOVE" | "MARK"    strategy_id: str = ""# 适用于 UPDATE / REMOVE / MARK    content: str = ""      # 适用于 ADD / UPDATE（增量内容或补充要点）    category: str = ""     # 新增/调整的分类    reason: str = ""       # 操作原因（关联反思的证据/根因）    priority: int = 3      # 1~5，数值越小优先级越高    tags: Dict[str, Any] = None# 可选：delta/edge_cases/examples 等@dataclassclass CurateResult:    operations: List[CurateOperation]    added_count: int    updated_count: int    removed_count: int    marked_count: int

总之，Curator 的职责不是“把反思照抄进库”，而是把反思变成策略学到库里。

工作流组装与测试

各模块就位后，我们用 LangGraph 把它们串成一个最小可用的工作流。目标很简单：把已有的 ReAct Agent“包一层”，让它具备执行 → 评估（可选）→ 反思 → 策展的闭环能力（你完全可以自行用代码实现这个流程）。

【工作流编排】

大致的编排直接看编排代码更清晰：

def_build_graph(self) -> StateGraph:        """        构建 LangGraph 工作流        """        workflow = StateGraph(ACEReActState)            # 添加所有节点        workflow.add_node("react_agent", self._react_agent_node)        workflow.add_node("evaluator", self._evaluator_node)        workflow.add_node("reflector", self._reflector_node)        workflow.add_node("curator", self._curator_node)            # 设置入口        workflow.set_entry_point("react_agent")            # 使用条件边：react_agent 后根据是否有 ground_truth 决定路由        workflow.add_conditional_edges(            "react_agent",            lambda state: "evaluator"if state["react_question"].ground_truth else"reflector",            {"evaluator": "evaluator", "reflector": "reflector"}        )            # evaluator 后续路径        workflow.add_edge("evaluator", "reflector")            # reflector 和 curator 的路径        workflow.add_edge("reflector", "curator")        workflow.add_edge("curator", END)            return workflow.compile()

使用LangGraph的好处是把已有的ReAct Agent再编排成一个“具有自主学习能力”的Workflow；并获得流式输出、checkpoint、异步等特性。

【测试流程】

我们用一个简洁的主程序跑通闭环：先离线“预热”出初始 Playbook，再在线测试与继续学习。为方便演示，epoch=1。

【观察与产出】

首先是几个固定数据集的训练过程：

# 训练问题questions = [        ReactQuestion(            question="计算 (25 + 17) * 3 - 8 的结果，并验证答案是否为偶数",            ground_truth="118，是偶数",            context=""        ),        ReactQuestion(            question="搜索 Python 语言的创建者，并说明他创建 Python 的年份",            ground_truth="Guido van Rossum，1991年",            context=""        ),        ReactQuestion(            question="搜索世界上最高的山峰名称和海拔高度，然后计算如果一个人每天爬升500米，需要多少天才能到达顶峰",            ground_truth="珠穆朗玛峰，8849米，需要约18天",            context=""        )]

我们在流程的每一步观察输出结果。

Generator输出

可以看到除了最终答案外，需要看到逐步 Reasoning / 工具调用 / 观察的完整轨迹。

Reflector输出

基于Generator的输出，结合答案的评估结果（Evaluator），进行诊断与反思，并将此轮的“经验教训”输出。

Curator输出

Curator根据Reflector的反思结果对Playbook增量更新，并输出本次迭代的“成果”统计（包括操作明细与摘要）。

第一轮训练完成后的成果

在第一轮训练完成后可以得到一个可用的初始Playbook：

这个Playbook会用在后续的样本上：复用现有策略或者精炼已有策略。

比如你可能会在下一轮训练中看到对之前“策略”的引用：

也可能在下一轮训练中看到对现有策略的完善：

这正是ACE的意义：不是“每次从零做题”，而是“做一次、学一点，下次更好”。

排重

在Playbook增量更新中，我们也观察到重复策略的排除：

无监督场景测试

现在，初始的Playbook可以用于新的无监督（无ground_truth）测试样本：

而测试样本在执行过程中，也可能产生新的策略并更新Playbook。

问题与改进方向

现在总结下我们是如何把 Agent 放进一个会“学习”的流程里：

LangGraph 负责编排
ReAct 负责生成与输出推理轨迹
Reflector 负责把执行过程转化成“经验”
Curator 负责把“经验”变成资产（Playbook）

周而复始，你会发现：同一个 Agent，做第二次同类任务，已经更“聪明”了。

【问题与限制】

尽管 ACE 的原型验证取得了一定效果，但目前仍存在若干关键问题：

1. LLM 表现波动大

Generator 与 Reflector 都严重依赖LLM与提示设计
即便相同的模型与提示，不同样本上的输出也可能不一致。特别是在基于 Function Calling 的 ReAct Agent 中，模型会在输出tool_calls后抑制本轮文本输出（content字段），导致“思考过程”或“策略引用”信息缺失

2. 策略增量更新的判定困难

Curator 在执行增量更新时，LLM 对“新增”与“更新”的边界判断并不稳定。常见问题包括：

倾向于新增相似策略，而非更新原策略
无法可靠检测重复或冲突策略
更新内容缺乏上下文一致性

需要引入向量检索 + 相似度阈值（如 0.7）的排重逻辑辅助。

3. 同步反思导致性能瓶颈

Reflector/Curator的同步执行会显著拖慢主流程。在生产场景中，这种“实时复盘”模式并不现实，可以采取异步或延迟执行机制。

【改进方向思考】

1. 异步反思与批量学习

让 Reflector/Curator 异步运行，定期汇总反思结果并统一更新 Playbook，从而提升在线响应速度，同时保持学习闭环。

2. 领域化与定制化调优

ACE 不是一个“固定模板”，而是一种可演化的工程思想。在不同场景中，它的重心也会不同。比如，不同类型的智能体需要不同的反思与策略重点：

工具型智能体：更关注工具调用逻辑、参数安全、错误恢复
知识型智能体： 更注重专业知识积累、对话一致性与合规性

因此，实际落地时需根据业务场景、模型能力与目标指标进行调优。

3. Playbook 的生命周期管理

未来的策略库应支持：

更完善的质量评分与退化淘汰机制
版本管理与回滚（方便做 A/B 测试）
并发一致性控制（多任务下策略更新冲突）
检索优化（如何更好的选择最相关的策略）

5. 扩展性与组件化设计

可扩展/插拔的 Evaluator/Reflector 等模块
可替换的 Prompt 模板与策略过滤器
面向不同领域的 Playbook 预设（如财务、科研、客服等）

ACE提出了一种创新思想，它不再依赖模型的训练，而是让Agent自我”训练“，通过不断迭代更新的上下文实现自我提升。这篇原型实现只是一个起点，我们还是期待在更多真正的生产应用里看到其实际的运行效果。

AI时代，未来的就业机会在哪里？

答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具，到自然语言处理、计算机视觉、多模态等核心领域，技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。

在这里插入图片描述

掌握大模型技能，就是把握高薪未来。

那么，普通人如何抓住大模型风口？

AI技术的普及对个人能力提出了新的要求，在AI时代，持续学习和适应新技术变得尤为重要。无论是企业还是个人，都需要不断更新知识体系，提升与AI协作的能力，以适应不断变化的工作环境。

因此，这里给大家整理了一份《2025最新大模型全套学习资源》，包括2025最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题等，带你从零基础入门到精通，快速掌握大模型技术！

由于篇幅有限，有需要的小伙伴可以扫码获取！

在这里插入图片描述

1. 成长路线图&学习规划

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

在这里插入图片描述

4. 大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

5. 大模型行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

在这里插入图片描述

为什么大家都在学AI大模型？

随着AI技术的发展，企业对人才的需求从“单一技术”转向 “AI+行业”双背景。企业对人才的需求从“单一技术”转向 “AI+行业”双背景。金融+AI、制造+AI、医疗+AI等跨界岗位薪资涨幅达30%-50%。

同时很多人面临优化裁员，近期科技巨头英特尔裁员2万人，传统岗位不断缩减，因此转行AI势在必行！

在这里插入图片描述

这些资料有用吗？

这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述

大模型全套学习资料已整理打包，有需要的小伙伴可以微信扫描下方CSDN官方认证二维码，免费领取【保证100%免费】

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Dify入门实战：5分钟搭建你的第一个AI测试用例生成器

2048 AI社区

java-springboot高校餐饮健康在线评测系统前端设计与实现 Java-SpringBoot校园智慧营养评测与互动平台基于SpringBoot的高校食品安全在线打分系统计算机毕业设计

2048 AI社区

AI多智能体如何优化价值投资的资金管理策略

本文旨在探讨如何利用人工智能技术，特别是多智能体系统(Multi-Agent System, MAS)来优化价值投资中的资金管理策略。传统的价值投资方法主要依赖人工分析，存在效率低、主观性强、难以处理海量数据等问题。通过引入AI多智能体系统，我们可以实现更科学、更系统化的资金管理决策。多智能体系统在金融投资领域的应用价值投资原则与AI技术的结合资金管理策略的量化建模实际应用案例分析本文首先介绍相关