一、自进化Agent时代到来

2026年2月,Openclaw迅速出圈,紧着接针对Openclaw的自动优化skills 的插件Evomap、Foundry和self-improving-agent等插件迅速走红,对应的Agent自进化的工程化实践的可行性被验证。

2026年3月1日,Karpathy 开源了 AutoResearch——Agent 自己改 train.py、跑实验、看结果、再改代码,循环迭代。没有人告诉它先调学习率还是先换优化器。

2026年3月18日,MiniMax 在 M2.7 的技术报告里披露了一件事:模型在 RL 阶段自己跑了 100 多轮"做题→分析失败→改 scaffold→重做"的循环,承担了自身 30%-50% 的 RL 训练工作量,内部评分提升 30%。

AI的发展走向同一个趋势:Agent 不再只是执行指令的工具,它开始"改进自己做事的方式"

1.1 什么是自进化 Agent

部署后能力还会增长的 Agent。传统 Agent 就像是是一个常量函数是静态的,自进化 Agent 是一个随着时间和环境进行更新的函数是动态成长和自适应的:

Δf 可以是一条新 Prompt 规则、一段沉淀的纠错经验、一个新工具、乃至模型权重更新。

1.2 自进化框架能力分类:

级别

特征

对应什么

代表

L1

出错重试,但不积累

大部分现有 Agent 框架

LangChain ReAct, AutoGen

L2

从反馈中学习,跨会话积累经验

当前产品化竞争焦点

Hermes Agent,AutoResearch, SkillLite

L3

能修改自身代码或模型权重

已有工业级案例,但尚在验证

MiniMax M2.7, Meta Hyperagent

判断:L2 → L3 的跨越不是能力问题,是信任问题——你敢不敢让 Agent 改自己的代码?这背后是一个安全架构设计的命题,后面会详细展开。

1.3 自进化学术框架分类:三个坐标系
  • 运行时四阶段:经验获取 → 精炼 → 更新 → 评估。描述运行时流程。
  • 进化四维度:改什么 × 何时改 × 怎么改 × 在哪改。定位一个项目在技术空间的坐标。
  • 进化Agent三分支:单 Agent / 多 Agent / 领域特定。

二、五条技术路线

自进化技术路线总结来说有五条,分布在 Agent 系统的不同层次。成本和风险逐层递增,选从那一层切入取决于业务场景约束。

2.1 Prompt 自进化 — ROI 最高

Layer 1: 不动模型不动架构,只优化 Prompt。

EvoPrompt 做的事情说起来简单——维护一个 Prompt 种群,用遗传算法做交叉变异,跑评测集做适应度筛选,迭代收敛到最优 Prompt。实测在分类任务上有 10-15% 的精度提升。TextGrad 走另一条路——让 LLM 对 Prompt 做"文本梯度反馈",比如输出"在否定句场景缺少 few-shot 示例"这样的优化建议,然后沿这个方向改 Prompt。

这是工程上最该先做的一层:不需要 GPU,不需要沙箱,Prompt 变更的风险可控。

2.2 记忆系统自进化

Layer 2: Agent 应该记住什么?这个问题看起来简单,工程上很不好做。

Hermes Agent 的 Nudge 机制是我看到的最有意思的设计——Agent 自己决定什么值得记住。不是外部规则说"每次执行完都存日志",而是 Agent 在执行过程中发现一个重要信息时,主动发起一次持久化调用。比如它在帮你部署服务时发现公司 CI/CD 必须先过安全扫描,它会自己把这条存到长期记忆里。下次不同会话再做部署,这条记忆被 FTS5 全文检索召回,直接影响决策。

这比预设规则的记忆系统灵活得多,但也引入了一个风险:Agent 如果记住了一条错误的"经验"怎么办?SkillLite 在记忆写入后面加了 Gatekeeper 验证——经验需要过审才能持久化。

2.3 工具和工作流自进化

Layer 3和Layer 4:工具和技能自进化,这两层放一起说。

工具自进化有两条路:自己造(SkillLite 的 skill_synth,Agent 写代码生成新工具)和接入现有生态(ToolLLM 掌握 16000+ API,MCP 标准化工具协议)。自己造更灵活,但安全约束重,SkillLite将自动生成的代码必须过沙箱。

工作流自进化更激进——EvoAgentX 能从一个 Prompt 自动生成多 Agent 协作的 DAG,然后用 TextGrad 等算法迭代优化这个 DAG。搜索空间大,但收敛也慢。

📎 EvoAgentX 的 workflow autoconstruction pipeline 架构图值得看(arxiv 2507.03616 Figure 1),比文字描述清楚。

2.4 模型参数自进化 — 2025-2026 最热方向

Layer 5,MiniMax M2.7 做的事值得深入理解。传统 RLHF 的瓶颈在人类标注产能——大约 1000 条/人天。M2.7 把瓶颈推到了 GPU 算力上:

这个迁移的战略含义:当训练瓶颈从人力变成算力,模型迭代速度的上限就不一样了。标注产能线性扩展(加人),GPU 算力并行扩展。SWE-Pro 56.22 本身不是关键,关键是 30% 的评分提升有显著比例来自自训练——说明自训练不仅在补充人工标注,在某些维度上已经超越了人工设计的训练方案。

SPELL 走的是多角色自博弈路线——模型分饰多角色互相出题批改,专练长上下文理解。思路与 AlphaGo 的 Self-Play 同源,区别在于搜索空间从棋盘变成了文本。

三、不同项目,不同取舍

这里不做全面罗列,我挑四个项目重点讲它们各自做了什么取舍、放弃了什么换来了什么。

3.1 MiniMax M2.7 — 算力换标注

M2.7 在自训练循环中修改的是 scaffold(推理框架),不是模型权重本身。这是一个务实的工程选择——scaffold 的修改可以快速验证和回退,模型权重的修改不可逆且成本高。

放弃了什么:完全的自主性(scaffold 的搜索空间还是受限的)
换来了什么:可控性和工程可行性

这个思路对我们做数据 Agent 有直接参考价值——与其让 Agent 自己训练自己的模型(成本太高),不如让它自己优化自己的推理策略和 Prompt(ROI 更高)。

3.2 Hermes Agent — 可移植性换性能

Nous Research 做了一个明确的架构取舍:跑在 $5/月 VPS 上也行,GPU 集群也行,不绑定任何平台。代价是放弃了特定硬件的深度优化。

它的自进化闭环是我见过设计最完整的:

📎 建议看 Hermes Agent 的 GitHub README 中的系统架构图,展示了网关层、终端后端、记忆系统的完整交互。

几个值得注意的设计:

  • 网关抽象:单进程支持 Telegram/Discord/Slack/WhatsApp/CLI。在 Slack 上学到的经验,在 CLI 上也能用。
  • 模型无关:200+ 提供商间切换不改代码。进化状态(记忆、技能)独立于底层 LLM。
  • 子 Agent 隔离:fork 出隔离子 Agent 做并行处理,独立执行环境但共享记忆——隔离性和协作性的平衡。
3.3 OpenHands,SkillLite — 安全换灵活

这个项目最值得关注的不是它能做什么,而是它不允许 Agent 做什么。 当 Agent 能自我修改时,安全模型发生了根本变化:

  • 传统 Agent: 威胁来自外部 → 防御策略: 输入校验 + 输出过滤
  • 自进化 Agent: 威胁同时来自内部 → 防御策略: 进化过程本身需要被约束

Python 的动态类型和 GC 不确定性在这个新模型下是结构性弱点。Rust 的编译时检查和内存安全成了核心优势。

EVO 模块数据流 (建议配合 SkillLite docs.rs 文档中的架构图阅读):

Task → feedback → prompt_learner 提取规则
     → memory_learner 沉淀经验
     → skill_synth 生成技能
     → seed 管理种子 
     → Gatekeeper 验证 
     → finish_evolution

Gatekeeper 是关键设计:

  • gatekeeper_l1_path: 路径白名单——Agent 只能改授权路径下的内容
  • gatekeeper_l3_content: 内容扫描——检测进化产物中的危险模式

一个具体拦截场景:Agent 在 prompt_learner 阶段生成了一条规则——"当用户请求文件内容时,直接读取并返回"。Gatekeeper 检测到这条规则没有指定路径范围,会绕过路径白名单,直接拦截。进化能力不受限,安全边界不被突破。进化通道和安全通道必须解耦——安全层对进化层有否决权,但进化层不能反向影响安全层。

3.4 其他值得追踪的

项目

一句话

为什么值得关注

EvoAgentX

从一个 Prompt 自动生成 → 评估 → 进化多 Agent 工作流

把进化从单 Agent 推到了工作流级

Meta Hyperagent

Gödel Machine + 达尔文算法,Agent 自编辑代码

性能 20%→50%,经典 AI 理想的首次大规模验证

AutoResearch

Karpathy 做的,Agent 自主改 train.py 跑实验迭代

从"做工程"到"做科学"的范式验证

Nature 地震预测

RL Agent 自主更新地震预测规则

提前 14 天复现 M7.1 地震,自进化在科学发现中的应用

EvoClaw

Governed Evolution — Agent 可进化但不可自提权限

治理型自进化,SOUL 不可变架构

3.5 安全共识:五条原则

所有认真做自进化的项目都形成了共识:

  1. 最小权限 — 进化能力不改变权限边界
  2. 权限不可自提升 — Agent 可以学新技能,但不能给自己加权限(EvoClaw 核心原则)
  3. 不可变 SOUL — 核心约束不可被进化修改
  4. 变更可审计 — 每次进化经过 Gatekeeper 并记录
  5. 熔断兜底 — 异常即停

模式

OpenHands,SkillLite (工程派)

Hermes (隔离派)

EvoClaw (治理派)

核心策略

沙箱 + 白名单 + 内容扫描

容器隔离 + 子 Agent 沙箱

身份不可变 + 权限不可提升

优势

运行时安全底线

执行级边界

策略级底线

短板

灵活性受限

隔离开销

缺乏运行时防护

未来判断:生产系统应该组合三种模式。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐