SkillRL：让AI智能体学会“练功升级“的递归技能强化学习框架

SkillRL框架摘要 SkillRL提出了一种递归技能增强的强化学习方法，通过将原始交互轨迹蒸馏为可复用的技能卡片（10-20倍压缩率），构建分层技能库（通用+特定任务技能），并与GRPO强化学习协同进化。在ALFWorld和WebShop任务中，该方法超越GPT-4o达41.9%，关键创新在于：(1) 教师模型差异化处理成功/失败轨迹生成技能；(2) 冷启动SFT教会模型使用技能；(3) 训练

狮子座明仔

524人浏览 · 2026-02-20 23:40:21

狮子座明仔 · 2026-02-20 23:40:21 发布

SkillRL：让AI智能体学会"练功升级"的递归技能强化学习框架

📖 论文：SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning
🔗 链接：https://arxiv.org/abs/2602.08234v1
👥 作者：Peng Xia, Jianwen Chen, Hanyang Wang 等（UNC Chapel Hill & NEC Labs）
📅 日期：2026年2月
💻 代码：https://github.com/aiming-lab/SkillRL

一句话总结：SkillRL 把智能体与环境交互产生的冗长轨迹蒸馏成紧凑、可复用的"技能卡片"，并在强化学习训练过程中让技能库与策略共同进化，在 ALFWorld 和 WebShop 上超越 GPT-4o 达 41.9%。

🎯 这篇论文在解决什么问题？

想象一下：你刚入职一家餐厅做厨师。第一天，你手忙脚乱地完成了一道红烧肉——中间翻了三次锅、调料加错了一次又补救回来、最后忘记收汁又重新加热。如果有人让你明天再做一道红烧排骨，你会怎么做？把今天每一个手忙脚乱的动作原封不动地"回放"一遍？当然不会。你会提炼出几条经验：“先大火煸炒上色，再小火慢炖”、“调料比例大约是酱油2:糖1:料酒1”——这就是技能。

当前的 LLM 智能体恰恰面临这个尴尬处境。它们能在网页购物、家庭机器人控制等复杂任务中与环境交互，但每次交互都是"从头开始"。已有的记忆增强方法（如 Reflexion、ExpeL、MemRL）尝试解决这个问题，但做法大多是把原始交互轨迹直接扔进记忆库——相当于把你做红烧肉时的每一个手忙脚乱的动作都录下来存档。这些轨迹又长又吵，充满了探索性的无用动作和回溯，严重浪费上下文窗口。

图1：传统记忆方法 vs SkillRL方法的对比，以及训练收敛曲线

图1：左图(a)对比了传统记忆方法和 SkillRL 的处理流程。传统方法直接存储冗长的原始轨迹作为记忆；SkillRL 则将轨迹蒸馏成紧凑的技能描述。右图(b)展示了训练收敛曲线，SkillRL（蓝色）比普通 GRPO（绿色）和 GRPO+Memory（红色）收敛更快且最终性能更高。

SkillRL 的核心观点直截了当：有效的经验迁移需要抽象，而不是复制粘贴。 人类专家不会记住每个情境下的每一步操作，而是把经验凝练成可复用的技能。SkillRL 就是要让智能体也学会这一点。

🧠 技术背景：你需要知道的前置知识

GRPO：不需要评论家的强化学习

SkillRL 的强化学习骨架是 GRPO（Group Relative Policy Optimization），来自 DeepSeek。传统的 PPO 需要训练一个独立的 critic 网络来估计状态价值函数，而 GRPO 的做法更"接地气"：对同一个问题采样一组回答，然后用组内的相对排名来计算优势值。

打个比方：PPO 像是考试后请一个阅卷老师逐题打分（critic），而 GRPO 像是把全班的卷子放在一起排名——你只需要知道自己在这批人里是高是低，不需要知道绝对分数。这省去了训练 critic 的额外开销，同时效果不输 PPO。

GRPO 的核心目标函数：

$JGRPO(θ)=Ex,{yi}[1G∑i=1Gmin⁡(riAi,clip(ri,1−ϵ,1+ϵ)Ai)−βDKL(πθ∥πref)]\mathcal{J}_{\text{GRPO}}(\theta)=\mathbb{E}_{x,\{y_i\}}\Bigg[\frac{1}{G}\sum_{i=1}^{G}\min\Big(r_i A_i, \text{clip}(r_i,1-\epsilon,1+\epsilon)A_i\Big)-\beta D_{\text{KL}}(\pi_\theta\|\pi_\text{ref})\Bigg]$

其中优势值 $Ai=Ri−mean({Rj})std({Rj})A_i = \frac{R_i - \text{mean}(\{R_j\})}{\text{std}(\{R_j\})}$ 就是一个简单的 z-score 归一化——你的奖励减去组内均值，再除以标准差。

ALFWorld 和 WebShop：两个经典的智能体评测场

ALFWorld 是一个文本交互版的家庭场景模拟器，与 ALFRED 具身 AI 基准对齐。智能体需要通过文字指令控制一个虚拟管家完成各种家务——“把苹果加热后放到桌上”、"用水壶清洗杯子"之类的。任务类型包括加热（Heat）、冷却（Cool）、拾取（Pick）、查看（Look）、清洁（Clean）等，涉及物体定位、前置条件验证、多步规划。

WebShop 模拟真实的网购场景。智能体要在一个含有 120 万件商品的网站上，根据用户的自然语言需求（“我要一双10码的黑色防滑工作鞋，价格低于50美元”）搜索、浏览、比较、最终下单。这考验的是搜索策略、信息提取和约束满足能力。

已有的记忆/经验方法：Reflexion、ExpeL 和 MemRL

Reflexion：在每次失败后让模型自我反思生成文字形式的反馈，下次尝试时把反馈附加到 prompt 里。问题是反馈越积越多，上下文窗口吃不消。
ExpeL：从成功和失败的轨迹中提取"经验"规则存入数据库，推理时检索相关经验。但它只在推理阶段做基于 prompt 的利用，没有与 RL 训练结合。
MemRL / EvolveR：把记忆系统和 RL 训练挂钩——MemRL 在训练中动态压缩和更新记忆，EvolveR 在线地进化记忆库。但它们存的仍然是比较原始的轨迹片段或经验条目，抽象层次不够高。

🏗️ SkillRL 的方法：三步走构建技能进化体系

SkillRL 的整体架构如图2所示，分为三个核心模块：经验蒸馏、分层技能库构建、递归技能进化。

图2：SkillRL 完整框架概览

图2：SkillRL 框架全景。从左到右：(1) 智能体在环境中收集成功/失败轨迹；(2) 通过教师模型蒸馏成技能存入 SkillBank；(3) 冷启动 SFT 教会基础模型如何使用技能；(4) RL 训练过程中技能库与策略共同进化，失败轨迹持续反馈给技能蒸馏模块生成新技能。

第一步：经验蒸馏——从"流水账"到"秘籍"

做菜新手可能会写一整页的做菜日记，但老师傅只需要几句口诀。SkillRL 的经验蒸馏做的就是这个事。

具体流程：先让基础 LLM 智能体在目标环境里跑一批任务，收集成功轨迹 $T+\mathcal{T}^+$ 和失败轨迹 $T−\mathcal{T}^-$ 。注意，失败轨迹也要保留——这和只学习成功案例的方法不同。然后用一个"教师模型"（OpenAI o3）对这两类轨迹做差异化处理：

对于成功轨迹，提取其中的关键决策模式：哪些步骤是决定性的？背后的推理逻辑是什么？这些模式能否推广到类似任务？

对于失败轨迹，由于原始轨迹又长又嘈杂，直接存入上下文效果很差。SkillRL 让教师模型做"失败复盘"：(1) 哪里出了错？(2) 错误的推理或动作是什么？(3) 应该怎么做？(4) 能总结出什么防止类似错误的一般原则？

这种差异化处理很关键。成功经验告诉你"应该怎么做"，失败经验告诉你"不应该怎么做"和"踩坑后如何爬出来"——两者结合才是完整的技能。

第二步：分层技能库 SkillBank——通用原则 + 专项技巧

蒸馏出来的技能怎么组织？SkillRL 设计了一个两层结构的技能库：

通用技能 $Sg\mathcal{S}_g$ ：适用于所有任务类型的战略性原则。比如：

“系统探索：优先搜索未访问过的位置，避免重复”
“动作前完整性检查：执行操作前确认前置条件是否满足”
“进度追踪：维护任务进度计数器，只在确认完成后才终止”

特定任务技能 $Sk\mathcal{S}_k$ ：针对某一类任务的专门知识。比如在 ALFWorld 的加热任务中：“拿起物体后立即使用最近的加热设备（微波炉），不要先放下再去找”；在 WebShop 中：“搜索时优先包含产品类型和1-2个核心属性关键词，省略次要描述词”。

每个技能的结构很简洁：一个名称、一段原则描述、一个 when_to_apply 适用条件。这种"卡片式"组织让检索变得高效。

技能检索的机制也很直观：通用技能始终包含在上下文中作为"基础功"；特定任务技能则通过语义相似度检索，给定任务描述 $d$ ，计算它与每个技能的 embedding 相似度，取 TopK 且超过阈值 $δ\delta$ 的：

$Sret=TopK({s∈Sk:sim(ed,es)>δ},K)\mathcal{S}_\text{ret}=\text{TopK}\left(\{s\in\mathcal{S}_k:\text{sim}(e_d,e_s)>\delta\},K\right)$

关键数字：这种技能蒸馏实现了比原始轨迹 10-20倍的 token 压缩。一条原始轨迹可能有上千个 token，蒸馏后的技能描述只有几十到一百多个 token，但信息密度反而更高。

第三步：递归技能进化——技能库是活的

静态的技能库有个致命问题：它只能覆盖初始收集阶段遇到的场景。随着 RL 训练推进，智能体的策略越来越强，会探索到新的状态空间，遇到以前没见过的困难情况——原有的技能库可能"罩不住"了。

SkillRL 的解决方案是让技能库在 RL 训练过程中持续进化。

冷启动 SFT：一个容易被忽视但至关重要的步骤。基础模型并不知道怎么"用"技能——你给它一堆技能描述，它可能完全无视。所以在 RL 训练前，先用教师模型生成一批"技能增强推理轨迹"作为示范，展示怎样在决策过程中检索、解释和应用技能。基础模型在这些示范上做一轮 SFT，学会"读懂并使用技能"。这个微调后的模型 $πθsft\pi_{\theta_\text{sft}}$ 既是 RL 训练的起点，也是 KL 散度正则化的参考策略。

递归进化循环：在每个验证 epoch 之后，SkillRL 检查每个任务类别的成功率。对于成功率低于阈值 $δ\delta$ 的类别，收集其失败轨迹，然后让教师模型分析这些轨迹：(1) 现有技能没覆盖到哪些失败模式？(2) 需要新增什么技能？(3) 哪些现有技能被证明无效需要改进？生成的新技能加入库中： $SkillBank←SkillBank∪Snew\text{SkillBank} \leftarrow \text{SkillBank} \cup \mathcal{S}_\text{new}$ 。

这就形成了一个良性循环——智能体变强 → 遇到更难的挑战 → 催生新技能 → 新技能帮助应对挑战 → 智能体进一步变强。有点像游戏里的"打怪升级"：低级副本积攒的技能帮你通过中级副本，中级副本又让你学到更高级的技能。

图3：训练过程中技能库的增长

图3：技能库在训练过程中的增长轨迹（ALFWorld）。横轴是训练步数，纵轴是技能数量，不同颜色代表不同任务类别（Heat、Cool、Pick、Look、Clean等）。初始库包含55个技能（12个通用+43个特定任务），经过150步训练后增长到100个技能。增长不是均匀的——在不同训练阶段，不同类别的技能按需增长。

RL 训练：GRPO + 技能增强

最终的策略优化使用 GRPO。每个任务先检索相关技能，再从当前策略采样 $G$ 条完整轨迹，每条轨迹得到二元奖励（成功为1，失败为0）。通过组内相对排名计算优势值，用裁剪目标函数更新策略。KL 惩罚锚定在冷启动 SFT 后的参考策略上，防止 RL 过程中"忘记"怎么使用技能。

🧪 实验结果：数据说话

主战场：ALFWorld 和 WebShop

方法	类型	ALFWorld	WebShop
GPT-4o	闭源LLM	48.0	64.5
Gemini-2.5-Pro	闭源LLM	60.3	60.4
ReAct (Qwen2.5-7B)	Prompt方法	17.6	47.1
Reflexion (Qwen2.5-7B)	记忆方法	21.6	49.1
ExpeL (Qwen2.5-7B)	记忆方法	37.8	52.2
GRPO (Qwen2.5-7B)	RL方法	77.6	69.1
EvolveR (Qwen2.5-7B)	记忆+RL	74.6	65.1
MemRL (Qwen2.5-7B)	记忆+RL	78.4	68.2
SimpleMem+GRPO (Qwen2.5-7B)	记忆+RL	82.1	65.2
SkillRL (Qwen2.5-7B)	技能+RL	89.9	72.7

表1：ALFWorld 和 WebShop 上的主要结果（成功率%）。SkillRL 以 7B 参数模型超越所有基线，包括 GPT-4o。

几个关键发现：

7B 碾压 GPT-4o：SkillRL 用 Qwen2.5-7B 在 ALFWorld 上达到 89.9%，比 GPT-4o 的 48.0% 高了 41.9 个百分点。这不是一个小差距——几乎是翻倍。一个 7B 的小模型通过技能增强 RL 训练后，在特定任务上把万亿参数级别的闭源模型远远甩在身后。这再次说明：在垂直领域，精调后的小模型完全可以打败通用大模型。

SkillRL vs 纯 GRPO：在 ALFWorld 上，SkillRL（89.9%）比纯 GRPO（77.6%）高出 12.3 个百分点。这 12.3% 的增量就是"技能"带来的纯增益。相当于你从一个只会蛮力尝试的新手，变成了一个手里有攻略手册的老玩家。

SkillRL vs 记忆增强 RL：和最强的记忆增强基线 SimpleMem+GRPO（82.1%）相比，SkillRL 仍然高出 7.8 个百分点。这说明"技能抽象"确实比"存储记忆"更有效。

搜索增强 QA：泛化能力检验

方法	NQ	TriviaQA	PopQA	HotpotQA	2Wiki	MuSiQue	Bamboogle	平均
Search-R1	39.3	56.4	38.5	35.8	29.2	17.2	53.3	38.5
EvolveR	43.3	57.6	42.1	45.7	32.1	20.8	60.0	43.1
SkillRL	49.3	62.6	42.2	49.6	35.3	22.3	68.9	47.1

表2：七个搜索增强 QA 任务上的结果（准确率%）。SkillRL 在所有数据集上均达到最优，平均分 47.1% 显著超过 EvolveR (43.1%) 和 Search-R1 (38.5%)。

值得关注的是多跳 QA 的提升——HotpotQA 上 SkillRL（49.6%）比 EvolveR（45.7%）高 3.9 个百分点，Bamboogle 上更是高出 8.9 个百分点。多跳推理需要更强的规划能力，而 SkillRL 的通用技能恰好提供了这种"元策略"级别的指导。

消融实验：每个组件都不可少

配置	ALFWorld
SkillRL (Full)	89.9
− 分层结构（只用特定任务技能）	85.8
− 分层结构（只用通用技能）	84.3
− 冷启动 SFT	80.6
− 动态进化（静态技能库）	84.4
− 技能蒸馏（用原始轨迹替代）	78.4

表3：消融实验结果。每个组件的移除都导致性能下降，其中用原始轨迹替代技能蒸馏带来最大跌幅（-11.5%），直接验证了"抽象优于记忆"的核心假设。

消融实验揭示了几个有意思的发现：

技能蒸馏是核心中的核心。去掉蒸馏、改用原始轨迹后，性能从 89.9% 暴跌到 78.4%——基本回到了纯 GRPO 的水平。这直接证明了：不是"有记忆"就行，关键是记忆的形式。原始轨迹太长太吵，模型根本无法从中提取有用信息。

冷启动 SFT 的贡献出人意料地大。去掉冷启动后掉了 9.3 个百分点（89.9% → 80.6%）。这说明"教会模型如何使用技能"本身就是一个非平凡的问题。你可以给学生一本很好的参考书，但如果不教他怎么查阅和使用，效果会大打折扣。

动态进化 vs 静态技能库：移除动态进化掉了 5.5 个百分点。这验证了技能库需要"与时俱进"——随着智能体变强，面临的挑战也在变化，技能库需要跟上。

通用技能和特定任务技能缺一不可。只用特定任务技能（85.8%）比只用通用技能（84.3%）稍好，但都不如两者结合（89.9%）。通用技能提供"内功心法"，特定任务技能提供"招式套路"，二者相辅相成。

上下文效率：更少的 token，更好的效果

图4：提示长度对比

图4：SkillRL（Skills）与原始记忆方法（Raw Memory）在训练过程中的提示长度对比。横轴为训练步数，纵轴为 prompt token 数。Skills 的 prompt 长度不仅更短（约1250-1350 tokens vs 1350-1450 tokens），方差也更小，说明技能描述比原始轨迹更稳定。

SkillRL 的提示长度平均比原始记忆方法短约 10.3%，而且方差更小。这意味着：(1) 技能描述的长度更可控，不会像原始轨迹那样有的很短有的很长；(2) 省出来的上下文窗口可以留给实际的推理过程。

收敛速度：技能进化加速学习

图5：有无技能进化的训练曲线对比

图5：带技能进化（蓝色）vs 不带技能进化（橙色）的 RL 训练曲线。带技能进化的版本在第60步左右就达到约90%的成功率并趋于稳定；不带技能进化的版本到第100步才达到约75%，且仍在缓慢爬升。技能进化不仅提高了最终性能上限，还将收敛速度提升了约 40%。

这张图非常直观地展示了递归技能进化的价值。两条曲线的差距在训练中期最为明显——大约在第40-60步时，带进化的版本已经拉开了近15个百分点的差距。这说明新生成的技能在训练的"瓶颈期"发挥了关键作用，帮助智能体突破性能平台期。

📊 案例分析：技能是怎么被用起来的

图6：WebShop 和 ALFWorld 中的技能检索与应用案例

图6：两个具体案例展示了 SkillRL 如何在实际任务中检索和应用技能。左侧 WebShop 案例：购买衬衫时，智能体检索到"优先核心关键词"技能，在搜索时只保留了"men’s button-down shirt blue"等关键属性。右侧 ALFWorld 案例：加热鸡蛋时，智能体检索到"拿到物体后立刻使用最近的加热设备"技能，拿到鸡蛋后直接找微波炉加热，而不是先放下再去找加热工具。

附录中给出的技能库示例很有参考价值。比如 ALFWorld 中的一个通用技能：

gen_001 系统探索：在重访之前搜索每个合理的表面或容器一次；优先考虑看不见的位置。
何时应用：在定位物体的探索阶段。

还有一个从失败中学到的技能：

gen_015 动作前完整性检查：在执行可能合法失败的操作命令之前，确认先决条件——手是否空闲、容器容量是否充足、设备是否通电。
何时应用：在任何涉及物体交互的步骤前。

WebShop 中也有类似的例子：

err_004 价格变化疏忽：在选择特定尺寸或颜色变体后，未能注意到价格变化导致超出预算。
何时应用：选择产品变体后、确认购买前。

这些技能读起来就像资深玩家写的攻略帖——它们不是空洞的教条，而是非常具体、可操作的指南。

💡 我的思考与工程洞察

观点一：技能蒸馏的本质是"知识压缩+结构化"

SkillRL 的技能蒸馏，本质上在做两件事：压缩和结构化。原始轨迹可能有几千个 token，蒸馏后变成几十个 token——这是压缩。同时，从无结构的动作序列变成了有"名称-原则-适用条件"结构的技能卡片——这是结构化。

这让我联想到知识管理领域的一个经典观点：知识的价值不在于存储量，而在于可检索性和可复用性。 你的笔记 app 里存了一万条笔记，但如果找不到、用不上，那和没存一样。SkillRL 的 SkillBank 设计（结构化描述 + 语义检索）恰好解决了这两个问题。

从工程角度看，这种设计对实际的 Agent 系统很有启发。如果你在做一个要持续与环境交互的 Agent，与其把所有交互日志塞进向量数据库，不如定期用一个强模型把日志"蒸馏"成结构化的经验卡片。检索效率和质量都会好得多。

观点二：冷启动 SFT 是被严重低估的环节

消融实验中，冷启动 SFT 的去除导致了 9.3% 的性能下降。这个数字背后隐藏着一个深层问题：模型不会天然地使用外部知识。

很多做 RAG 系统的工程师可能都有过这种经历：明明检索到了正确的文档，但模型就是"视而不见"，回答的时候完全忽略了检索结果。SkillRL 的冷启动 SFT 本质上是在解决同样的问题——通过示范数据教会模型"怎么读技能、怎么把技能融入推理过程"。

我觉得这对 RAG 系统的设计也有参考意义：不要假设模型天生知道怎么使用检索到的信息，可能需要一个专门的训练阶段来"教"模型如何利用外部知识源。

观点三：递归进化机制的上限在哪里？

论文中技能库从55个增长到100个，训练只跑了150步。一个自然的问题是：如果训练更久，技能库会无限膨胀吗？技能之间会出现冲突吗？

从图3来看，技能增长的速度在后期明显放缓，说明系统有一定的自我调节能力——当大部分失败模式都被覆盖后，新技能产生的速度自然下降。但论文没有讨论技能库的"清理"机制，比如淘汰过时的或相互矛盾的技能。在更长期的训练或更复杂的环境中，这可能成为一个问题。

工程落地建议

教师模型成本：SkillRL 用 OpenAI o3 做技能蒸馏。在生产环境中，可以考虑用开源的强模型（如 Qwen2.5-72B、DeepSeek-R1）替代，降低 API 成本。技能蒸馏是离线操作，对延迟不敏感。
技能库的版本管理：实际部署时，技能库需要版本控制。当基础模型升级或任务分布变化时，旧技能可能失效。建议实现技能的"有效性评分"机制，定期清理低分技能。
多环境技能迁移：论文在 ALFWorld 和 WebShop 分别训练了独立的技能库。一个有趣的方向是探索技能的跨环境迁移——比如"系统探索"这种通用技能，理论上在很多环境中都适用。
硬件开销：论文使用 8 张 H100 80GB 训练约 30 小时。对于 7B 模型来说这个开销是合理的。如果用 4 张 A100 40GB 可能需要开启梯度累积和 DeepSpeed ZeRO-3，训练时间会翻倍左右。

🤔 局限性与未来方向

论文没有明确讨论局限性，但从实验和方法设计中可以观察到几点：

对教师模型的强依赖。技能蒸馏、冷启动数据生成、递归进化中的失败分析，都依赖一个强大的教师模型（o3）。如果教师模型本身在某些领域知识薄弱，蒸馏出的技能质量也会打折扣。能否让智能体自己做技能蒸馏（self-distillation）？

评测环境的局限。ALFWorld 和 WebShop 虽然是经典基准，但动作空间相对有限、环境确定性较高。在更开放、更动态的环境（如真实网页浏览、软件操作）中，技能的复杂度和多样性会急剧增加，SkillRL 的表现还有待验证。

技能库的可扩展性。100 个技能对于当前的基准足够，但真实世界的 Agent 可能需要数千甚至上万个技能。检索策略、技能间的冲突解决、层次化组织是否还能保持有效性？

📝 总结

SkillRL 提出了一个很有说服力的框架：把智能体的原始交互经验蒸馏成结构化的技能，构建分层技能库并在 RL 训练中让技能库动态进化。从实验结果看，7B 模型在 ALFWorld 上达到 89.9%（超 GPT-4o 41.9 个百分点），在 WebShop 上达到 72.7%，在 7 个 QA 任务上平均 47.1%，全面超越所有基线。

这篇工作最让我认可的一点是：它抓住了一个正确的抽象层次。不是存储原始轨迹（太低层），也不是总结出几句空洞的经验教训（太高层），而是提炼出具体、可操作、有适用条件的技能。这和人类学习技能的过程高度一致——我们不会记住每次做饭的全部过程，也不会只记一句"做饭要注意火候"，而是积累一条条具体的技巧：“油温七成热时下锅”、“糖色要小火慢熬到琥珀色”。

SkillRL 的三个核心贡献——经验蒸馏、分层技能库、递归进化——都有清晰的动机和扎实的实验支撑。特别是递归进化机制，让整个系统从"用技能"变成了"自己造技能"，这是一个质的飞跃。

对于做 Agent 系统的研究者和工程师来说，SkillRL 提供了一个明确的信号：经验的抽象层次决定了经验的价值。 与其在记忆系统的存储和检索上做文章，不如在经验的蒸馏和结构化上下功夫。