模型 RL/RFT 训练

核心定位：三大机器学习范式之一（监督/无监督/强化），核心是智能体（Agent）通过与环境交互，学习最大化长期累积奖励的决策策略。本质逻辑：不依赖标注数据的“输入-输出”映射，而是通过“执行动作→获取反馈→调整策略”的闭环，让模型自主优化行为（如 LLM 的生成策略、智能体的工具调用策略）。关键特征反馈信号是“奖励值”（而非标签），可能延迟（如多轮对话后才获得反馈）；优化目标是“策略收敛”（让模型

Sirius Wu

639人浏览 · 2026-01-30 17:17:32

Sirius Wu · 2026-01-30 17:17:32 发布

在 AI 模型训练领域，RL（Reinforcement Learning，强化学习） 和 RFT（Reinforcement Fine-Tuning，基于反馈的微调） 是两类核心的“优化型训练范式”——二者均以“反馈信号”为核心驱动，但覆盖的训练范围、技术路径和适用场景存在显著差异。结合你在丰声智能伙伴的多轮改写、RLHF 对齐等实践场景，下面从核心定义、训练流程、关键技术、适用场景、工程实践五个维度，详细解析二者的本质的区别与协同关系。

一、核心定义与本质区别

1. RL（强化学习）：“试错-反馈”的策略优化范式

核心定位：三大机器学习范式之一（监督/无监督/强化），核心是智能体（Agent）通过与环境交互，学习最大化长期累积奖励的决策策略。
本质逻辑：不依赖标注数据的“输入-输出”映射，而是通过“执行动作→获取反馈→调整策略”的闭环，让模型自主优化行为（如 LLM 的生成策略、智能体的工具调用策略）。
关键特征：
- 反馈信号是“奖励值”（而非标签），可能延迟（如多轮对话后才获得反馈）；
- 优化目标是“策略收敛”（让模型生成的动作更接近最优解）；
- 需定义环境、状态、动作、奖励四大要素（如 LLM 训练中，环境是对话历史，动作是生成的文本，奖励是 RM 打分）。

2. RFT（基于反馈的微调）：“反馈驱动”的模型参数更新框架

核心定位：更宽泛的训练方法论，指所有基于“外部反馈信号”调整模型参数的微调过程，涵盖“监督式反馈”和“强化式反馈”两类核心场景。
本质逻辑：以预训练/微调模型为基础，利用“人类反馈、模型反馈、用户行为反馈”等信号，修正模型输出偏差，使其更符合预期目标（如人类偏好、任务要求）。
关键特征：
- 反馈信号形式灵活（可以是标签、评分、排序、行为数据等）；
- 优化目标是“缩小模型输出与反馈期望的差距”；
- 可兼容监督学习、强化学习等多种优化算法（如 RFT 既可以是“基于人类标注反馈的 SFT”，也可以是“基于奖励信号的 RL”）。

核心区别：范围与侧重点

对比维度	RL（强化学习）	RFT（基于反馈的微调）
概念范围	特定的机器学习范式（子集）	通用的训练方法论（超集，包含 RL 相关场景）
反馈形式	仅支持“奖励值”（标量/向量）	支持多种反馈（标签、评分、排序、行为数据等）
优化逻辑	自主试错，策略迭代（无固定标注数据）	反馈驱动参数更新（可依赖标注反馈）
核心依赖	需定义环境与交互逻辑	需高质量反馈信号（无需环境交互）
典型场景	LLM 对齐（RLHF 的 PPO 阶段）、智能体工具调用	RLHF 全流程（SFT→RM→PPO）、用户反馈迭代微调

二、核心训练流程与关键技术

1. RL 训练的核心流程（以 LLM 为例）

（1）经典流程：策略梯度法/PPO 算法

定义 RL 四要素：
- 状态（State）：用户指令 + 对话历史；
- 动作（Action）：LLM 生成的文本序列（token 级）；
- 环境（Environment）：奖励模型（RM）或人类反馈系统；
- 奖励（Reward）：RM 对生成文本的评分（如一致性、流畅性奖励）。
训练步骤：
- 初始化策略：以 SFT 模型作为初始策略（π₀）；
- 交互采样：策略模型生成文本，环境返回奖励值；
- 策略更新：通过 PPO/TRPO 等算法，调整模型参数，最大化累积奖励（同时加入 KL 惩罚避免模型退化）；
- 迭代收敛：重复采样-更新，直到奖励值稳定。

（2）关键技术

奖励函数设计：如你在多轮改写中用到的“一致性+指代消解+关键词+流畅性”多奖励融合；
策略优化算法：PPO（主流，稳定且适配大模型）、DPO（直接偏好优化，跳过 RM 阶段）、A2C（ Actor-Critic 架构，结合价值函数提升稳定性）；
探索与利用平衡：通过 ε-greedy、熵正则化等方式，避免模型过早陷入局部最优（如生成内容单一化）。

2. RFT 训练的核心流程（两类典型场景）

RFT 涵盖“监督式反馈”和“强化式反馈”，流程差异较大，以下是最贴合你工作的两大场景：

场景 1：监督式反馈微调（如 RLHF 的 SFT 阶段）

反馈形式：人类标注的“指令-理想输出”成对数据（反馈即标签）；
训练流程：
1. 收集人类反馈：标注者针对指令编写最优回答（如多轮改写的标准改写结果）；
2. 微调模型：以预训练模型为基础，最小化模型输出与标注反馈的交叉熵损失；
3. 迭代优化：根据新的标注反馈更新数据集，持续微调。
关键技术：数据清洗、样本均衡（如你对 6 类 Agent 数据按比例采样）、学习率调度（低温慢煮策略）。

场景 2：强化式反馈微调（如 RLHF 的 PPO 阶段）

反馈形式：奖励模型（RM）输出的标量奖励值（反馈即奖励）；
训练流程：
1. 构建奖励模型：用人类偏好数据训练 RM，将反馈转化为可量化的奖励；
2. 强化学习优化：以 SFT 模型为初始策略，用 PPO 算法最大化奖励（即 RL 训练流程）；
3. 反馈迭代：用新的模型输出重新收集人类反馈，更新 RM 和策略模型。
关键技术：奖励模型训练（成对排序损失）、KL 散度惩罚（避免模型退化）、多奖励融合（如你设计的四维度奖励）。

总结：RFT 与 RL 的包含关系

RFT（基于反馈的微调）
├─ 监督式反馈微调（如 RLHF 的 SFT 阶段）
└─ 强化式反馈微调（如 RLHF 的 PPO 阶段，本质是 RL 训练）

三、在 LLM 训练中的典型应用（贴合你的场景）

结合你在丰声智能伙伴的多轮改写、RLHF 实践，以下是二者的具体落地场景：

1. RL 的核心应用：策略级优化

LLM 对齐（RLHF 阶段）：你当前的 GRPO/PPO 训练，以 RM 的奖励为反馈，优化多轮改写模型的生成策略，让输出更符合“一致性、指代消解、关键词完整”要求；
智能体工具调用：丰声智能伙伴的 Agent 训练中，用 RL 优化“是否调用工具、调用哪个工具”的策略（反馈是工具调用的准确率、回答质量）；
多轮对话策略优化：让 LLM 学习“何时追问用户、何时结束对话”的策略（反馈是用户满意度、对话完成率）。

2. RFT 的核心应用：全流程反馈驱动微调

初始反馈微调（SFT 阶段）：你基于丰声真实对话数据的多轮改写 SFT 训练，本质是“基于人类标注改写结果（反馈）的监督式 RFT”，让模型初步学会改写规则；
奖励反馈微调（RL 阶段）：你设计的多奖励函数 PPO 训练，是“基于 RM 奖励反馈的强化式 RFT”，进一步优化模型策略；
用户反馈迭代：将丰声智能伙伴的用户点击、收藏、投诉等行为数据作为反馈，持续微调模型（如用户频繁修正某类改写结果，用这些修正数据做 RFT）。

四、关键技术对比与工程实践要点

1. 数据与反馈要求

维度	RL 训练	RFT 训练（含监督/强化）
数据需求	无需大量标注数据，但需要高质量奖励信号和交互环境	依赖反馈数据（标注数据/奖励数据/行为数据），反馈质量决定效果
反馈要求	奖励信号需可量化、无偏（如 RM 打分需一致）	反馈需与目标强相关（如改写任务的反馈需聚焦“完整性、流畅性”）
数据规模	小批量交互数据即可迭代（但需多样性）	监督式 RFT 需大规模标注数据，强化式 RFT 需持续反馈数据

2. 算力与训练稳定性

维度	RL 训练	RFT 训练
算力消耗	高（需多轮交互采样+策略更新，适配大模型需分布式训练）	监督式 RFT 低（类似 SFT），强化式 RFT 高（同 RL）
训练稳定性	低（易出现模式崩溃、奖励坍塌，需 KL 惩罚、学习率调度）	监督式 RFT 高（类似 SFT），强化式 RFT 低（同 RL）
工程依赖	需分布式框架（Megatron-LM/DeepSpeed）、RL 库（TRL）	监督式 RFT 需 SFT 框架（ms-swift/Transformers），强化式 RFT 需 RL 库

3. 你的项目实践适配建议

结合你在丰声智能伙伴的多轮改写训练，二者的协同使用是最优方案：

预训练模型（Qwen3-8B）→ 监督式 RFT（SFT 阶段，用标注改写数据微调）→ 强化式 RFT（RL 阶段，用多奖励 PPO 优化）→ 在线反馈 RFT（用用户行为数据持续迭代）

SFT 阶段：重点保证“监督式 RFT”的数据集质量（如你做的数据清洗、6 类 Agent 数据均衡），让模型掌握基础改写规则；
RL 阶段：通过多奖励函数设计（一致性/指代消解/关键词/流畅性），解决监督式 RFT 无法优化的“偏好排序”问题；
在线迭代：收集用户对改写结果的修正反馈，定期做小批量监督式 RFT，弥补 RL 训练的数据分布偏差。

五、常见混淆点澄清

1. RFT 与 RLHF 的关系？

RLHF（基于人类反馈的强化学习）是 RFT 的子集，属于“强化式 RFT”；
RFT 还包含“基于人类标注的监督式微调（SFT）”“基于 AI 反馈的微调（RLAIF）”等场景。

2. 监督式微调（SFT）属于 RFT 吗？

若 SFT 的数据是“人类反馈的理想输出”（如你多轮改写的标注数据），则属于 监督式 RFT；
若 SFT 的数据是普通“输入-输出”标注（无反馈逻辑），则不属于 RFT。

3. DPO（直接偏好优化）属于 RL 还是 RFT？

DPO 是 RFT 的一种实现方式，属于“强化式 RFT”，但简化了 RL 的流程（跳过 RM 训练，直接用偏好数据优化策略）；
DPO 本质是“用监督学习的形式实现强化学习的目标”，仍属于 RFT 框架，但不严格遵循传统 RL 的“环境交互”逻辑。

六、总结

核心结论

范围关系：RFT 是“基于反馈的微调”方法论（超集），RL 是“试错-反馈”的策略优化范式（子集，属于强化式 RFT）；
核心差异：RL 强调“自主交互试错”，RFT 强调“反馈驱动参数更新”（反馈形式更灵活）；
实践价值：在 LLM 训练中，二者通常协同使用——监督式 RFT（SFT）打基础，强化式 RFT（RL）做优化，在线反馈 RFT 保迭代，形成完整的“反馈-优化”闭环。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

让 AI 记住一切：MemOS Local Skill 上手指南

AI 记忆是提升人机交互体验的关键技术。记忆的持久性— 对话不会在每次结束时消失记忆的可用性— 相关信息能被自动检索到更重要的是，它完全本地存储，数据永不丢失。对于注重隐私的用户来说，这是一个值得尝试的方案。

2048 AI社区

AI应用架构师实战：上下文理解增强方案的部署与运维

本文提出的上下文理解增强方案，通过“会话管理+向量检索+动态修剪”的架构，解决了LLM应用中上下文丢失、token溢出、分布式一致性等问题。上下文增强方案的核心组件设计；部署全流程（从环境准备到容器化上线）；运维优化技巧（性能调优、故障排查）。随着AI应用的普及，上下文理解将成为差异化竞争的关键。希望本文能为架构师们提供实用的参考，帮助大家构建更智能、更贴合用户需求的AI应用。