给高中生讲明白:AI 是怎么 “上学” 的?
预训练是基础,让模型具备语言和知识能力;SFT是初步校准,让模型学会遵循指令;RLHF(结合奖励模型和强化学习)是深度优化,让模型符合人类偏好;PPO/DPO是实现强化学习的具体算法工具。这一流程(预训练→SFT→RLHF)已成为主流大语言模型(如 GPT、Claude 等)的标准训练范式。
·
1. 无监督预训练(Pretrain)
- 核心定义:在大规模无标注文本数据上,通过自监督学习目标(如预测下一个 token、掩码语言模型等)训练模型,使其掌握语言规律、基础知识和世界常识。
- 数据特点:数据量极大(通常数十亿至数万亿 token),来源广泛(书籍、网页、论文等),无人工标注标签。
- 目标:让模型具备 “理解语言” 的能力,能生成连贯文本,并隐含对世界的基础认知。
- 举例:GPT 系列的预训练阶段、BERT 的预训练阶段。
2. 有监督微调(SFT,Supervised Fine-Tuning)
- 核心定义:在预训练模型基础上,使用人工标注的高质量 “指令 - 响应” 数据(如 “用户提问→理想回答”)微调模型,使其学会遵循人类指令,生成符合预期的输出。
- 数据特点:数据量较小(通常数万至数十万样本),由人工精心标注,每条数据包含明确的输入指令和对应的 “理想输出”。
- 目标:将预训练模型从 “通用语言模型” 转变为 “指令遵循模型”,提升其在具体任务上的表现(如问答、翻译、写作等),并修正预训练阶段的缺陷(如输出不相关内容)。
- 与预训练的关系:SFT 是对预训练模型的 “校准”,使其更贴合人类需求,但不会显著增加模型的知识量。
3. 强化学习(Reinforcement Learning)
- 核心定义:通过 “智能体(Agent)与环境交互,获取奖励信号,优化行为策略” 的框架,使模型学会最大化累积奖励。
- 在 LLM 中的作用:在 SFT 之后,进一步优化模型输出,使其更符合人类偏好(如相关性、安全性、无害性等),而不仅限于匹配 SFT 的标注数据。
- 关键要素:
- 智能体:待优化的语言模型;
- 环境:生成文本的场景(如用户交互);
- 奖励信号:对模型输出的 “评分”(通常由奖励模型提供);
- 策略:模型生成文本的概率分布。
4. 奖励模型(Reward Model,RM)
- 核心定义:一个辅助模型,用于对语言模型的输出进行打分(奖励值),衡量其符合人类偏好的程度(如 “好 / 坏”“相关 / 不相关”“安全 / 有害”)。
- 训练方式:使用人工标注的 “对比数据” 训练 —— 即给定同一指令,标注者对多个模型输出进行排序(如 “A 比 B 好”),奖励模型学习预测这种排序关系,最终能对单条输出给出连续的奖励分数。
- 作用:为强化学习阶段提供 “奖励信号”,替代人工实时评分,使强化学习能高效进行。
5. 基于人类反馈的强化学习(RLHF,Reinforcement Learning from Human Feedback)
- 核心定义:将人类偏好通过奖励模型转化为奖励信号,再用强化学习优化 SFT 模型的流程。
- 流程:
- 先通过 SFT 得到初步的指令遵循模型;
- 让 SFT 模型对同一指令生成多个输出,由人类标注这些输出的偏好排序(如 “哪个回答更友好”);
- 用这些排序数据训练奖励模型(RM),使其能自动对输出打分;
- 以奖励模型的打分为奖励信号,用强化学习算法(如 PPO)优化 SFT 模型,得到最终模型。
- 目标:让模型输出更符合人类主观偏好(如更安全、更有帮助、更少偏见),弥补 SFT 阶段标注数据的局限性。
6. PPO/DPO:强化学习优化算法
-
PPO(Proximal Policy Optimization,近邻策略优化):
- 是 RLHF 中最常用的强化学习算法之一。
- 核心思想:通过限制模型策略的更新幅度(“近邻”),避免更新过于激进导致训练不稳定,同时最大化奖励。
- 优势:实现简单、训练稳定,适合大规模语言模型的优化。
-
DPO(Direct Preference Optimization,直接偏好优化):
- 是一种更简洁的替代 RLHF 的方法,无需显式训练奖励模型。
- 核心思想:直接利用人类偏好的对比数据(如 “A 比 B 好”),通过优化目标函数使模型更倾向于生成被偏好的输出,跳过强化学习的复杂流程。
- 优势:训练更高效,避免了奖励模型可能带来的误差。
总结:各环节的关系
- 预训练是基础,让模型具备语言和知识能力;
- SFT是初步校准,让模型学会遵循指令;
- RLHF(结合奖励模型和强化学习) 是深度优化,让模型符合人类偏好;
- PPO/DPO是实现强化学习的具体算法工具。
这一流程(预训练→SFT→RLHF)已成为主流大语言模型(如 GPT、Claude 等)的标准训练范式。
更多推荐



所有评论(0)