1. 无监督预训练(Pretrain)

  • 核心定义:在大规模无标注文本数据上,通过自监督学习目标(如预测下一个 token、掩码语言模型等)训练模型,使其掌握语言规律、基础知识和世界常识。
  • 数据特点:数据量极大(通常数十亿至数万亿 token),来源广泛(书籍、网页、论文等),无人工标注标签。
  • 目标:让模型具备 “理解语言” 的能力,能生成连贯文本,并隐含对世界的基础认知。
  • 举例:GPT 系列的预训练阶段、BERT 的预训练阶段。

2. 有监督微调(SFT,Supervised Fine-Tuning)

  • 核心定义:在预训练模型基础上,使用人工标注的高质量 “指令 - 响应” 数据(如 “用户提问→理想回答”)微调模型,使其学会遵循人类指令,生成符合预期的输出。
  • 数据特点:数据量较小(通常数万至数十万样本),由人工精心标注,每条数据包含明确的输入指令和对应的 “理想输出”。
  • 目标:将预训练模型从 “通用语言模型” 转变为 “指令遵循模型”,提升其在具体任务上的表现(如问答、翻译、写作等),并修正预训练阶段的缺陷(如输出不相关内容)。
  • 与预训练的关系:SFT 是对预训练模型的 “校准”,使其更贴合人类需求,但不会显著增加模型的知识量。

3. 强化学习(Reinforcement Learning)

  • 核心定义:通过 “智能体(Agent)与环境交互,获取奖励信号,优化行为策略” 的框架,使模型学会最大化累积奖励。
  • 在 LLM 中的作用:在 SFT 之后,进一步优化模型输出,使其更符合人类偏好(如相关性、安全性、无害性等),而不仅限于匹配 SFT 的标注数据。
  • 关键要素
    • 智能体:待优化的语言模型;
    • 环境:生成文本的场景(如用户交互);
    • 奖励信号:对模型输出的 “评分”(通常由奖励模型提供);
    • 策略:模型生成文本的概率分布。

4. 奖励模型(Reward Model,RM)

  • 核心定义:一个辅助模型,用于对语言模型的输出进行打分(奖励值),衡量其符合人类偏好的程度(如 “好 / 坏”“相关 / 不相关”“安全 / 有害”)。
  • 训练方式:使用人工标注的 “对比数据” 训练 —— 即给定同一指令,标注者对多个模型输出进行排序(如 “A 比 B 好”),奖励模型学习预测这种排序关系,最终能对单条输出给出连续的奖励分数。
  • 作用:为强化学习阶段提供 “奖励信号”,替代人工实时评分,使强化学习能高效进行。

5. 基于人类反馈的强化学习(RLHF,Reinforcement Learning from Human Feedback)

  • 核心定义:将人类偏好通过奖励模型转化为奖励信号,再用强化学习优化 SFT 模型的流程。
  • 流程
    1. 先通过 SFT 得到初步的指令遵循模型;
    2. 让 SFT 模型对同一指令生成多个输出,由人类标注这些输出的偏好排序(如 “哪个回答更友好”);
    3. 用这些排序数据训练奖励模型(RM),使其能自动对输出打分;
    4. 以奖励模型的打分为奖励信号,用强化学习算法(如 PPO)优化 SFT 模型,得到最终模型。
  • 目标:让模型输出更符合人类主观偏好(如更安全、更有帮助、更少偏见),弥补 SFT 阶段标注数据的局限性。

6. PPO/DPO:强化学习优化算法

  • PPO(Proximal Policy Optimization,近邻策略优化)

    • 是 RLHF 中最常用的强化学习算法之一。
    • 核心思想:通过限制模型策略的更新幅度(“近邻”),避免更新过于激进导致训练不稳定,同时最大化奖励。
    • 优势:实现简单、训练稳定,适合大规模语言模型的优化。
  • DPO(Direct Preference Optimization,直接偏好优化)

    • 是一种更简洁的替代 RLHF 的方法,无需显式训练奖励模型。
    • 核心思想:直接利用人类偏好的对比数据(如 “A 比 B 好”),通过优化目标函数使模型更倾向于生成被偏好的输出,跳过强化学习的复杂流程。
    • 优势:训练更高效,避免了奖励模型可能带来的误差。

总结:各环节的关系

  1. 预训练是基础,让模型具备语言和知识能力;
  2. SFT是初步校准,让模型学会遵循指令;
  3. RLHF(结合奖励模型和强化学习) 是深度优化,让模型符合人类偏好;
  4. PPO/DPO是实现强化学习的具体算法工具。

这一流程(预训练→SFT→RLHF)已成为主流大语言模型(如 GPT、Claude 等)的标准训练范式。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐