AI核心知识119—大语言模型之监督微调（简洁且通俗易懂版）

LPZH! · 2026-04-14 15:10:44 发布

监督微调 (Supervised Fine-Tuning, 简称 SFT) 是把大语言模型从一个“野生学霸” 变成“全能助理” 的第一道关键工序。

这也是我们上一条提到的 Software 2.0 时代 最典型的一种“编程”方式。

如果说之前的预训练 (Pre-training / 自监督学习) 是让 AI 读完了人类所有的书，获得了海量的知识；那么 SFT 就是送这个 AI 去上“礼仪培训班” ，教它如何用人类喜欢的方式来交流。

刚刚完成预训练的基座模型 (Base Model) 脑子里充满了知识，但它唯一的本能就是“文本接龙 (猜下一个词)” 。它根本不懂什么是“一问一答”。

场景还原：
- 你问它：“北京的首都在哪里？”
- 野生大模型可能会接：“上海的首都在哪里？广州的首都在哪里？”（因为它在网上看过太多这种考试题库的排版，它以为你想继续出题）。
- 或者它会接：“这是一道小学地理题，出自《人教版地理》第X页。”

野生大模型缺乏“对话能力” 和“服从指令的能力” 。SFT 的出现，就是为了打破这种接龙惯性。

SFT 的全称里有“监督 (Supervised)”两个字，正如我们之前聊过的，这意味着人类老师必须亲自下场，提供带有“标准答案”的试卷。

它的核心做法是投喂高质量的“指令-回复”数据对 (Prompt-Response Pairs) 。

人工撰写数据：人类标注员会辛辛苦苦地写下几万到几十万个完美的对话例子。
1. 输入 (Prompt)：“帮我写一封请假信，因为我感冒了。”
2. 输出 (Response)：“尊敬的领导：您好！我因近日不慎感染风寒，身体不适……”
模型模仿：把这些数据喂给基座模型。模型通过这些例子，突然顿悟了：“哦！原来人类输入一句话之后，我不需要顺着他的话继续编，而是应该按照他的要求，给出一个完整的解答！”
结果：经过 SFT 的洗礼，模型学会了写文章的格式、懂得了礼貌用语（比如开头加“你好”，结尾加“希望这能帮到你”），真正具备了 ChatGPT 的雏形。

在预训练阶段，模型吃的是互联网上的“海量糙米”（几万亿个词，数据脏点也没关系）。但在 SFT 阶段，模型吃的是“米其林大餐” 。

科学家发现，SFT 不需要海量的数据。只要有 1000 到 10000 条极高质量、逻辑严密、排版精美的对话数据，就足以彻底改变一个拥有千亿参数的大模型的行为模式。
如果 SFT 的数据里掺杂了低质量的回答、偏见或者废话，模型也会立刻学坏（这在业界被称为“Garbage in, garbage out”）。