一文讲清楚:大模型Post-Training的完整技术版图
很多人学大模型,学到后面都会卡在一个地方:**模型已经预训练完了,接下来还能干什么?**答案只有一个词:**Post-Training(模型后训练)**。你现在用到的 ChatGPT、通义千问、DeepSeek、Claude,本质上都不是“裸的预训练模型”,而是一整套 **Post-Training 技术堆出来的结果**。今天这篇文章,我结合 **2025 年 ACL 发布的一篇 Post-Tra
很多人学大模型,学到后面都会卡在一个地方:
模型已经预训练完了,接下来还能干什么?
答案只有一个词:Post-Training(模型后训练)。
你现在用到的 ChatGPT、通义千问、DeepSeek、Claude,本质上都不是“裸的预训练模型”,而是一整套 Post-Training 技术堆出来的结果。
今天这篇文章,我结合 2025 年 ACL 发布的一篇 Post-Training Survey,用一套工程视角 + 面试友好的方式,把大模型后训练的完整体系给你一次性讲清楚。
什么是大模型的 Post-Training?
简单一句话概括:
Post-Training,就是在预训练之后,让模型“变得好用、听话、会推理”的全过程。
前排提示,文末有大模型AGI-CSDN独家资料包哦!
预训练解决的是:
👉 模型“懂不懂语言、有没有知识”
而 Post-Training 解决的是:
👉 模型会不会按你说的做
👉 输出符不符合人类偏好
👉 推理靠不靠谱
Post-Training 的三大核心分类(一定要记住)
在这篇 Survey 里,作者把 Post-Training 非常清晰地分成了 三大类:
① 监督微调(SFT)
② 偏好优化(RLHF / Preference Optimization)
③ 推理时计算增强(Test-Time Compute, TTC)
这个分类本身,就已经是一个标准答案级别的框架。
下面我们一类一类拆。
监督微调(SFT):让模型“先学会听话”
SFT 在干什么?
监督微调,本质上就是:
用高质量的“指令-回答”数据,把 Base Model 训练成 Instruction Model。
也就是让模型从“只会补全文本”,变成“能听懂指令、按要求回答”。
SFT 的两种典型路线
全参数微调(Full Fine-Tuning)
- 更新模型的所有参数
- 效果最好,但:
- 显存炸
- 算力贵
- 风险高
👉 常用于 Base → Struct / Instruction 模型 的阶段。
参数高效微调(PEFT)
只更新极少量参数,主模型权重冻结。
常见方法包括:
- Adapter
- Prefix Tuning
- LoRA
👉 到今天为止,LoRA 已经成为业界事实标准。
几乎所有工程落地、开源项目,最后都会收敛到 LoRA。
SFT 的优缺点
优点:
- 简单
- 稳定
- 好工程化
缺点:
- 极度依赖数据质量
- 很难对齐“隐式偏好”
偏好优化(RLHF):让模型“更像人”
如果说 SFT 是“教模型怎么答”,
那偏好优化解决的是:
“哪个答案更好?”
偏好优化的两条技术路线
路线一:直接偏好优化(Direct Preference Optimization)
这几年非常火的一条路线。
核心特点:
- 不需要环境
- 不需要 Rollout
- 通常不需要 Value Model
- 训练更稳定、成本更低
代表方法包括:
- DPO
- KTO
- CM3PO
👉 本质思路:
把人类偏好,直接写进优化目标函数里。
路线二:强化学习式偏好优化(RL-based)
这是最经典的 RLHF 路线。
代表方法你一定听过:
- PPO(OpenAI)
- DAPO(字节)
- GSPO(阿里千问)
这一类方法需要:
- Reward Model
- Advantage 计算
- Value Baseline
👉 能力上限高,但问题也很明显:
- 训练流程复杂
- 算力成本极高
- 容易 reward hacking(奖励欺骗)
偏好优化的核心评价
优点:
- 对齐能力强
- 能学到复杂偏好
缺点:
- 不稳定
- 成本高
- 工程难度大
推理时计算增强(TTC):不训练,也能变聪明
这是很多人最容易忽略,但又极其重要的一类。
TTC 的核心特点只有一句话:
不改模型参数,只在推理阶段“多算一点、算聪明点”。
TTC 的五大典型方向
① 采样类
- Top-k
- Top-p
- 多次采样 → 选最优
② 搜索类
- Tree Search
- MCTS
③ 推理链类
- CoT
- ToT
- Self-Consistency
④ 自校验 / 反思类
- 推理验证
- 自我反思
- 重排序
⑤ 上下文增强
- RAG
- In-Context Learning
- 长上下文策略
TTC 的优缺点
优点:
- 不需要训练
- 非常灵活
- 成本可控
缺点:
- 明显受模型能力上限限制
三类 Post-Training 的整体对比(重点)
| 方法 | 是否改参数 | 核心优势 | 主要问题 |
|---|---|---|---|
| SFT | ✅ | 简单稳定 | 数据依赖强 |
| 偏好优化 | ✅ | 对齐能力强 | 成本高、不稳定 |
| TTC | ❌ | 灵活高效 | 受模型上限限制 |
👉 真实工程中,一定是三者组合使用,而不是二选一。
读者福利:倘若大家对大模型感兴趣,那么这套大模型学习资料一定对你有用。
针对0基础小白:
如果你是零基础小白,快速入门大模型是可行的。
大模型学习流程较短,学习内容全面,需要理论与实践结合
学习计划和方向能根据资料进行归纳总结
包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓


👉AI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉大模型实战案例👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

👉大模型视频和PDF合集👈
这里我们能提供零基础学习书籍和视频。作为最快捷也是最有效的方式之一,跟着老师的思路,由浅入深,从理论到实操,其实大模型并不难。

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
更多推荐

所有评论(0)