很多人学大模型,学到后面都会卡在一个地方:

模型已经预训练完了,接下来还能干什么?

答案只有一个词:Post-Training(模型后训练)

你现在用到的 ChatGPT、通义千问、DeepSeek、Claude,本质上都不是“裸的预训练模型”,而是一整套 Post-Training 技术堆出来的结果

今天这篇文章,我结合 2025 年 ACL 发布的一篇 Post-Training Survey,用一套工程视角 + 面试友好的方式,把大模型后训练的完整体系给你一次性讲清楚。

什么是大模型的 Post-Training?

简单一句话概括:

Post-Training,就是在预训练之后,让模型“变得好用、听话、会推理”的全过程。

前排提示,文末有大模型AGI-CSDN独家资料包哦!

预训练解决的是:
👉 模型“懂不懂语言、有没有知识”

而 Post-Training 解决的是:
👉 模型会不会按你说的做
👉 输出符不符合人类偏好
👉 推理靠不靠谱

Post-Training 的三大核心分类(一定要记住)

在这篇 Survey 里,作者把 Post-Training 非常清晰地分成了 三大类

① 监督微调(SFT)
② 偏好优化(RLHF / Preference Optimization)
③ 推理时计算增强(Test-Time Compute, TTC)

这个分类本身,就已经是一个标准答案级别的框架

下面我们一类一类拆。

监督微调(SFT):让模型“先学会听话”

SFT 在干什么?

监督微调,本质上就是:

用高质量的“指令-回答”数据,把 Base Model 训练成 Instruction Model。

也就是让模型从“只会补全文本”,变成“能听懂指令、按要求回答”。

SFT 的两种典型路线

全参数微调(Full Fine-Tuning)

  • 更新模型的所有参数
  • 效果最好,但:
  • 显存炸
  • 算力贵
  • 风险高

👉 常用于 Base → Struct / Instruction 模型 的阶段。

参数高效微调(PEFT)

只更新极少量参数,主模型权重冻结。

常见方法包括:

  • Adapter
  • Prefix Tuning
  • LoRA

👉 到今天为止,LoRA 已经成为业界事实标准
几乎所有工程落地、开源项目,最后都会收敛到 LoRA。

SFT 的优缺点

优点

  • 简单
  • 稳定
  • 好工程化

缺点

  • 极度依赖数据质量
  • 很难对齐“隐式偏好”

偏好优化(RLHF):让模型“更像人”

如果说 SFT 是“教模型怎么答”,
那偏好优化解决的是:

“哪个答案更好?”

偏好优化的两条技术路线

路线一:直接偏好优化(Direct Preference Optimization)

这几年非常火的一条路线。

核心特点

  • 不需要环境
  • 不需要 Rollout
  • 通常不需要 Value Model
  • 训练更稳定、成本更低

代表方法包括:

  • DPO
  • KTO
  • CM3PO

👉 本质思路:
把人类偏好,直接写进优化目标函数里。

路线二:强化学习式偏好优化(RL-based)

这是最经典的 RLHF 路线。

代表方法你一定听过:

  • PPO(OpenAI)
  • DAPO(字节)
  • GSPO(阿里千问)

这一类方法需要:

  • Reward Model
  • Advantage 计算
  • Value Baseline

👉 能力上限高,但问题也很明显:

  • 训练流程复杂
  • 算力成本极高
  • 容易 reward hacking(奖励欺骗)

偏好优化的核心评价

优点

  • 对齐能力强
  • 能学到复杂偏好

缺点

  • 不稳定
  • 成本高
  • 工程难度大

推理时计算增强(TTC):不训练,也能变聪明

这是很多人最容易忽略,但又极其重要的一类。

TTC 的核心特点只有一句话:

不改模型参数,只在推理阶段“多算一点、算聪明点”。

TTC 的五大典型方向

① 采样类

  • Top-k
  • Top-p
  • 多次采样 → 选最优

② 搜索类

  • Tree Search
  • MCTS

③ 推理链类

  • CoT
  • ToT
  • Self-Consistency

④ 自校验 / 反思类

  • 推理验证
  • 自我反思
  • 重排序

⑤ 上下文增强

  • RAG
  • In-Context Learning
  • 长上下文策略

TTC 的优缺点

优点

  • 不需要训练
  • 非常灵活
  • 成本可控

缺点

  • 明显受模型能力上限限制

三类 Post-Training 的整体对比(重点)

方法 是否改参数 核心优势 主要问题
SFT 简单稳定 数据依赖强
偏好优化 对齐能力强 成本高、不稳定
TTC 灵活高效 受模型上限限制

👉 真实工程中,一定是三者组合使用,而不是二选一。

读者福利:倘若大家对大模型感兴趣,那么这套大模型学习资料一定对你有用。

针对0基础小白:

如果你是零基础小白,快速入门大模型是可行的。
大模型学习流程较短,学习内容全面,需要理论与实践结合
学习计划和方向能根据资料进行归纳总结

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

请添加图片描述

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

这里我们能提供零基础学习书籍和视频。作为最快捷也是最有效的方式之一,跟着老师的思路,由浅入深,从理论到实操,其实大模型并不难

在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐