收藏必备!大模型训练全流程详解:从预训练到RLHF,小白也能轻松掌握
Transformer架构是现代大规模预训练模型(如GPT、BERT等)的核心基础。它主要由注意力机制(attention)和前馈神经网络(Feed - forward Network)构成。自注意力机制(Self - attention):自注意力机制使得模型在处理每个token时,可以“关注”输入序列中其他位置的token,从而捕捉到长距离的依赖关系。多头注意力(Multi - head At
本文详细介绍了大模型训练的四大阶段:预训练阶段通过自监督学习让模型掌握语言规律;监督微调阶段使模型适应特定任务;奖励模型评估输出质量并指导优化;基于人类反馈的强化学习使模型更符合人类期望。每个阶段都有特定的数据准备、训练目标和优化方法,共同构成了大模型训练的完整流程,为AI开发者提供了系统性的技术指南。

一、预训练阶段(Pretraining)
大模型的预训练是现代自然语言处理(NLP)技术中的核心步骤,特别是在基于Transformer架构的模型(如GPT系列、BERT等)中。预训练的目标是让模型能够从大量的无监督文本数据中学习语言的统计规律、语法结构、语义关系等,以便后续可以迁移到具体的下游任务(如文本分类、问答、翻译等)。这个过程就像一名高中生在三年的学习过程中,系统地接受老师的基础教学,积累了大量的知识和技能,为之后的专项训练(如高考)做好了充分准备。
1.1 核心思想
大模型的预训练通常分为两大类方法:自监督学习(Self - supervised Learning) 和无监督学习(Unsupervised Learning) 。其中,最常见的是自监督学习,通过对大量的无标签文本进行训练,模型能够学习到语法和语义信息,而无需手动标注数据。
预训练的过程包括以下几个关键步骤:
- 目标设定:学习语言的内部结构、词汇之间的关系以及长距离的上下文依赖。
- 数据准备:使用大规模的无标签文本数据集,这些数据通常来源于互联网、书籍、新闻等。
- 训练目标:模型通过预测文本的某些部分(例如下一个token,或者遮掩的部分)来训练自己,从而学习到语言的规律。
1.2 Transformer架构概述
Transformer架构是现代大规模预训练模型(如GPT、BERT等)的核心基础。它主要由注意力机制(attention)和前馈神经网络(Feed - forward Network)构成。
- 自注意力机制(Self - attention):自注意力机制使得模型在处理每个token时,可以“关注”输入序列中其他位置的token,从而捕捉到长距离的依赖关系。
- 多头注意力(Multi - head Attention) :将多个注意力头组合起来,模型能够在不同的子空间中捕捉到多种不同的依赖关系。
- 前馈神经网络:每个Transformer层包括一个前馈神经网络,用于进一步处理来自注意力层的信息。

1.3 具体流程
大模型的预训练流程通常遵循以下步骤:
(1)数据准备
预训练过程中使用的是大规模的文本数据集(例如Wikipedia、BooksCorpus、Common Crawl等),这些数据通常是未经标注的原始文本。这些未经标注的 原始文本通常要进行以下处理:
- 分词(Tokenization) :原始文本需要进行分词处理(将文本拆分成tokens)。现代预训练模型大多采用子词级别的分词方法(如Byte Pair Encoding, BPE,或者SentencePiece等),使得词表能够灵活地处理未登录词(OOV)问题。
- 嵌入(Embedding) :每个token会通过一个嵌入层(Embedding layer)映射成一个高维向量表示,作为输入送入模型的后续处理流程。
(2)训练目标设定
预训练任务的选择会根据不同的模型架构有所不同,常见的目标包括:
自回归语言建模(Autoregressive Language Modeling) :这种方法主要用于生成式预训练(如GPT)。模型通过预测文本序列中的下一个token来学习语言规律。即在自回归模型中,输入序列中的每个token都是基于前文信息进行预测的,也就是根据前面所有的词预测下一个词。
具体来说,给定一个文本序列x1,x2,…,xn,模型的任务是学习条件概率分布:

也就是,模型根据前面所有的词预测下一个词。每一步都根据前文信息更新其对下一个token的预测。
自编码语言建模(Autoencoding Language Modeling) :这种方法主要用于BERT类的模型,它通过预测文本中被遮蔽(masked)的token来进行训练。即输入序列中的一部分token被“遮蔽”掉(通常使用一个特殊的[MASK]标记代替),模型的目标是根据上下文预测出这些被遮蔽的token。
例如,给定句子:
The quick brown fox jumps over the [MASK] dog.
模型的目标是预测[MASK]位置的单词是"lazy"。
这种训练方式使得模型能够捕捉到双向上下文信息(即同时考虑左侧和右侧的上下文),适用于需要理解语义关系的任务。
(3)模型训练
模型通过前向传播算法对目标值进行预测,然后通过损失函数计算预测值与真实值之间的损失值,再利用梯度下降算法和反向传播算法优化模型参数。最常见的优化算法是Adam,它在处理稀疏梯度和大规模数据时非常有效。
不同的语言建模方式有不同的损失函数:
- 自回归语言建模:对于自回归模型(如GPT),损失函数通常使用交叉熵损失(Cross - Entropy Loss),其目标是最小化模型预测的概率分布与真实分布之间的差异。即在每个token的预测上,模型尽量将预测的token分布接近真实的token分布。损失函数为:

- 自编码语言建模:对于自编码模型(如BERT),模型的损失函数也是交叉熵损失,目标是让模型预测出正确的被遮蔽的token。例如,对于某个位置被遮蔽的token,损失函数会计算模型预测的token分布与真实token之间的交叉熵。
通过这样的大规模预训练,模型能够捕捉到语言中的丰富结构和语义信息,从而为下游任务的迁移学习打下坚实的基础。例如,在自回归模型中,模型通过根据前文预测下一个词来捕捉到单词之间的依赖关系,这帮助模型学习到语言的流畅性和一致性。
二、监督微调阶段(Supervised Finetuning)
尽管在预训练阶段,模型已经通过大量的文本数据学习到语言的统计特性和一些基础的语法、语义信息,但它通常并不能很好地处理特定任务。通过监督微调(Supervised Fine-Tuning, SFT)阶段的训练,模型将学习如何在特定的任务或领域内表现得更加出色,尤其是在应对具体问题时能够更精准、更高效。就像是高中生为了高考所做的专项模拟考试训练。
在这一阶段一般采用的方式是指令微调(Instruction Finetuning),为了便于理解,下文提到的SFT与指令微调不做区分。
2.1 数据准备
数据主要来源于两个方面:一是人工进行标注,二是通过类似ChatGPT这样的模型自动生成训练数据。 后者减少了人工构建数据集的成本,也能够更快地生成大量的训练样例。具体来说,可以给定一些基本的指令样例,让模型生成类似的新的指令和答案对,从而形成一个自动化的训练数据生成过程。例如,斯坦福大学的Alpaca项目通过ChatGPT自动生成了5200条指令 - 答案样例,极大地提升了训练的效率。
(1)文本数据格式
{
"Instruction":"",
"Input":"", //Input字段为可选字段,有时Instruction部分会包含Input的内容
"Output":""
}
// 例子:
{
"Instruction":"请帮我翻译一句话",
"Input":"hello",
"Output":"你好"
},
{
"Instruction":"请帮我翻译一句话:hello",
"Input":"",
"Output":"你好"
}
(2)数据编码格式
首先是使用与预训练时相同的分词器(如BPE、SentencePiece)进行分词操作,即将文本拆分为token。然后将输入和输出拼成一个序列,通常按照如下的方式
[Instruction] + [分隔符] +([Input])+ [分隔符] + [Output]
给出例子如下:
文本:
用户:请解释量子力学的基本概念。\n助手:量子力学是描述微观粒子行为的物理学分支……
Token序列:
[Token_1, Token_2, ..., Token_n]
标签序列(对应输出):
[Token_k, Token_k+1, ..., Token_m]
注意:
- 输入的最大长度由模型的上下文窗口大小限制(例如 GPT - 3 为 2048 tokens)。
- 如果序列超过最大长度,可能需要截断或者滑窗处理。
- 现代深度学习框架(如 PyTorch、TensorFlow)在批量训练时要求所有样本具有一致的形状(例如张量的维度相同),这样可以充分利用 GPU 的并行计算能力。常采用 padding 和截断机制使所有序列在一个批次中具有相同的长度。
2.2 训练目标与损失计算
SFT 的目标是让模型生成的输出与标注的正确答案(label)尽量接近,与预训练阶段预测下一个词不同,SFT 需要预测整个输出序列。
SFT 的数据包含输入(context)和输出(label),模型需要学习生成整个 label 序列。模型通过计算预测的 token 分布和真实 label 分布的交叉熵,优化预测精度。
损失的具体流程
-
前向传播:输入序列和输出序列拼接后,送入模型。模型通过 Transformer 层计算每个位置的 token 概率分布。
-
计算概率分布:模型输出的最后一层会生成一个 logits 矩阵:形状为 [L,V],其中 L 是序列长度,V 是词表大小。对 logits 应用 softmax,得到每个位置的 token 概率分布。
-
计算交叉熵损失:针对输出序列中的每个 token,计算预测概率和真实 label 的交叉熵,将每个 token 的损失取平均作为总体损失。

其中,x 是输入序列,y_j是输出序列中的第 j 个token。
通过 SFT,模型在特定任务的数据上进一步调整,能够更好地理解和完成实际任务需求,如对话生成、问答、机器翻译等。损失的计算方式延续了预训练阶段的逐 token 交叉熵,但加入了输入 - 输出对的监督信息,从而使模型的生成结果更符合任务要求。
三、奖励模型(Reward Model)
奖励模型(Reward Model, RM)是强化学习与人类反馈(RLHF)过程中至关重要的一环,它的作用是评估大语言模型输出的文本质量,给出一个分数,指导模型在后续生成过程中更好地符合人类偏好和需求。
通过与人类标注者进行交互,奖励模型能够提供反馈信号,帮助优化模型的输出,使得生成内容更加自然、真实且符合用户的期望。就像高三毕业班老师专门学习往年高考题型来辅导学生提高成绩。
3.1 为什么需要奖励模型?
在指令微调(SFT)阶段,虽然模型已经被训练并具备一定的语言生成能力,但其输出结果仍然可能不符合人类的偏好,可能存在「幻觉」问题(模型生成的内容不真实或不准确)或者「有害性」问题(输出有害、不合适或令人不安的内容)。
这是因为,SFT 仅通过有限的人工标注数据来微调预训练模型,可能并未完全纠正预训练阶段中潜在的错误知识或不合适的输出。为了进一步提高模型的生成质量,解决这些问题,必须引入奖励模型,利用强化学习进行进一步优化。
3.2 强化学习与奖励模型
强化学习的核心思想是通过奖惩机制来引导模型的学习。 在 RLHF(强化学习与人类反馈)中,奖励模型负责为模型生成的每个响应提供一个奖励分数,帮助模型学习哪些输出符合人类的期望,哪些输出不符合。
奖励模型的训练数据通常来自人工标注的排序数据,标注员会对多个生成的回答进行排名,奖励模型基于这些排名进行训练。
与传统的有监督学习不同,奖励模型并不要求直接对每个输出给出明确的分数,而是通过相对排序的方式对多个输出进行比较,告诉模型哪些输出更好,哪些输出更差。这种相对排序方式能有效减少人工评分时的主观差异,提高标注的一致性和模型的学习效率。
3.3 训练奖励模型
(1)训练数据(人工排序数据)
奖励模型的训练数据通常由人工标注人员对模型输出进行排序生成。在训练过程中,标注人员会根据多个生成回答的质量进行排序,而不是为每个答案打分。具体来说,给定一个问题,标注人员会评估并排序该问题的多个答案,并将这些排序数据作为奖励模型的训练数据。
这种相对排序的方式比直接给每个答案打分更加高效且一致,因为评分会受到标注人员个人主观看法的影响,而相对排序则减少了这种影响,使得多个标注员的标注结果能够更加统一。
数据格式:
//基于比较的数据格式
{
"input": "用户输入的文本",
"choices": [
{"text": "候选输出 1", "rank": 1},
{"text": "候选输出 2", "rank": 2}
]
}
//基于评分的数据格式
{
"input": "用户输入的文本",
"output": "生成模型的输出文本",
"score": 4.5
}
奖励模型的输入包括:
- 输入文本:用户给定的提示或问题,作为上下文。
- 输出文本:生成模型的候选答案,用于评估质量。
- 上下文和候选文本拼接:奖励模型通常会将 input(上下文)和每个 choice(候选文本)进行拼接,然后输入到模型中。这样,模型就能够理解生成文本与上下文之间的关系,并基于该关系来评估生成文本的质量。
下面是一个简单的例子:
//原始数据
{
"input": "What is the capital of France?",
"choices": [
{"text": "The capital of France is Paris.", "rank": 1},
{"text": "The capital of France is Berlin.", "rank": 3},
{"text": "Paris is the capital of France.", "rank": 2}
]
}
//应输入到模型的数据
[Input] What is the capital of France? [SEP] The capital of France is Paris.
[Input] What is the capital of France? [SEP] The capital of France is Berlin.
[Input] What is the capital of France? [SEP] Paris is the capital of France.
(2)上下文建模
奖励模型会基于 Transformer(如 BERT、RoBERTa)等架构对整个拼接后的文本进行编码处理。对于每个候选文本,模型会生成一个上下文感知的表示,其中考虑了 input 和该候选 choice 之间的语义关系。
(3)计算得分或排序
- 回归任务:如果任务是回归类型的(例如预测一个分数),奖励模型会为每个候选文本生成一个预测的质量分数。
- 排序任务:如果任务是基于排序(例如选择哪个候选文本质量更好),奖励模型会通过对所有候选文本进行打分,计算并比较它们的得分,确保高质量文本的得分高于低质量文本。
(4)损失函数
在训练过程中,模型会通过比较候选文本的预测得分与实际的标签(排名或评分)之间的差异来计算损失,并进行反向传播优化:
- 回归任务使用均方误差(MSE)损失来最小化预测分数与真实评分之间的差距。
- 排序任务通常使用对比损失(Contrastive Loss)或者排名损失(例如 Hinge Loss),优化模型以便正确排序候选文本。
3.4 奖励模型的挑战
奖励模型的设计和训练过程中存在一定的挑战,主要体现在以下几个方面:
- 人类偏好的多样性:不同的标注员可能对同一生成结果有不同的看法,这就要求奖励模型能够容忍一定的主观性,并通过排序学习来减少偏差。
- 模型不稳定:由于奖励模型通常较小,训练过程中可能会出现不稳定的情况。为了提高训练的稳定性,奖励模型通常会采取合适的正则化技术和优化方法。
- 数据质量与多样性:为了确保奖励模型的有效性,训练数据需要足够多样化,涵盖不同类型的问题和答案。如果数据质量不高或过于单一,模型可能无法学到有效的评分规则。
四、 基于人类反馈的强化学习(RLHF)
基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)是一种将强化学习与人类反馈结合的方法,旨在优化模型的行为和输出,使其更加符合人类的期望。通过引入人类反馈作为奖励信号指导模型更好地理解和满足人类的偏好,生成更自然、更符合人类意图的输出。
就像高考生需要根据模拟考试的反馈进行调整,优化答题策略,这就像是模型在 RLHF 中根据人类反馈不断优化自身行为。
4.1 RLHF框架的核心组件
RLHF框架包含几个关键元素,它们共同协作,确保模型能够根据人类反馈进行优化:
强化学习算法(RL Algorithm):强化学习算法负责训练模型,以优化其行为。在RLHF中,常用的强化学习算法是近端策略优化(Proximal Policy Optimization,PPO)。PPO是一种“on-policy”算法,模型通过当前策略直接学习和更新,而不依赖于过去的经验。通过PPO算法,模型能够根据奖励信号调整策略,最终生成符合期望的输出。
行动(Action):在RLHF框架中,行动是指模型根据给定的提示(prompt)生成的输出文本。每个输出都可以视为模型在执行任务时的选择。行动空间包括词汇表中所有可能的token及其排列组合。
环境(Environment):环境是模型与外界交互的场景,提供模型需要执行任务的状态、动作和对应的奖励。在RLHF中,环境是模型根据提示生成输出并根据反馈调整行为的外部世界。
状态空间(State Space):环境呈现给模型的所有可能状态,通常是输入给模型的提示或上下文信息。
动作空间(Action Space):模型可以执行的所有可能动作,即根据提示生成的所有输出文本。
奖励函数(Reward Function):根据模型的输出,奖励函数为其分配奖励或惩罚。通常,这些奖励由训练好的奖励模型预测,该模型依据人类反馈评估输出质量。
观察(Observation):观察是模型生成输出时接收到的输入提示(prompt)。这些提示作为模型决策和执行任务的基础。**观察空间(Observation Space)**是指可能的输入token序列,即模型处理的提示文本。
奖励机制(Reward):奖励机制是RLHF框架的核心组成部分,负责基于奖励模型的预测分配奖励或惩罚。奖励模型通常通过大量人类反馈数据进行训练,以确保能够准确预测人类对不同输出的偏好。反馈数据通常通过对模型输出的排序、打分集。
4.2 RLHF实战应用:InstructGPT的训练过程
RLHF的实际应用可以通过InstructGPT(ChatGPT的前身)训练过程来说明。InstructGPT的训练过程分为三个阶段:

首先,从prompt数据集中采样,标注员根据要求为采样的prompt编写答案,形成描述性数据(Demonstration Data)。这些数据用于微调GPT-3模型,训练出一个监督学习模型(Supervised Fine-Tuning, SFT)。通过描述性数据对模型进行有监督微调,使模型能够生成符合基本要求的答案。
接着,从prompt数据库中采样,生成多个模型输出,标注员对这些输出进行打分或排序,形成比较性数据(Comparison Data),并用这些数据训练奖励模型(Reward Modeling, RM)。奖励模型预测不同输出的偏好分数,从而帮助模型生成更高质量的输出。
最后,使用PPO算法(Proximal Policy Optimization)来优化奖励模型。通过从数据集中取样,模型根据监督学习阶段得到的初始化数据进行输出,奖励模型为每个输出打分,最终通过PPO算法调整模型策略,使其生成更符合人类期望的输出。通过RLHF(Reinforcement Learning from Human Feedback)方法,模型能够利用人类反馈逐步提高性能,最终训练出能够生成高质量输出的模型。
通过这三个阶段的训练,InstructGPT能够生成更符合人类需求和偏好的输出,最终形成类似ChatGPT的对话模型。
结语
从零开始训练一个大语言模型是一个复杂且充满挑战的过程,涉及多个环节的设计和优化。通过预训练阶段的语言建模、指令微调、奖励模型的构建以及强化学习与人类反馈(RLHF)等方法,最终可以训练出一个高效、灵活且符合人类需求的大语言模型。在这一过程中,每一个步骤的优化都至关重要,只有精心设计并进行反复实验,才能取得理想的效果。希望本文能够为正在进行LLM研究的朋友们提供有益的思路。
如何从零学会大模型?小白&程序员都能跟上的入门到进阶指南
当AI开始重构各行各业,你或许听过“岗位会被取代”的焦虑,但更关键的真相是:技术迭代中,“效率差”才是竞争力的核心——新岗位的生产效率远高于被替代岗位,整个社会的机会其实在增加。
但对个人而言,只有一句话算数:
“先掌握大模型的人,永远比后掌握的人,多一次职业跃迁的机会。”
回顾计算机、互联网、移动互联网的浪潮,每一次技术革命的初期,率先拥抱新技术的人,都提前拿到了“职场快车道”的门票。我在一线科技企业深耕12年,见过太多这样的案例:3年前主动学大模型的同事,如今要么成为团队技术负责人,要么薪资翻了2-3倍。
深知大模型学习中,“没人带、没方向、缺资源”是最大的拦路虎,我们联合行业专家整理出这套 《AI大模型突围资料包》,不管你是零基础小白,还是想转型的程序员,都能靠它少走90%的弯路:
- ✅ 小白友好的「从零到一学习路径图」(避开晦涩理论,先学能用的技能)
- ✅ 程序员必备的「大模型调优实战手册」(附医疗/金融大厂真实项目案例)
- ✅ 百度/阿里专家闭门录播课(拆解一线企业如何落地大模型)
- ✅ 2025最新大模型行业报告(看清各行业机会,避免盲目跟风)
- ✅ 大厂大模型面试真题(含答案解析,针对性准备offer)
- ✅ 2025大模型岗位需求图谱(明确不同岗位需要掌握的技能点)
所有资料已整理成包,想领《AI大模型入门+进阶学习资源包》的朋友,直接扫下方二维码获取~

① 全套AI大模型应用开发视频教程:从“听懂”到“会用”
不用啃复杂公式,直接学能落地的技术——不管你是想做AI应用,还是调优模型,这套视频都能覆盖:
- 小白入门:提示工程(让AI精准输出你要的结果)、RAG检索增强(解决AI“失忆”问题)
- 程序员进阶:LangChain框架实战(快速搭建AI应用)、Agent智能体开发(让AI自主完成复杂任务)
- 工程落地:模型微调与部署(把模型用到实际业务中)、DeepSeek模型实战(热门开源模型实操)
每个技术点都配“案例+代码演示”,跟着做就能上手!

课程精彩瞬间

② 大模型系统化学习路线:避免“学了就忘、越学越乱”
很多人学大模型走弯路,不是因为不努力,而是方向错了——比如小白一上来就啃深度学习理论,程序员跳过基础直接学微调,最后都卡在“用不起来”。
我们整理的这份「学习路线图」,按“基础→进阶→实战”分3个阶段,每个阶段都明确:
- 该学什么(比如基础阶段先学“AI基础概念+工具使用”)
- 不用学什么(比如小白初期不用深入研究Transformer底层数学原理)
- 学多久、用什么资料(精准匹配学习时间,避免拖延)
跟着路线走,零基础3个月能入门,有基础1个月能上手做项目!

③ 大模型学习书籍&文档:打好理论基础,走得更稳
想长期在大模型领域发展,理论基础不能少——但不用盲目买一堆书,我们精选了「小白能看懂、程序员能查漏」的核心资料:
- 入门书籍:《大模型实战指南》《AI提示工程入门》(用通俗语言讲清核心概念)
- 进阶文档:大模型调优技术白皮书、LangChain官方中文教程(附重点标注,节省阅读时间)
- 权威资料:斯坦福CS224N大模型课程笔记(整理成中文,避免语言障碍)
所有资料都是电子版,手机、电脑随时看,还能直接搜索重点!

④ AI大模型最新行业报告:看清机会,再动手
学技术的核心是“用对地方”——2025年哪些行业需要大模型人才?哪些应用场景最有前景?这份报告帮你理清:
- 行业趋势:医疗(AI辅助诊断)、金融(智能风控)、教育(个性化学习)等10大行业的大模型落地案例
- 岗位需求:大模型开发工程师、AI产品经理、提示工程师的职责差异与技能要求
- 风险提示:哪些领域目前落地难度大,避免浪费时间
不管你是想转行,还是想在现有岗位加技能,这份报告都能帮你精准定位!

⑤ 大模型大厂面试真题:针对性准备,拿offer更稳
学会技术后,如何把技能“变现”成offer?这份真题帮你避开面试坑:
- 基础题:“大模型的上下文窗口是什么?”“RAG的核心原理是什么?”(附标准答案框架)
- 实操题:“如何优化大模型的推理速度?”“用LangChain搭建一个多轮对话系统的步骤?”(含代码示例)
- 场景题:“如果大模型输出错误信息,该怎么解决?”(教你从技术+业务角度回答)
覆盖百度、阿里、腾讯、字节等大厂的最新面试题,帮你提前准备,面试时不慌!

以上资料如何领取?
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

为什么现在必须学大模型?不是焦虑,是事实
最近英特尔、微软等企业宣布裁员,但大模型相关岗位却在疯狂扩招:
- 大厂招聘:百度、阿里的大模型开发岗,3-5年经验薪资能到50K×20薪,比传统开发岗高40%;
- 中小公司:甚至很多传统企业(比如制造业、医疗公司)都在招“会用大模型的人”,要求不高但薪资可观;
- 门槛变化:不出1年,“有大模型项目经验”会成为很多技术岗、产品岗的简历门槛,现在学就是抢占先机。
风口不会等任何人——与其担心“被淘汰”,不如主动学技术,把“焦虑”变成“竞争力”!


最后:全套资料再领一次,别错过这次机会
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多推荐



所有评论(0)