大模型相关概念理解 - 模型训练
预训练:学习语言基础知识(无监督)。监督微调:学习特定任务的问答能力(有监督)。奖励建模:构建评判生成质量的评分系统。强化学习:在评分系统指导下持续优化。神经网络:通过加权求和 + 激活函数实现信号传递。参数:存储训练后的知识和经验。
模型能力分布:

预训练(Pre-Training)
类似书本知识灌输。
- 将大规模无标注数据喂给模型。
- 模型学习预测下一个 token(自回归任务)。
- 基于概率统计进行预测,此时模型无法理解问题并组织语言回答。
核心目标:让模型学习语言的基本规律和世界知识。
监督微调(SFT - Supervised Fine-Tuning)
类似于解题过程,比对标准答案和自己的解答结果。
- 将标注好的「问题 - 答案」数据喂给模型,建立输入与输出之间的关联。
- 模型比对自己生成的答案与标准答案,学习更好地完成特定任务。
奖励建模(RM - Reward Modeling)
类似于由人类构建智能评分系统,评分系统去评判答题结果的好坏。
这是构建奖励模型的过程。
- 由人类对模型生成的多个结果进行排序和打分。
- 基于人类偏好数据训练一个新模型(奖励模型)。
- 奖励模型用于评价其他模型生成文本的好坏。
奖励模型:是一个独立的 AI 模型,专门用于评判其他模型的生成结果质量。
强化学习(RL - Reinforcement Learning)
类似于习题训练 + 参考答案,逐步接近标准答案的过程。
- 在奖励模型的指导下,生成更优质的文本。
- 通过「尝试 - 反馈 - 改进」的循环学习。
- 奖励模型对生成文本打分,模型根据分数调整策略,以获取更高分数。
核心算法:常用 PPO(Proximal Policy Optimization)等强化学习算法。
分词(Tokenizer)
类似于理解英语短句的过程。
- 文本预处理:去除多余字符,规范输入内容。
- 词汇表构建:基于 Tokenization 算法建立词汇表,包含所有 token。
- 未知词汇处理:将未知词拆分为多个已知子词(Subword)进行理解,减少信息损失。例如将
unhappiness拆分为un+happi+ness。 - 提高模型效率:将文本转换为计算机易处理的数字序列,更高效地理解和处理数据。
常见算法:BPE(Byte Pair Encoding)、WordPiece、SentencePiece 等。
向量(Embedding)
通过向量空间来表达字词之间的关系,方便计算机理解语义。
- 文本 → 数字的转换过程,称为嵌入(Embedding),相关模型称为 Embedding 模型。
- 语义相近的内容在向量空间中距离越近。
- 语义理解:通过向量运算来理解字词含义和联系,如
A - B得到C字词。
经典示例:
K i n g ⃗ − M a n ⃗ + W o m a n ⃗ ≈ Q u e e n ⃗ \vec{King} - \vec{Man} + \vec{Woman} \approx \vec{Queen} King−Man+Woman≈Queen
神经网络
核心概念
神经网络的本质是「输入 → 计算 → 预测输出」的过程。
- 训练阶段:通过调整参数(权重)提高预测准确度。
- 推理阶段:参数固定,直接使用训练好的模型进行预测。
信号计算
神经网络的运算过程,也是神经元之间信号传递的核心机制。
1. 加权求和(线性变换):
z = a 1 ⋅ w 1 + a 2 ⋅ w 2 + a 3 ⋅ w 3 + b z = a_1 \cdot w_1 + a_2 \cdot w_2 + a_3 \cdot w_3 + b z=a1⋅w1+a2⋅w2+a3⋅w3+b
- a i a_i ai:输入信号。
- w i w_i wi:权重参数。
- b b b:偏置项(可选)。
2. 激活函数(非线性变换):
以 Sigmoid 函数为例:
y = σ ( z ) = 1 1 + e − z y = \sigma(z) = \frac{1}{1 + e^{-z}} y=σ(z)=1+e−z1
Sigmoid 函数特性:
- 输出范围: ( 0 , 1 ) (0, 1) (0,1)。
- 将任意实数映射到 0 ~ 1 之间,常用于二分类问题。
- 导数: σ ′ ( z ) = σ ( z ) ⋅ ( 1 − σ ( z ) ) \sigma'(z) = \sigma(z) \cdot (1 - \sigma(z)) σ′(z)=σ(z)⋅(1−σ(z))。
计算示例
神经网络的前向传播计算过程示例:
输入: X 1 = 0.5 X_1 = 0.5 X1=0.5, X 2 = − 0.3 X_2 = -0.3 X2=−0.3
Step 1:计算隐藏层输入(加权求和)
隐藏节点 1:
z 1 = X 1 × w 11 + X 2 × w 21 = 0.5 × 0.4 + ( − 0.3 ) × 0.9 = 0.2 − 0.27 = − 0.07 z_1 = X_1 \times w_{11} + X_2 \times w_{21} = 0.5 \times 0.4 + (-0.3) \times 0.9 = 0.2 - 0.27 = -0.07 z1=X1×w11+X2×w21=0.5×0.4+(−0.3)×0.9=0.2−0.27=−0.07
隐藏节点 2:
z 2 = X 1 × w 12 + X 2 × w 22 = 0.5 × 0.7 + ( − 0.3 ) × ( − 0.3 ) = 0.35 + 0.09 = 0.44 z_2 = X_1 \times w_{12} + X_2 \times w_{22} = 0.5 \times 0.7 + (-0.3) \times (-0.3) = 0.35 + 0.09 = 0.44 z2=X1×w12+X2×w22=0.5×0.7+(−0.3)×(−0.3)=0.35+0.09=0.44
Step 2:应用 Sigmoid 激活函数
h 1 = σ ( z 1 ) = 1 1 + e 0.07 ≈ 1 1.0725 ≈ 0.4825 h_1 = \sigma(z_1) = \frac{1}{1 + e^{0.07}} \approx \frac{1}{1.0725} \approx 0.4825 h1=σ(z1)=1+e0.071≈1.07251≈0.4825
h 2 = σ ( z 2 ) = 1 1 + e − 0.44 ≈ 1 1.6440 ≈ 0.6083 h_2 = \sigma(z_2) = \frac{1}{1 + e^{-0.44}} \approx \frac{1}{1.6440} \approx 0.6083 h2=σ(z2)=1+e−0.441≈1.64401≈0.6083
Step 3:计算输出层输入
z o u t = h 1 × w 1 + h 2 × w 2 = 0.4825 × 0.5 + 0.6083 × 0.6 = 0.2413 + 0.3650 = 0.6063 z_{out} = h_1 \times w_1 + h_2 \times w_2 = 0.4825 \times 0.5 + 0.6083 \times 0.6 = 0.2413 + 0.3650 = 0.6063 zout=h1×w1+h2×w2=0.4825×0.5+0.6083×0.6=0.2413+0.3650=0.6063
Step 4:应用 Sigmoid 得到最终输出
y ^ = σ ( z o u t ) = 1 1 + e − 0.6063 ≈ 1 1.5453 ≈ 0.647 \hat{y} = \sigma(z_{out}) = \frac{1}{1 + e^{-0.6063}} \approx \frac{1}{1.5453} \approx 0.647 y^=σ(zout)=1+e−0.60631≈1.54531≈0.647
结果:
- 预测输出: y ^ ≈ 0.647 \hat{y} \approx 0.647 y^≈0.647
- 目标值: y = 0.2 y = 0.2 y=0.2
- 误差: 0.647 − 0.2 = 0.447 0.647 - 0.2 = 0.447 0.647−0.2=0.447
说明:图中显示的
0.2是目标值(标签),而非计算结果。通过反向传播和梯度下降,不断调整权重,使预测输出逐渐接近目标值。
输出预测
- Token 预测:模型预测下一个 token 的概率分布。
- 概率选择:以概率最高的结果作为输出。例如预测
a、b、c的概率分别为0.8、0.15、0.05,则选择a作为输出。
推理流程
基于 token 预测下个输出 -> 结合已预测的 token 为输入,重复流程 -> 生成回复文本
蒸馏(Distillation)
和词义类似,去除杂质,只留下精华部分。
- 将较大的教师模型(Teacher Model)的知识传授给更小的学生模型(Student Model)。
- 在规模缩小的同时,尽量保留与大模型近似的准确率和性能。
为什么需要蒸馏?
- 降低计算成本:使模型需要更少的参数和算力。
- 提高推理速度:小模型推理更快。
- 减少设备依赖:使低配置设备也能部署高质量模型。
蒸馏方法:
- 软标签蒸馏:学习大模型的输出概率分布,而非仅学习最终答案。
- 特征蒸馏:学习大模型中间层的特征表示。
参数
参数是模型训练后存储的经验和知识。
本质:
- 参数是记忆存储单元和决策规则的数字化表示,训练后的经验。
- 代表知识点的权重,类似神经元连接的强度。
- 本质上存储的是数字(浮点数)。
作用:
- 决定输入到输出的激活路径(类似神经元链路,根据输入调整输出)。
- 存储从训练数据中学到的规律和模式。
意义:
- 参数量越大,模型的理论上限越高。
- 但参数量并非唯一指标,模型架构和训练数据质量同样重要。
常见规模:7B(70 亿)、13B(130 亿)、70B(700 亿)等。
模型排行测试基准
对模型性能的评估基准。
评估指标:
| 指标 | 说明 |
|---|---|
| GPQA | 评估模型在专业领域(如物理、化学)的知识能力 |
| MMLU | 评估模型的通用知识和跨领域能力 |
| MMLU Pro | 评估模型的抗干扰能力和复杂逻辑推理能力 |
| DROP | 评估模型的数字推理和逻辑运算能力 |
| HumanEval | 评估模型的代码生成和编程能力 |
量化性能:
对模型性能的量化数据。
| 指标 | 说明 | 特点 |
|---|---|---|
| Size | 模型大小 | - |
| Bits-Per-Weight | 比特权重,指模型精度 | 越高越好 |
| PPL | 困惑度(Perplexity),评估模型预测能力 | 越低越好 |
| PP Speed | 提示词处理速度(Prompt Processing) | 越高越好 |
| TG Speed | 文本生成速度(Text Generation) | 越高越好 |
总结
- 预训练:学习语言基础知识(无监督)。
- 监督微调:学习特定任务的问答能力(有监督)。
- 奖励建模:构建评判生成质量的评分系统。
- 强化学习:在评分系统指导下持续优化。
- 神经网络:通过加权求和 + 激活函数实现信号传递。
- 参数:存储训练后的知识和经验。
参考内容
更多推荐



所有评论(0)