大模型相关概念理解 - 模型训练

预训练：学习语言基础知识（无监督）。监督微调：学习特定任务的问答能力（有监督）。奖励建模：构建评判生成质量的评分系统。强化学习：在评分系统指导下持续优化。神经网络：通过加权求和 + 激活函数实现信号传递。参数：存储训练后的知识和经验。

Aliex_git

861人浏览 · 2026-01-19 11:58:49

Aliex_git · 2026-01-19 11:58:49 发布

模型能力分布：

预训练（Pre-Training）

类似书本知识灌输。

将大规模无标注数据喂给模型。
模型学习预测下一个 token（自回归任务）。
基于概率统计进行预测，此时模型无法理解问题并组织语言回答。

核心目标：让模型学习语言的基本规律和世界知识。

监督微调（SFT - Supervised Fine-Tuning）

类似于解题过程，比对标准答案和自己的解答结果。

大模型应用中什么是 SFT（监督微调）？

将标注好的「问题 - 答案」数据喂给模型，建立输入与输出之间的关联。
模型比对自己生成的答案与标准答案，学习更好地完成特定任务。

奖励建模（RM - Reward Modeling）

类似于由人类构建智能评分系统，评分系统去评判答题结果的好坏。
这是构建奖励模型的过程。

奖励模型详解

由人类对模型生成的多个结果进行排序和打分。
基于人类偏好数据训练一个新模型（奖励模型）。
奖励模型用于评价其他模型生成文本的好坏。

奖励模型：是一个独立的 AI 模型，专门用于评判其他模型的生成结果质量。

强化学习（RL - Reinforcement Learning）

类似于习题训练 + 参考答案，逐步接近标准答案的过程。

在奖励模型的指导下，生成更优质的文本。
通过「尝试 - 反馈 - 改进」的循环学习。
奖励模型对生成文本打分，模型根据分数调整策略，以获取更高分数。

核心算法：常用 PPO（Proximal Policy Optimization）等强化学习算法。

分词（Tokenizer）

类似于理解英语短句的过程。

文本预处理：去除多余字符，规范输入内容。
词汇表构建：基于 Tokenization 算法建立词汇表，包含所有 token。
未知词汇处理：将未知词拆分为多个已知子词（Subword）进行理解，减少信息损失。例如将 unhappiness 拆分为 un + happi + ness。
提高模型效率：将文本转换为计算机易处理的数字序列，更高效地理解和处理数据。

常见算法：BPE（Byte Pair Encoding）、WordPiece、SentencePiece 等。

向量（Embedding）

通过向量空间来表达字词之间的关系，方便计算机理解语义。

文本 → 数字的转换过程，称为嵌入（Embedding），相关模型称为 Embedding 模型。
语义相近的内容在向量空间中距离越近。
语义理解：通过向量运算来理解字词含义和联系，如 A - B 得到 C 字词。

经典示例：

$\vec{King} - \vec{Man} + \vec{Woman} \approx \vec{Queen}$

神经网络

核心概念

神经网络的本质是「输入 → 计算 → 预测输出」的过程。

训练阶段：通过调整参数（权重）提高预测准确度。
推理阶段：参数固定，直接使用训练好的模型进行预测。

信号计算

神经网络的运算过程，也是神经元之间信号传递的核心机制。

1. 加权求和（线性变换）：

$a_1 \cdot w_1 + a_2 \cdot w_2 + a_3 \cdot w_3 + b$

$a_i$ ：输入信号。
$w_i$ ：权重参数。
$b$ ：偏置项（可选）。

2. 激活函数（非线性变换）：

以 Sigmoid 函数为例：

$\sigma(z) = \frac{1}{1 + e^{-z}}$

Sigmoid 函数特性：

输出范围： $(0, 1)$ 。
将任意实数映射到 0 ～ 1 之间，常用于二分类问题。
导数： $\sigma'(z) = \sigma(z) \cdot (1 - \sigma(z))$ 。

计算示例

神经网络的前向传播计算过程示例：

输入： $X_1 = 0.5$ ， $X_2 = -0.3$

Step 1：计算隐藏层输入（加权求和）

隐藏节点 1：

$z_1 = X_1 \times w_{11} + X_2 \times w_{21} = 0.5 \times 0.4 + (-0.3) \times 0.9 = 0.2 - 0.27 = -0.07$

隐藏节点 2：

$z_2 = X_1 \times w_{12} + X_2 \times w_{22} = 0.5 \times 0.7 + (-0.3) \times (-0.3) = 0.35 + 0.09 = 0.44$

Step 2：应用 Sigmoid 激活函数

$h_1 = \sigma(z_1) = \frac{1}{1 + e^{0.07}} \approx \frac{1}{1.0725} \approx 0.4825$

$h_2 = \sigma(z_2) = \frac{1}{1 + e^{-0.44}} \approx \frac{1}{1.6440} \approx 0.6083$

Step 3：计算输出层输入

$z_{out} = h_1 \times w_1 + h_2 \times w_2 = 0.4825 \times 0.5 + 0.6083 \times 0.6 = 0.2413 + 0.3650 = 0.6063$

Step 4：应用 Sigmoid 得到最终输出

$\hat{y} = \sigma(z_{out}) = \frac{1}{1 + e^{-0.6063}} \approx \frac{1}{1.5453} \approx 0.647$

结果：

预测输出： $\hat{y} \approx 0.647$
目标值： $y = 0.2$
误差： $0.647 - 0.2 = 0.447$

说明：图中显示的 0.2 是目标值（标签），而非计算结果。通过反向传播和梯度下降，不断调整权重，使预测输出逐渐接近目标值。

输出预测

Token 预测：模型预测下一个 token 的概率分布。
概率选择：以概率最高的结果作为输出。例如预测 a、b、c 的概率分别为 0.8、0.15、0.05，则选择 a 作为输出。

推理流程

基于 token 预测下个输出 -> 结合已预测的 token 为输入，重复流程 -> 生成回复文本

蒸馏（Distillation）

和词义类似，去除杂质，只留下精华部分。

将较大的教师模型（Teacher Model）的知识传授给更小的学生模型（Student Model）。
在规模缩小的同时，尽量保留与大模型近似的准确率和性能。

为什么需要蒸馏？

降低计算成本：使模型需要更少的参数和算力。
提高推理速度：小模型推理更快。
减少设备依赖：使低配置设备也能部署高质量模型。

蒸馏方法：

软标签蒸馏：学习大模型的输出概率分布，而非仅学习最终答案。
特征蒸馏：学习大模型中间层的特征表示。

参数

参数是模型训练后存储的经验和知识。

本质：

参数是记忆存储单元和决策规则的数字化表示，训练后的经验。
代表知识点的权重，类似神经元连接的强度。
本质上存储的是数字（浮点数）。

作用：

决定输入到输出的激活路径（类似神经元链路，根据输入调整输出）。
存储从训练数据中学到的规律和模式。

意义：

参数量越大，模型的理论上限越高。
但参数量并非唯一指标，模型架构和训练数据质量同样重要。

常见规模：7B（70 亿）、13B（130 亿）、70B（700 亿）等。

模型排行测试基准

对模型性能的评估基准。

大模型评测基准榜单

评估指标：

指标	说明
GPQA	评估模型在专业领域（如物理、化学）的知识能力
MMLU	评估模型的通用知识和跨领域能力
MMLU Pro	评估模型的抗干扰能力和复杂逻辑推理能力
DROP	评估模型的数字推理和逻辑运算能力
HumanEval	评估模型的代码生成和编程能力

量化性能：

对模型性能的量化数据。

指标	说明	特点
Size	模型大小	-
Bits-Per-Weight	比特权重，指模型精度	越高越好
PPL	困惑度（Perplexity），评估模型预测能力	越低越好
PP Speed	提示词处理速度（Prompt Processing）	越高越好
TG Speed	文本生成速度（Text Generation）	越高越好