模型能力分布:

预训练(Pre-Training)

类似书本知识灌输。

  • 将大规模无标注数据喂给模型。
  • 模型学习预测下一个 token(自回归任务)。
  • 基于概率统计进行预测,此时模型无法理解问题并组织语言回答。

核心目标:让模型学习语言的基本规律和世界知识。

监督微调(SFT - Supervised Fine-Tuning)

类似于解题过程,比对标准答案和自己的解答结果。

大模型应用中什么是 SFT(监督微调)?

  • 将标注好的「问题 - 答案」数据喂给模型,建立输入与输出之间的关联。
  • 模型比对自己生成的答案与标准答案,学习更好地完成特定任务。

奖励建模(RM - Reward Modeling)

类似于由人类构建智能评分系统,评分系统去评判答题结果的好坏。
这是构建奖励模型的过程。

奖励模型详解

  • 由人类对模型生成的多个结果进行排序和打分。
  • 基于人类偏好数据训练一个新模型(奖励模型)。
  • 奖励模型用于评价其他模型生成文本的好坏。

奖励模型:是一个独立的 AI 模型,专门用于评判其他模型的生成结果质量。

强化学习(RL - Reinforcement Learning)

类似于习题训练 + 参考答案,逐步接近标准答案的过程。

  • 在奖励模型的指导下,生成更优质的文本。
  • 通过「尝试 - 反馈 - 改进」的循环学习。
  • 奖励模型对生成文本打分,模型根据分数调整策略,以获取更高分数。

核心算法:常用 PPO(Proximal Policy Optimization)等强化学习算法。

分词(Tokenizer)

类似于理解英语短句的过程。

  • 文本预处理:去除多余字符,规范输入内容。
  • 词汇表构建:基于 Tokenization 算法建立词汇表,包含所有 token。
  • 未知词汇处理:将未知词拆分为多个已知子词(Subword)进行理解,减少信息损失。例如将 unhappiness 拆分为 un + happi + ness
  • 提高模型效率:将文本转换为计算机易处理的数字序列,更高效地理解和处理数据。

常见算法:BPE(Byte Pair Encoding)、WordPiece、SentencePiece 等。

向量(Embedding)

通过向量空间来表达字词之间的关系,方便计算机理解语义。

  • 文本 → 数字的转换过程,称为嵌入(Embedding),相关模型称为 Embedding 模型。
  • 语义相近的内容在向量空间中距离越近。
  • 语义理解:通过向量运算来理解字词含义和联系,如 A - B 得到 C 字词。

经典示例

K i n g ⃗ − M a n ⃗ + W o m a n ⃗ ≈ Q u e e n ⃗ \vec{King} - \vec{Man} + \vec{Woman} \approx \vec{Queen} King Man +Woman Queen

神经网络

核心概念

神经网络的本质是「输入 → 计算 → 预测输出」的过程。

  • 训练阶段:通过调整参数(权重)提高预测准确度。
  • 推理阶段:参数固定,直接使用训练好的模型进行预测。

信号计算

神经网络的运算过程,也是神经元之间信号传递的核心机制。

1. 加权求和(线性变换)

z = a 1 ⋅ w 1 + a 2 ⋅ w 2 + a 3 ⋅ w 3 + b z = a_1 \cdot w_1 + a_2 \cdot w_2 + a_3 \cdot w_3 + b z=a1w1+a2w2+a3w3+b

  • a i a_i ai:输入信号。
  • w i w_i wi:权重参数。
  • b b b:偏置项(可选)。

2. 激活函数(非线性变换)

以 Sigmoid 函数为例:

y = σ ( z ) = 1 1 + e − z y = \sigma(z) = \frac{1}{1 + e^{-z}} y=σ(z)=1+ez1

Sigmoid 函数特性

  • 输出范围: ( 0 , 1 ) (0, 1) (0,1)
  • 将任意实数映射到 0 ~ 1 之间,常用于二分类问题。
  • 导数: σ ′ ( z ) = σ ( z ) ⋅ ( 1 − σ ( z ) ) \sigma'(z) = \sigma(z) \cdot (1 - \sigma(z)) σ(z)=σ(z)(1σ(z))
计算示例

神经网络的前向传播计算过程示例:

输入 X 1 = 0.5 X_1 = 0.5 X1=0.5 X 2 = − 0.3 X_2 = -0.3 X2=0.3

Step 1:计算隐藏层输入(加权求和)

隐藏节点 1:

z 1 = X 1 × w 11 + X 2 × w 21 = 0.5 × 0.4 + ( − 0.3 ) × 0.9 = 0.2 − 0.27 = − 0.07 z_1 = X_1 \times w_{11} + X_2 \times w_{21} = 0.5 \times 0.4 + (-0.3) \times 0.9 = 0.2 - 0.27 = -0.07 z1=X1×w11+X2×w21=0.5×0.4+(0.3)×0.9=0.20.27=0.07

隐藏节点 2:

z 2 = X 1 × w 12 + X 2 × w 22 = 0.5 × 0.7 + ( − 0.3 ) × ( − 0.3 ) = 0.35 + 0.09 = 0.44 z_2 = X_1 \times w_{12} + X_2 \times w_{22} = 0.5 \times 0.7 + (-0.3) \times (-0.3) = 0.35 + 0.09 = 0.44 z2=X1×w12+X2×w22=0.5×0.7+(0.3)×(0.3)=0.35+0.09=0.44

Step 2:应用 Sigmoid 激活函数

h 1 = σ ( z 1 ) = 1 1 + e 0.07 ≈ 1 1.0725 ≈ 0.4825 h_1 = \sigma(z_1) = \frac{1}{1 + e^{0.07}} \approx \frac{1}{1.0725} \approx 0.4825 h1=σ(z1)=1+e0.0711.072510.4825

h 2 = σ ( z 2 ) = 1 1 + e − 0.44 ≈ 1 1.6440 ≈ 0.6083 h_2 = \sigma(z_2) = \frac{1}{1 + e^{-0.44}} \approx \frac{1}{1.6440} \approx 0.6083 h2=σ(z2)=1+e0.4411.644010.6083

Step 3:计算输出层输入

z o u t = h 1 × w 1 + h 2 × w 2 = 0.4825 × 0.5 + 0.6083 × 0.6 = 0.2413 + 0.3650 = 0.6063 z_{out} = h_1 \times w_1 + h_2 \times w_2 = 0.4825 \times 0.5 + 0.6083 \times 0.6 = 0.2413 + 0.3650 = 0.6063 zout=h1×w1+h2×w2=0.4825×0.5+0.6083×0.6=0.2413+0.3650=0.6063

Step 4:应用 Sigmoid 得到最终输出

y ^ = σ ( z o u t ) = 1 1 + e − 0.6063 ≈ 1 1.5453 ≈ 0.647 \hat{y} = \sigma(z_{out}) = \frac{1}{1 + e^{-0.6063}} \approx \frac{1}{1.5453} \approx 0.647 y^=σ(zout)=1+e0.606311.545310.647

结果

  • 预测输出 y ^ ≈ 0.647 \hat{y} \approx 0.647 y^0.647
  • 目标值 y = 0.2 y = 0.2 y=0.2
  • 误差 0.647 − 0.2 = 0.447 0.647 - 0.2 = 0.447 0.6470.2=0.447

说明:图中显示的 0.2 是目标值(标签),而非计算结果。通过反向传播和梯度下降,不断调整权重,使预测输出逐渐接近目标值。

输出预测

  • Token 预测:模型预测下一个 token 的概率分布。
  • 概率选择:以概率最高的结果作为输出。例如预测 a、b、c 的概率分别为 0.8、0.15、0.05,则选择 a 作为输出。

推理流程

基于 token 预测下个输出 -> 结合已预测的 token 为输入,重复流程 -> 生成回复文本

蒸馏(Distillation)

和词义类似,去除杂质,只留下精华部分。

  • 将较大的教师模型(Teacher Model)的知识传授给更小的学生模型(Student Model)。
  • 在规模缩小的同时,尽量保留与大模型近似的准确率和性能

为什么需要蒸馏?

  • 降低计算成本:使模型需要更少的参数和算力。
  • 提高推理速度:小模型推理更快。
  • 减少设备依赖:使低配置设备也能部署高质量模型。

蒸馏方法

  • 软标签蒸馏:学习大模型的输出概率分布,而非仅学习最终答案。
  • 特征蒸馏:学习大模型中间层的特征表示。

参数

参数是模型训练后存储的经验和知识。

本质

  • 参数是记忆存储单元和决策规则的数字化表示,训练后的经验。
  • 代表知识点的权重,类似神经元连接的强度。
  • 本质上存储的是数字(浮点数)。

作用

  • 决定输入到输出的激活路径(类似神经元链路,根据输入调整输出)。
  • 存储从训练数据中学到的规律和模式。

意义

  • 参数量越大,模型的理论上限越高。
  • 但参数量并非唯一指标,模型架构和训练数据质量同样重要。

常见规模:7B(70 亿)、13B(130 亿)、70B(700 亿)等。

模型排行测试基准

对模型性能的评估基准。

大模型评测基准榜单

评估指标

指标 说明
GPQA 评估模型在专业领域(如物理、化学)的知识能力
MMLU 评估模型的通用知识和跨领域能力
MMLU Pro 评估模型的抗干扰能力和复杂逻辑推理能力
DROP 评估模型的数字推理和逻辑运算能力
HumanEval 评估模型的代码生成和编程能力

量化性能

对模型性能的量化数据。

指标 说明 特点
Size 模型大小 -
Bits-Per-Weight 比特权重,指模型精度 越高越好
PPL 困惑度(Perplexity),评估模型预测能力 越低越好
PP Speed 提示词处理速度(Prompt Processing) 越高越好
TG Speed 文本生成速度(Text Generation) 越高越好

总结

  • 预训练:学习语言基础知识(无监督)。
  • 监督微调:学习特定任务的问答能力(有监督)。
  • 奖励建模:构建评判生成质量的评分系统。
  • 强化学习:在评分系统指导下持续优化。
  • 神经网络:通过加权求和 + 激活函数实现信号传递。
  • 参数:存储训练后的知识和经验。

参考内容

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐