【建议收藏】大模型预训练全流程：从小白到专家的进阶之路

文章系统介绍大模型预训练全流程，包括Transformer架构设计、分词器选择、高质量数据收集与处理、训练参数优化等关键技术环节。详细阐述语言建模任务作为预训练基础，以及如何通过数据清洗、混合和分词提升模型性能。同时强调学习大模型技术的重要性和就业前景，提供从基础理论到实战应用的学习路径，帮助读者掌握AI时代的核心技能。

大模型玩家

771人浏览 · 2025-09-21 07:30:00

大模型玩家 · 2025-09-21 07:30:00 发布

一、预训练简介

1、大模型的构建流程

大规模无标注数据预训练+指令微调+对齐。

2、预训练是大模型构建的基础环节

3、大模型预训练任务

1）语言建模 (Language Modeling)

= Next Token Prediction下一个词元预测。
形式化：给定一个词元序列w_{1} ， w_{2} ， \dotsc ， w_{i - 1} ，进行最大似然估计，预测下一个词元w_{i}。

2）语言建模对预训练的意义

形式通用、便于扩展，因而可以采集到足量数据。
当预训练数据足够丰富时，大语言模型便能够学习到自然语言的生成规律与表达模式。
通过对词元更精准的预测，模型就可以更好地理解文本、建模世界语义知识。

二、预训练过程

1、确定模型结构

1）Tranformer解码器架构

主流大模型均采用Transformer架构

Transformer是由多层的多头自注意力(Multi-head Self-attention)模块堆叠而成的神经网络模型

大模型均采用Transformer解码器架构

原始的Transformer模型由编码器和解码器两个部分构成，而由于解码器架构对于任务的可扩展性，即生成式模型的语言建模任务和解码器适配，便于模型和数据的扩张。

2）Llama

不同大模型仅在局部有所区别，以Llama[1]为例，相比原Transformer架构，加入了以下结构：

Grouped Query Attention(GQA)分组查询注意力

减少存储键和值的内存开销，提高推理效率。

RMS Normalization均方根标准化

提高计算效率和训练的稳定性。

SwiGLU激活函数

以计算为代价优化结果。

3）Meta-Llama-3-8B

从huggingface下载Meta-Llama-3-8B，配置文件config.json：

config. json即定义了模型参数，对关键参数解释如下：

architectures: LlamaForCausalLM //CausalLM即语言建模的预训练任务
model type: llama,//从huggingface库加载lLLaMA模型结构
hidden size:4096,//隐藏层大小
intermediate size:14336,//每个隐藏层中间层的大小
num attention heads:32,//注意力头数
num hidden layers:32,//隐藏层数
vocab size:128256//词表大小

2、确定分词器：Llama3分词器

1）分词器Tokenizer

基于tiktoken分词器。

采用BPE字节对编码 (Byte-Pair Encoding) 算法。

2）词表

大小：128256
包含特殊token

<| begin of text|>序列开始

<| end of text|>序列结束

未知token

3、数据准备

高质量预训练数据的准备包括数据收集、数据清洗、数据混合、分词。

预训练数据的数量、质量和多样性对于模型性能具有重要影响。

三代Llama逐步提高预训练数据的数量和质量，性能提升显著。

1）数据收集

常见预训练数据集
通用文本数据：训练语言理解和生成能力、通用知识

CommonCrawl[67%]: 从互联网上爬取的网页数据，多样、非结构化。

C4[15%]: 基于CommonCrawl进行了过滤，文本质量更高、更干净。

专业文本数据：扩充专业知识，提升任务解决能力

Github[4.5%]: 代码。

Wikipedia [4.5%]: 知识、且结构化。

Gutenberg and Books3[4.5%]: 书籍。

ArXiv[2.5%]: 学术论文。

Stack Exchange[2%]: 高质量问答，涵盖计算机科学、化学等多样领域。

2）清洗与混合

数据清洗：为了提高文本质量，需要一套数据清洗流程和方法，包括
过滤

质量过滤：过滤低质量文本

脱敏：删除含个人隐私的数据、有毒内容等

HTML处理：去除 tag提取文本、部分文本保留结构信息等
去重

去除重复文本：包括不同文档、文档内部、不同行等层级
数据混合：确定预训练数据组合中不同数据源的比例[1]
知识分类：对文本进行知识分类，以确定不同类别（例如艺术和娱乐）文本的比例
在小参数量下进行试验得到较优比例：经过实验，Llama3选择的数据混合比例为大约50%通用知识、25%的数学和推理、17%的代码和8%的多语言
分词：将原始文本分割成模型可识别和建模的词元 (token)序列，作为大语言模型的输入数据。

4、训练参数设置

与传统神经网络的优化类似，大模型训练通常使用批次梯度下降算法来进行模型参数的更新，因此，训练参数对模型结果影响大。

关键参数包括批次大小、学习率及其调整策略、优化器及其参数、稳定训练技术等等。

下表展示了现有大语言模型的详细优化设置。

1）批次大小 (Batch Size)

在大模型预训练中，通常将批次大小设置为较大的数值，例如1M到4M个词元，从而提高训练的稳定性和吞吐量。

动态批次调整策略：在训练过程中逐渐增加批次大小，最终达到百万级别。

2）学习率 (Learning Rate)

预热阶段：通常采用线性预热策略，学习率将从一个非常小的数值（例如0或者1 × 1 0^{ - 8})线性平稳增加，直到达到预设的最大阈值，一般占整个训练步骤的0.1%至0.5%。
衰减阶段：达到最大阈值之后学习率会开始逐渐衰减，以避免在较优点附近来回震荡。最后，学习率一般会衰减到其最大阈值的10%。常见的衰减策略有线性衰减，余弦衰减，平方根倒数衰减等。

3）优化器 (Optimizer)

常用Adam,AdamW：在优化中引入了三个超参数，在大模型训练中通常采用以下设置：β1=0.9，β2=0.95和epsilon = 1 0^{ - 8}。
β1，β2分别表示一阶矩估计和二阶矩估计的指数衰减率。一阶矩估计和二阶矩估计用于计算梯度的移动平均值和平方的移动平均值，这两个参数的值决定了这两个移动平均值的更新速度；∈防止除以0。

4）稳定训练技术