AI人工智能-大模型的演进-第十一周（上）（小白）

技术层面：从单向→双向→多任务统一，从纯文本→知识融合，从依赖微调→零样本 / 少样本，从规模增大→效率优化。核心逻辑：预训练负责 “积累通用知识”，下游适配负责 “落地具体任务”，最终目标是让模型具备「灵活、通用、贴合人类需求」的语言能力。未来方向：更小的模型体积、更高的效率、更强的知识融合能力、更精准的人类意图对齐，以及跨模态（文本 + 图像 / 语音）的统一预训练。

独孤--蝴蝶

290人浏览 · 2025-12-27 10:58:12

独孤--蝴蝶 · 2025-12-27 10:58:12 发布

一、发展总览：核心趋势

整个发展过程可概括为 5 个关键转变：

方向：从「单向建模」（GPT）→「双向建模」（BERT）→「统一建模」（UNILM/T5）
任务：从「单一任务预训练」→「多任务融合」→「文本到文本大一统」
泛化：从「依赖微调」→「零样本 / 少样本」（GPT3）→「人类指令对齐」（InstructGPT）
效率：从「模型增大」（GPT3）→「参数优化」（ALBERT）→「模型蒸馏」（DistillBERT）
知识：从「纯文本预训练」→「知识融合」（ERNIE 系列）→「图谱增强」（清华 ERNIE）

二、分阶段核心模型详解

第一阶段：预训练的 “可行性验证”（ELMo、GPT）

1. ELMo（2018）：上下文依赖表示的先驱

核心思想：基于双向 LSTM（biLM）学习上下文相关的词表示，而非固定词向量（如 Word2Vec）。
下游使用方式：冻结 biLM 权重，将 ELMo 向量与原始词向量拼接，输入下游任务的 RNN。
关键贡献：证明「预训练 + 下游适配」是通用的性能提升手段，首次凸显 “上下文依赖” 的重要性。

2. GPT（2018）：Transformer 的首次成功应用

核心创新：早于 BERT，采用「单向 Transformer」（左到右）作为核心编码器，而非 LSTM。
训练方式：无监督预训练（语言模型）+ 有监督微调（下游任务），引入特殊 token 连接不同句子。
关键结论：实验证实「Transformer 优于 LSTM」，明确预训练对判别式任务的有效性。

第二阶段：双向建模的 “革命”（BERT）

BERT（2018）：预训练成为 NLP 的 “起跑线”

核心创新：
1. MLM（掩码语言模型）：随机掩码 15% 的 token，让模型预测掩码内容，实现双向上下文学习（区别于 GPT 的单向）。
2. NSP（下一句预测）：判断两句话是否为连续上下文，增强语义连贯性建模。
关键实验：对比 “无 NSP”“单向 + 无 NSP” 的效果，证明双向预训练（MLM）远优于单向，NSP 任务能提升跨句子理解能力。
行业影响：彻底改变 NLP 范式，后续几乎所有主流模型都基于 “双向 Transformer + 预训练” 框架。

第三阶段：知识增强与本地化优化（ERNIE 系列）

1. 百度 ERNIE：中文任务与知识融合

核心改进：掩码策略升级 —— 从「随机掩码 token」→「掩码实体 / 词组」（如 “哈利・波特” 整体掩码），隐式融入句法和语义知识。
优势：在中文数据集（XNLI、LCQMC、MSRA-NER 等）上效果全面超越 BERT，支持知识问答（完形填空式）。
局限：依赖语言特定的实体 / 词组知识，对未知语言适用性差。

2. 清华 ERNIE：知识图谱融合

核心创新：融合知识图谱，引入实体 Embedding，下游任务新增「实体分类」「关系分类」的特殊 token（如 [ENT]、[HD]/[TL]）。
关键结论：额外知识能帮助模型利用小样本数据，但模型缩小、训练句长缩短，整体效果未达预期，仅图谱相关任务有提升（本质是图谱工作的延伸）。

第四阶段：生成能力与多任务统一（GPT2、UNILM）

1. GPT2（2019）：零样本生成的突破

核心特点：
- 延续「单向 Transformer + 语言模型」，模型规模扩大（最大 1542M 参数）、数据量增加。
- 强调「零样本学习」：无需微调，将所有任务视为文本生成（如翻译任务输入<to-fr> 你好，输出Bonjour）。
关键贡献：证明大规模语言模型可在无显式监督的情况下完成多种任务，文本生成能力达到新高度。

2. UNILM（2019）：统一 NLU 与 NLG 任务

核心框架：基于 BERT 结构，同时训练「双向 LM、单向 LM、Seq2Seq LM」，通过注意力掩码控制上下文可见性。
解决痛点：弥补 BERT 在生成式任务（翻译、摘要）的短板，实现 “理解任务（NLU）+ 生成任务（NLG）” 的统一预训练。

第五阶段：长度限制与模型融合（Transformer-XL、XLNet）

核心目标：解决 Transformer 的「输入长度限制」（原生 Transformer 依赖固定长度窗口）

Transformer-XL：
1. 「循环机制」：将前一段文本的隐向量传递到后一段，避免重复计算。
2. 「相对位置编码」：基于 token 间的相对距离编码，而非绝对位置，适配长文本。
XLNet：
1. 融合「AR（单向）+ AE（双向）」优点：提出 PLM（排列语言模型），对句子 token 重新排序后单向预测，既保留双向信息，又避免 MLM 的 [mask] 伪标签问题。
2. 模型结构升级为 Transformer-XL，效果全面超越 BERT 和 Transformer-XL。

第六阶段：效率优化与训练目标创新（RoBERTa、SpanBert、ALBERT、DistillBERT）

1. RoBERTa（2019）：BERT 的 “极致调优”

核心改进：不改变 BERT 结构，优化训练策略：
- 更多数据、更大 batch size、更长训练时间。
- 去掉 NSP 任务（实验证明效果有限）。
- 动态改变掩码位置（而非固定掩码）。
关键结论：BERT 存在 “欠训练” 问题，通过调优可匹配甚至超越后续模型，证明 “挖掘旧方法潜力” 的价值。

2. SpanBert（2019）：训练目标的创新

核心改进：
- 去掉 NSP，掩码「连续 token 片段」（长度服从几何分布，最大 10 个 token）。
- 新增「SBO（跨度边界目标）」：通过掩码片段的前后 token + 位置信息预测掩码内容。
关键结论：好的训练目标比单纯增大模型 / 数据更有效，随机片段掩码优于实体 / 词组掩码。

3. ALBERT（2019）：参数压缩的典范

核心优化：解决 BERT 参数量过大的问题：
1. 「嵌入层因式分解」：将 V×H 的嵌入层拆分为 V×E + E×H（V = 词表，H = 隐层，E = 中间维度），参数量大幅减少。
2. 「跨层参数共享」：共享各层的注意力或前馈网络参数（全部共享时参数量仅 12M）。
3. 「SOP 替代 NSP」：预测两句话的顺序（而非是否连续），任务更难，效果更好。
局限：前向计算速度未提升（仅训练速度提升），模型仍需足够规模才能保证性能。

4. DistillBERT（2019）：模型蒸馏技术

核心思想：让小模型（学生模型）学习大模型（教师模型）的概率分布（而非仅标签），用 KL 散度衡量分布差异（作为损失函数）。
价值：在保证性能损失较小的前提下，压缩模型体积、提升推理速度，适配部署场景。

第七阶段：大一统与极致规模（T5、GPT3）

1. T5（2020）：文本到文本的终极框架

核心理念：所有 NLP 任务统一为「文本输入→文本输出」：
- 分类任务：输入<Classification> 文本→输出「标签」。
- 翻译任务：输入<Translation ZH-EN> 你好→输出Hello。
- 回归任务：输入<STS-B> 句子1 句子2→输出「相似度分数（字符串）」。
预训练任务：文本损坏（Corruption）—— 随机替换 / 删除文本片段，让模型还原。
关键贡献：实现 NLP 任务的 “大一统”，共享模型结构和损失函数，简化训练流程。

2. GPT3（2020）：零样本 / 少样本的巅峰

核心特点：
- 规模极致：1750 亿参数（GPT2 的 116 倍），结构同 GPT2（单向 Transformer）。
- 放弃微调：提出「预训练 + 零样本 / 单样本 / 少样本」范式，理由是微调数据缺失、泛化性差，人类学习无需多样本。
关键结论：模型规模达到一定阈值后，会涌现出 “上下文学习” 能力，无需显式训练即可完成新任务，逼近人类的灵活学习能力。

第八阶段：对齐人类意图（InstructGPT、RLHF）

核心目标：从 “文本续写” 到 “理解并执行人类指令”

训练流程（RLHF）：
1. 「预训练」：基础语言模型预训练（同 GPT3）。
2. 「指令微调（SFT）」：用人类指令 - 回答数据微调，让模型生成符合指令的输出（如 “纠正语法错误”）。
3. 「奖励模型（RM）」：训练模型对生成结果打分（符合人类偏好的得分高）。
4. 「策略模型（RL）」：基于奖励模型的反馈，用强化学习优化生成策略。
关键改进：传统模型（如 GPT3）可能 “续写无意义内容”，而 InstructGPT 能精准响应人类指令（如纠正错误、创作内容），实现 “对齐人类意图”。

三、发展总结

预训练模型的演进本质是「不断逼近人类语言能力」的过程：

技术层面：从单向→双向→多任务统一，从纯文本→知识融合，从依赖微调→零样本 / 少样本，从规模增大→效率优化。
核心逻辑：预训练负责 “积累通用知识”，下游适配负责 “落地具体任务”，最终目标是让模型具备「灵活、通用、贴合人类需求」的语言能力。
未来方向：更小的模型体积、更高的效率、更强的知识融合能力、更精准的人类意图对齐，以及跨模态（文本 + 图像 / 语音）的统一预训练。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

2025最新！专科生必看8个AI论文平台测评，毕业论文这样写轻松过关

2048 AI社区

根据大模型结构参数计算大模型总参数量

本文详细拆解了Transformer模型的参数量计算。以一个标准配置（d_model=512, 8头注意力,d_ff=2048）为例，单层Transformer包含：自注意力部分（Q/K/V和输出投影）共1,048,576参数，FFN部分（两个全连接层）共2,097,152参数，LayerNorm仅2,048参数。结果表明FFN占比约67%，是参数主要来源。扩展到BERT-base（d_model