一、发展总览:核心趋势

整个发展过程可概括为 5 个关键转变:

  1. 方向:从「单向建模」(GPT)→「双向建模」(BERT)→「统一建模」(UNILM/T5)

  2. 任务:从「单一任务预训练」→「多任务融合」→「文本到文本大一统」

  3. 泛化:从「依赖微调」→「零样本 / 少样本」(GPT3)→「人类指令对齐」(InstructGPT)

  4. 效率:从「模型增大」(GPT3)→「参数优化」(ALBERT)→「模型蒸馏」(DistillBERT)

  5. 知识:从「纯文本预训练」→「知识融合」(ERNIE 系列)→「图谱增强」(清华 ERNIE)

二、分阶段核心模型详解

第一阶段:预训练的 “可行性验证”(ELMo、GPT)

1. ELMo(2018):上下文依赖表示的先驱
  • 核心思想:基于双向 LSTM(biLM)学习上下文相关的词表示,而非固定词向量(如 Word2Vec)。

  • 下游使用方式:冻结 biLM 权重,将 ELMo 向量与原始词向量拼接,输入下游任务的 RNN。

  • 关键贡献:证明「预训练 + 下游适配」是通用的性能提升手段,首次凸显 “上下文依赖” 的重要性。

2. GPT(2018):Transformer 的首次成功应用
  • 核心创新:早于 BERT,采用「单向 Transformer」(左到右)作为核心编码器,而非 LSTM。
  • 训练方式:无监督预训练(语言模型)+ 有监督微调(下游任务),引入特殊 token 连接不同句子。
  • 关键结论:实验证实「Transformer 优于 LSTM」,明确预训练对判别式任务的有效性。

第二阶段:双向建模的 “革命”(BERT)

BERT(2018):预训练成为 NLP 的 “起跑线”
  • 核心创新

    1. MLM(掩码语言模型):随机掩码 15% 的 token,让模型预测掩码内容,实现双向上下文学习(区别于 GPT 的单向)。

    2. NSP(下一句预测):判断两句话是否为连续上下文,增强语义连贯性建模。

  • 关键实验:对比 “无 NSP”“单向 + 无 NSP” 的效果,证明双向预训练(MLM)远优于单向,NSP 任务能提升跨句子理解能力。

  • 行业影响:彻底改变 NLP 范式,后续几乎所有主流模型都基于 “双向 Transformer + 预训练” 框架。

第三阶段:知识增强与本地化优化(ERNIE 系列)

1. 百度 ERNIE:中文任务与知识融合
  • 核心改进:掩码策略升级 —— 从「随机掩码 token」→「掩码实体 / 词组」(如 “哈利・波特” 整体掩码),隐式融入句法和语义知识。

  • 优势:在中文数据集(XNLI、LCQMC、MSRA-NER 等)上效果全面超越 BERT,支持知识问答(完形填空式)。

  • 局限:依赖语言特定的实体 / 词组知识,对未知语言适用性差。

2. 清华 ERNIE:知识图谱融合
  • 核心创新:融合知识图谱,引入实体 Embedding,下游任务新增「实体分类」「关系分类」的特殊 token(如 [ENT]、[HD]/[TL])。

  • 关键结论:额外知识能帮助模型利用小样本数据,但模型缩小、训练句长缩短,整体效果未达预期,仅图谱相关任务有提升(本质是图谱工作的延伸)。

第四阶段:生成能力与多任务统一(GPT2、UNILM)

1. GPT2(2019):零样本生成的突破
  • 核心特点

    • 延续「单向 Transformer + 语言模型」,模型规模扩大(最大 1542M 参数)、数据量增加。

    • 强调「零样本学习」:无需微调,将所有任务视为文本生成(如翻译任务输入<to-fr> 你好,输出Bonjour)。

  • 关键贡献:证明大规模语言模型可在无显式监督的情况下完成多种任务,文本生成能力达到新高度。

2. UNILM(2019):统一 NLU 与 NLG 任务
  • 核心框架:基于 BERT 结构,同时训练「双向 LM、单向 LM、Seq2Seq LM」,通过注意力掩码控制上下文可见性。

  • 解决痛点:弥补 BERT 在生成式任务(翻译、摘要)的短板,实现 “理解任务(NLU)+ 生成任务(NLG)” 的统一预训练。

第五阶段:长度限制与模型融合(Transformer-XL、XLNet)

核心目标:解决 Transformer 的「输入长度限制」(原生 Transformer 依赖固定长度窗口)
  • Transformer-XL
    1. 「循环机制」:将前一段文本的隐向量传递到后一段,避免重复计算。
    2. 「相对位置编码」:基于 token 间的相对距离编码,而非绝对位置,适配长文本。
  • XLNet
    1. 融合「AR(单向)+ AE(双向)」优点:提出 PLM(排列语言模型),对句子 token 重新排序后单向预测,既保留双向信息,又避免 MLM 的 [mask] 伪标签问题。
    2. 模型结构升级为 Transformer-XL,效果全面超越 BERT 和 Transformer-XL。

第六阶段:效率优化与训练目标创新(RoBERTa、SpanBert、ALBERT、DistillBERT)

1. RoBERTa(2019):BERT 的 “极致调优”
  • 核心改进:不改变 BERT 结构,优化训练策略:

    • 更多数据、更大 batch size、更长训练时间。

    • 去掉 NSP 任务(实验证明效果有限)。

    • 动态改变掩码位置(而非固定掩码)。

  • 关键结论:BERT 存在 “欠训练” 问题,通过调优可匹配甚至超越后续模型,证明 “挖掘旧方法潜力” 的价值。

2. SpanBert(2019):训练目标的创新
  • 核心改进

    • 去掉 NSP,掩码「连续 token 片段」(长度服从几何分布,最大 10 个 token)。

    • 新增「SBO(跨度边界目标)」:通过掩码片段的前后 token + 位置信息预测掩码内容。

  • 关键结论:好的训练目标比单纯增大模型 / 数据更有效,随机片段掩码优于实体 / 词组掩码。

3. ALBERT(2019):参数压缩的典范
  • 核心优化:解决 BERT 参数量过大的问题:

    1. 「嵌入层因式分解」:将 V×H 的嵌入层拆分为 V×E + E×H(V = 词表,H = 隐层,E = 中间维度),参数量大幅减少。

    2. 「跨层参数共享」:共享各层的注意力或前馈网络参数(全部共享时参数量仅 12M)。

    3. 「SOP 替代 NSP」:预测两句话的顺序(而非是否连续),任务更难,效果更好。

  • 局限:前向计算速度未提升(仅训练速度提升),模型仍需足够规模才能保证性能。

4. DistillBERT(2019):模型蒸馏技术
  • 核心思想:让小模型(学生模型)学习大模型(教师模型)的概率分布(而非仅标签),用 KL 散度衡量分布差异(作为损失函数)。

  • 价值:在保证性能损失较小的前提下,压缩模型体积、提升推理速度,适配部署场景。

第七阶段:大一统与极致规模(T5、GPT3)

1. T5(2020):文本到文本的终极框架
  • 核心理念:所有 NLP 任务统一为「文本输入→文本输出」:

    • 分类任务:输入<Classification> 文本→输出「标签」。

    • 翻译任务:输入<Translation ZH-EN> 你好→输出Hello

    • 回归任务:输入<STS-B> 句子1 句子2→输出「相似度分数(字符串)」。

  • 预训练任务:文本损坏(Corruption)—— 随机替换 / 删除文本片段,让模型还原。

  • 关键贡献:实现 NLP 任务的 “大一统”,共享模型结构和损失函数,简化训练流程。

2. GPT3(2020):零样本 / 少样本的巅峰
  • 核心特点

    • 规模极致:1750 亿参数(GPT2 的 116 倍),结构同 GPT2(单向 Transformer)。

    • 放弃微调:提出「预训练 + 零样本 / 单样本 / 少样本」范式,理由是微调数据缺失、泛化性差,人类学习无需多样本。

  • 关键结论:模型规模达到一定阈值后,会涌现出 “上下文学习” 能力,无需显式训练即可完成新任务,逼近人类的灵活学习能力。

第八阶段:对齐人类意图(InstructGPT、RLHF)

核心目标:从 “文本续写” 到 “理解并执行人类指令”
  • 训练流程(RLHF)

    1. 「预训练」:基础语言模型预训练(同 GPT3)。

    2. 「指令微调(SFT)」:用人类指令 - 回答数据微调,让模型生成符合指令的输出(如 “纠正语法错误”)。

    3. 「奖励模型(RM)」:训练模型对生成结果打分(符合人类偏好的得分高)。

    4. 「策略模型(RL)」:基于奖励模型的反馈,用强化学习优化生成策略。

  • 关键改进:传统模型(如 GPT3)可能 “续写无意义内容”,而 InstructGPT 能精准响应人类指令(如纠正错误、创作内容),实现 “对齐人类意图”。

三、发展总结

预训练模型的演进本质是「不断逼近人类语言能力」的过程:

  1. 技术层面:从单向→双向→多任务统一,从纯文本→知识融合,从依赖微调→零样本 / 少样本,从规模增大→效率优化。

  2. 核心逻辑:预训练负责 “积累通用知识”,下游适配负责 “落地具体任务”,最终目标是让模型具备「灵活、通用、贴合人类需求」的语言能力。

  3. 未来方向:更小的模型体积、更高的效率、更强的知识融合能力、更精准的人类意图对齐,以及跨模态(文本 + 图像 / 语音)的统一预训练。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐