第三章 预训练语言模型   datawhale ai 共学

3.3 Decoder-Only PLM


3 . 3 Decoder-Only PLM —— LLM 现实形态

为什么单用 Decoder?
掩码式 MLM 的理解能力与 自回归 CLM 的生成能力,二选一时——对于期望“问即答”“随写随算”的应用,时间因果一致的自回归更符合推理流程,也最易扩张到超长上下文和多轮交互。因此,大模型时代几乎清一色采用 Decoder-Only


3 . 3 . 1 共通结构模板  GPT → LLaMA → GLM

组件 设计要点 理解
Tokenizer

BPE/RomanBPE → 更大词表(128 K);

重排高频 token

词表越大,上下文等效 token 数越少,GPU 记忆占用直接降低
Embedding 权重与 LM-Head 同权共享(tie-weight)

减 1/2 参数;

生成质量不受损

Positional Encoding Sinusoidal → RoPE → NTK/Scaled RoPE

旋转式 RoPE 本质是

加法→旋转矩阵,无限外推更稳定

Decoder Block × N Pre-Norm + Masked Self-Attn(GQA/MQA) + SwiGLU-MLP + 残差

Pre-Norm 确保梯度;

GQA=头分簇,推理显存线性减半

全部因果 Mask Aij = -\infty if j>i 训练与推理保持完全对齐
优化 trick

FP16 → BF16,ZeRO3,NVTP;

Sliding KV-cache

“算得起+推得动” 首要可落地条件

3 . 3 . 2 GPT 系列(架构基线)

版本 Block/Hidden 参量 训练数据 突破
GPT-1 (2018) 12 / 768 0.12 B Books 5 GB 首次提出 Generative-Pre-Training + Task-specific Fine-Tuning
GPT-2 (2019) 48 / 1600 1.5 B WebText 40 GB

Zero-shot prompt 能力显性化;

安全争议

GPT-3 (2020) 96 / 12 288 175 B 570 GB 清洗语料

Few-shot / In-Context Learning 涌现

LLM 时代

  • Block 细节:Pre-Norm + Masked-Self-Attn,MLP 用 1D Conv(ℓ=1)。

  • 预任务 CLM:严格自回归;天然对齐推理阶段

  • Decoder-Only 堆叠:每层=Pre-Norm → Masked Self-Attn → MLP(SwiGLU/Conv1D) → Residual

  • 严格因果 Mask:只看历史 token,天然对齐生成推理流程

  • 位置编码:从绝对 Sinusoidal → Rope(GPT-J/-Neo)→ NTK/Scaled Rope(GPT-4o)

  • “规模线性外推”:OpenAI 实验表明,损失近似随 log参数/数据线性下降 → 直接堆算力最稳

GPT 系列用“规模线性外推”证明了 CLM 的潜能——

当参数 ≫ 语义熵时,生成模型的理解能力自然涌现

当参数量跨过 100 B、token 数跨过 1 T 后,损失随 log(规模) 的线性下降曲线突然转好,由此出现推理、数学、编排等涌现能力。GPT-3 之后,“加宽、加深、加数据”成为产业最朴素但最有效的路线。


3 . 3 . 3 LLaMA 系列(开源基准)

版本 规模 训练 token 长度 关键创新
LLaMA-1 (2023 Q1) 7–65 B 1 T 2 K SwiGLU + RMSNorm

LoRA 微调 24 G 显存即可跑

社区友好,轻量开源起点

LLaMA-2 (2023 Q3) 7–70 B 2 T 4 K GQA,改进 Rope

商用友好 license

国产派生模型母体

LLaMA-3 (2024 Q2) 8 B / 70 B 15 T 8 K

128 K BPE;Scaled RoPE;

长上下文调制

8 B 版已追平 13 B~34 B

参数效率惊人

对标 GPT-4 的开源路线图

工程亮点

  1. Grouped-Query Attention:只给少数 Query 分完整 K/V,显存/速度对大 batch 友好

  2. 持续开源:配套推理、量化、QLoRA、RAG Pipeline,一站式低门槛

  3. LLaMA 关注 吞吐/延迟/易微调,成为学术-工业的“乐高件

为什么火?

  • 吞吐 / 显存友好:GQA & Rope 让 8 K context 成本仍可控

  • 授权清晰:研究 & 商用双许可,催生千余微调分支

  • 社区生态:从 LoRA、QLoRA 到 MoE、Agent 工具链的事实标准


3 . 3 . 4 GLM & ChatGLM(中文路线)

早期 GLM 预任务(“先删一块再自回归”)意在统一理解+生成,但在算力面前被纯 CLM 碾压,后续迭代回到主流架构

中文社区的优势在 人力指令对齐 + 开源热情,小体量也能给出良好体验

代际 体量 预任务 架构差异
GLM (2021) 110 M–515 M Span-MLM+CLM (双向+单向) Post-Norm;LM-Head 单线性 理论优雅,实践落后于纯 CLM
ChatGLM-6B (2023 03) 6 B CLM + SFT + RLHF MQA + Rotary 首个可桌面推理中文对话 LLM
ChatGLM-2/3 6 B 加长 32 K,工具调用 Λ Rope,函数执行 中文微调数据精细,QA/逻辑显著提升
GLM-4-9B (2024 06) 9 B 同 GLM-4 128 K Rope,解码器门控 MLP 9 B 体量打平 34–70 B,参数效率大幅跃迁

3 . 3 . 5 Decoder-Only 小结

维度 现状 实战
训练目标

统一使用 Causal LM;

大数据 + 长 context

语料 ≧ 10 T、参数 ≧ 100 B 时出现跨任务涌现
结构演进

Pre-Norm → RMSNorm;

绝对位置 → Rope/NTK;

QKV 收敛到 GQA/MQA

8 K 以上上下文建议 Rope;

消费级推理用 GQA

能力 基座预训练 ⟶ 指令微调 (SFT) ⟶ RLHF / DPO ⟶ 工具调用 中文场景:保留千条高质量指令 ≫ 万条机翻指令
应用 Zero-shot / Few-shot / RAG / Agent 先检索再生成(RAG)可大幅减轻 hallucination
挑战 1) 长文本稳定性 2) 知识时效性 3) 计算/版权成本 层叠 KV-Cache、增量训练、版权过滤 pipeline
  • Decoder-Only 本质=递归下一 token。规模够大,这一简单目标足以蕴含推理、检索、规划等复杂行为

  • Prompt EngineeringIn-Context Learning :把问题拆解为模型能够自回归解答的“诉说过程”

  • 面向落地,“RAG + 轻量微调 + 工具调用”正在成为真正可交付的 LLM Stack


小结
Encoder-Only (BERT)   可复用的「阅读理解」骨架

Encoder-Decoder (T5)   统一任务表述

真正走进大众视野,Decoder-Only:写作、对话、代码、推理……几乎所有交互最终都是 生成连续 token

数据足够、算力充沛, 单向自回归 + 合理工程 trick 是当前 LLM 的最短路径

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐