AI-大语言模型LLM-概念术语-Causal LM
也称为。
目的
为避免一学就会、一用就废,这里做下笔记
内容
Causal LM(因果语言模型)
核心定义
Causal LM,也称为自回归语言模型,是一种只关注单向上下文的语言模型。在预测下一个词时,它只能看到前面的词,不能看到后面的词。
技术特点
输入: "今天天气很"
预测下一个词时,只能看到: [今天][天气][很]
不能看到后面的任何信息
输出预测: "好"、"晴朗"、"糟糕"等
数学表示
对于序列 (x1,x2,...,xT( x_1, x_2, ..., x_T(x1,x2,...,xT):
P(xt∣x1,x2,...,xt−1) P(x_t | x_1, x_2, ..., x_{t-1}) P(xt∣x1,x2,...,xt−1)
只依赖前面所有词的条件概率。
与Causal LM互斥的概念
1. Masked LM(掩码语言模型)
这是最直接、最核心的互斥概念。
| 特性 | Causal LM | Masked LM |
|---|---|---|
| 关注方向 | 单向(前向) | 双向上下文 |
| 训练目标 | 预测下一个词 | 预测被遮盖的词 |
| 典型代表 | GPT系列 | BERT, RoBERTa |
| 可否用于生成 | 是(核心用途) | 不适合直接生成 |
| 可否用于分类 | 可以但非最优 | 是(核心用途) |
示例对比:
# Causal LM(GPT风格)
输入: "今天天气很[MASK]" # 模型不知道后面有什么
训练: 预测"好"只能基于"今天天气很"
# Masked LM(BERT风格)
输入: "今天天气很[MASK],适合出去玩"
训练: 预测"好"可以同时看到前面和后面的信息
2. Seq2Seq LM(序列到序列语言模型)
| 特性 | Causal LM | Seq2Seq LM |
|---|---|---|
| 架构 | 单一Transformer解码器 | 编码器-解码器双结构 |
| 上下文 | 只关注源序列前缀 | 编码器看全部源序列,解码器自回归 |
| 典型代表 | GPT, LLaMA | T5, BART, 原始Transformer |
| 训练目标 | 语言建模 | 条件文本生成 |
具体技术细节对比
注意力掩码的区别
# Causal LM的注意力掩码(下三角矩阵)
[[1, 0, 0, 0], # 第一个词只能看自己
[1, 1, 0, 0], # 第二个词能看到前两个
[1, 1, 1, 0], # 第三个词能看到前三个
[1, 1, 1, 1]] # 第四个词能看到全部前面
# Masked LM的注意力掩码(全连接,除了MASK位置)
[[1, 1, 1, 1, 1, 1],
[1, 1, 1, 1, 1, 1],
[1, 1, 1, 0, 1, 1], # MASK位置不能看自己,但能看其他所有
[1, 1, 1, 1, 1, 1],
[1, 1, 1, 1, 1, 1],
[1, 1, 1, 1, 1, 1]]
训练目标函数
Causal LM损失(下一个词预测)
loss=−∑logP(xt∣x<t)loss = -∑ log P(x_t | x_{<t})loss=−∑logP(xt∣x<t)
Masked LM损失(完形填空)
loss=−∑logP(xmasked∣xvisible)loss = -∑ log P(x_{masked} | x_{visible})loss=−∑logP(xmasked∣xvisible)
只计算被遮盖位置的损失
实际应用场景
适合Causal LM的任务 ✅
- 文本生成:故事创作、代码生成、对话生成
- 文本补全:IDE代码补全、邮件补全
- 开放式问答:需要连贯、创造性回答
- 语音识别后处理:语言模型重打分
不适合Causal LM的任务 ❌(更适合Masked LM或Seq2Seq)
- 文本分类:情感分析、主题分类(更适合BERT)
- 命名实体识别:需要全局上下文理解
- 文本相似度:需要双向编码
- 信息抽取:需要理解全文关系
大模型发展趋势
1. 统一架构趋势
现代大模型趋向于多功能统一:
- GPT-3/4, LLaMA:纯Causal LM,但通过指令微调获得多种能力
- T5:将所有任务转化为Seq2Seq格式
- UniLM, GLM:混合架构,训练时支持多种注意力模式
2. 从预训练到微调
# 现代典型流程
预训练阶段:Causal LM(在大规模文本上) → 获得通用语言能力
微调阶段:指令微调/对齐 → 获得遵循指令和多任务能力
3. 前沿模型的混合策略
# 如GPT-4的技术报告暗示
训练时:可能使用多种训练目标混合
推理时:表现为纯Causal LM,但内部有复杂机制
关键结论
-
Causal LM的核心:单向自回归,这是与Masked LM(双向) 最根本的互斥点
-
不是绝对的互斥:现代模型可以通过微调获得对方的一些能力
-
选择依据:
- 如果需要生成文本:选择Causal LM架构(GPT, LLaMA)
- 如果需要理解/分类文本:选择Masked LM架构(BERT)
- 如果需要翻译/摘要:选择Seq2Seq架构(T5, BART)
-
大模型的现状:主流大语言模型(GPT, LLaMA, PaLM)都是基于Causal LM预训练的,然后通过指令微调获得通用能力,这已经成为行业标准范式。
简单说:Causal LM ≈ 生成模型,Masked LM ≈ 理解模型,两者在预训练阶段是互斥的设计选择,但在应用阶段可以通过技巧互相借鉴。
更多推荐


所有评论(0)