AI-大语言模型LLM-概念术语-Causal LM

也称为。

shangjian007

576人浏览 · 2026-01-31 16:41:02

shangjian007 · 2026-01-31 16:41:02 发布

目的

为避免一学就会、一用就废，这里做下笔记

内容

Causal LM（因果语言模型）

核心定义

Causal LM，也称为自回归语言模型，是一种只关注单向上下文的语言模型。在预测下一个词时，它只能看到前面的词，不能看到后面的词。

技术特点

输入： "今天天气很"
预测下一个词时，只能看到： [今天][天气][很]
不能看到后面的任何信息
输出预测： "好"、"晴朗"、"糟糕"等

数学表示

对于序列 $x_1, x_2, ..., x_T$ )：
$P(x_t | x_1, x_2, ..., x_{t-1})$
只依赖前面所有词的条件概率。

与Causal LM互斥的概念

1. Masked LM（掩码语言模型）

这是最直接、最核心的互斥概念。

特性	Causal LM	Masked LM
关注方向	单向（前向）	双向上下文
训练目标	预测下一个词	预测被遮盖的词
典型代表	GPT系列	BERT, RoBERTa
可否用于生成	是（核心用途）	不适合直接生成
可否用于分类	可以但非最优	是（核心用途）

示例对比：

# Causal LM（GPT风格）
输入： "今天天气很[MASK]"  # 模型不知道后面有什么
训练： 预测"好"只能基于"今天天气很"

# Masked LM（BERT风格）  
输入： "今天天气很[MASK]，适合出去玩"
训练： 预测"好"可以同时看到前面和后面的信息

2. Seq2Seq LM（序列到序列语言模型）

特性	Causal LM	Seq2Seq LM
架构	单一Transformer解码器	编码器-解码器双结构
上下文	只关注源序列前缀	编码器看全部源序列，解码器自回归
典型代表	GPT, LLaMA	T5, BART, 原始Transformer
训练目标	语言建模	条件文本生成

具体技术细节对比

注意力掩码的区别

# Causal LM的注意力掩码（下三角矩阵）
[[1, 0, 0, 0],  # 第一个词只能看自己
 [1, 1, 0, 0],  # 第二个词能看到前两个
 [1, 1, 1, 0],  # 第三个词能看到前三个
 [1, 1, 1, 1]]  # 第四个词能看到全部前面

# Masked LM的注意力掩码（全连接，除了MASK位置）
[[1, 1, 1, 1, 1, 1],
 [1, 1, 1, 1, 1, 1], 
 [1, 1, 1, 0, 1, 1],  # MASK位置不能看自己，但能看其他所有
 [1, 1, 1, 1, 1, 1],
 [1, 1, 1, 1, 1, 1],
 [1, 1, 1, 1, 1, 1]]

训练目标函数

Causal LM损失（下一个词预测）
$loss = -∑ log P(x_t | x_{<t})$

Masked LM损失（完形填空）
$loss = -∑ log P(x_{masked} | x_{visible})$
只计算被遮盖位置的损失

实际应用场景

适合Causal LM的任务 ✅

文本生成：故事创作、代码生成、对话生成
文本补全：IDE代码补全、邮件补全
开放式问答：需要连贯、创造性回答
语音识别后处理：语言模型重打分

不适合Causal LM的任务 ❌（更适合Masked LM或Seq2Seq）

文本分类：情感分析、主题分类（更适合BERT）
命名实体识别：需要全局上下文理解
文本相似度：需要双向编码
信息抽取：需要理解全文关系

大模型发展趋势

1. 统一架构趋势

现代大模型趋向于多功能统一：

GPT-3/4, LLaMA：纯Causal LM，但通过指令微调获得多种能力
T5：将所有任务转化为Seq2Seq格式
UniLM, GLM：混合架构，训练时支持多种注意力模式

2. 从预训练到微调

# 现代典型流程
预训练阶段：Causal LM（在大规模文本上） → 获得通用语言能力
微调阶段：指令微调/对齐 → 获得遵循指令和多任务能力

3. 前沿模型的混合策略

# 如GPT-4的技术报告暗示
训练时：可能使用多种训练目标混合
推理时：表现为纯Causal LM，但内部有复杂机制

关键结论

Causal LM的核心：单向自回归，这是与Masked LM（双向） 最根本的互斥点
不是绝对的互斥：现代模型可以通过微调获得对方的一些能力
选择依据：
- 如果需要生成文本：选择Causal LM架构（GPT, LLaMA）
- 如果需要理解/分类文本：选择Masked LM架构（BERT）
- 如果需要翻译/摘要：选择Seq2Seq架构（T5, BART）
大模型的现状：主流大语言模型（GPT, LLaMA, PaLM）都是基于Causal LM预训练的，然后通过指令微调获得通用能力，这已经成为行业标准范式。

简单说：Causal LM ≈ 生成模型，Masked LM ≈ 理解模型，两者在预训练阶段是互斥的设计选择，但在应用阶段可以通过技巧互相借鉴。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

2026降AI率指南：10款论文降ai工具红黑榜！亲测哪个免费降ai率工具不“智障”？

2048 AI社区

AI学习笔记整理（67）——大模型的Benchmark（基准测试）

以上我们介绍的推理测试，主要还是建立在一类已有的知识学可上的（如数学、物理、生物），要攻克这些题目，模型既要非常博学（掌握大量的学术知识）还得非常聪明（推理能力很强）。那有没有专注于考模型聪不聪明，而不考模型的知识积累的基准呢？就像对于一个人的评价，我们看他聪不聪明，可能从小学能看出来了，不一定要等到他上完大学之后再做评价。对模型的测试也是一样，下面我们讲的对于模型 “抽象推理” 能力的测评，就属