【大模型的架构】为什么 Decoder-only 能成为主流？

本文介绍了三种主流预训练语言模型架构：因果解码器（Causal Decoder）、非因果解码器（Non-causal Decoder）和编码器-解码器（Encoder-Decoder）。重点分析了因果解码器的四大优势：1）单向注意力机制具有更强的表达能力；2）能更直接利用提示词信息；3）推理效率更高，可利用KV缓存加速；4）能隐式学习词元绝对位置信息。相较其他架构，这些优势使因果解码器成为当前大模

RaineNa

427人浏览 · 2025-08-06 08:01:47

RaineNa · 2025-08-06 08:01:47 发布

架构简介

在传统的预训练语言模型中，有 3 种主流范式：一是与原始 Transformer中一致的 Encoder-Decoder 架构；二是使用非因果解码器，即 non-causal decoder；三是最常用的因果解码器（causal decoder），也即我们常说的 decoder-only 架构。下面先来看看这三种架构的工作原理和区别。

1. Causal Decoder

当前，包括 Llama 在内的绝大多数大模型采用的都是因果解码器架构。其工作原理是在每一个 token 进行注意力运算时，只能与之前已经出现过的 token 交互，即“只能看左边”。

2. Non-causal Decoder

严格来说，这也是 Decoder-only 架构。但是其工作原理与因果解码器不同，在 Non-causal Decoder 中，可以指定一部分 token 作为前缀，前缀内的 token 可以互相进行注意力训练，没有因果限制；而在前缀之后 token 只能与其之前的 token 进行注意力运算。因此，这样的大模型也被称为 PrefixLM。

3. Encoder-Decoder

对于编码器-解码器架构，最具代表性的模型是 T5。该架构与 PrefixLM 的不同点在于结构中包含了额外的编码器结构，因而拥有更大的参数量。此外，在 T5 的编码器内部，会对前缀进行双向注意力运算。

因果解码器的优势

1. 因果注意力采用的单向注意力机制在表达能力上优于双向注意力

所谓表达能力，在数学上相当于是说单向注意力矩阵的秩要大于双向注意力矩阵的秩。这是因为注意力矩阵的秩越大，它就可以将输入信息映射到更大的子空间，能够捕捉和表达的信息维度就越高。

2. 因果解码器能更直接地利用提示词信息

简单来说，就是在因果解码器架构中，解码器中的每一层 Transformer 都会与 Prompt 部分的全部 K、V 矩阵进行注意力运算；而在编码器 - 解码器架构中，编码器负责编码 Prompt，在解码阶段，解码器中的每一层 Transformer 只会与编码器中最后一层 Transformer 输出的 K、V 矩阵进行运算。因此，因果解码器能更直接且充分地利用提示词信息。

3. 因果解码器推理效率更高

这是指由于因果编码器的特性，所以在生成第 n 个 token 时，可以利用前 n-2 个 token 的 K、V 缓存，只需要计算第 n-1 个 token 的 q、k、v 向量即可。而对于另外两种架构，由于还可能依赖后续或其他位置的 token，因此无法利用 KV 缓存加速。

4. 因果解码器可以隐式地学习到词元之间的绝对位置信息

单向注意力模式打破了双向注意力运算中的位置置换不变性，在训练时天然地引入了从左到右的位置信息。可以参见这篇论文。因此，因果解码器在位置信息的学习上具有显著优势。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Scala 机器学习快速启动指南（二）

在无监督学习中，在训练阶段向系统提供一个输入集。与监督学习相反，输入对象没有标记其类别。虽然在分类分析中训练数据集是标记的，但在现实世界中收集数据时，我们并不总是有这种优势，但我们仍然希望找到数据的重要值或隐藏结构。在 2016 年的 NeuralIPS 上，Facebook AI 首席科学家 Yann LeCun 介绍了蛋糕类比“如果智能是一块蛋糕，无监督学习就是蛋糕本身，监督学习就是蛋糕上的糖

2048 AI社区

《探索之旅！提示工程架构师在移动应用中的实践历程》

在移动应用开发中，提示工程架构师的角色远超"写提示词"。需求翻译：将产品需求（如"智能问诊"）拆解为AI可理解的任务目标（如症状分类、问诊流程引导、建议生成）；架构设计：设计提示管理系统，实现提示模板复用、上下文动态调整、跨场景适配；资源优化：在算力、内存、网络限制下，平衡提示效果与性能消耗；全链路协同：协调算法团队（模型选型）、前端团队（交互适配）、测试团队（效果验证）。让AI在移动终端"既聪明

2048 AI社区

Python未来3-5年技术发展趋势分析：从AI到Web的全方位演进

Python在未来3-5年将保持技术领导地位，尤其在AI、Web和自动化领域。核心演进包括：大模型深度集成、Rust助力性能突破、全栈开发简化、以及数据工作流智能化。开发者应拥抱混合编程（如Python-Rust），并关注性能优化工具。Python的优势在于其不可替代的生态，但需克服性能挑战以应对竞争。总体而言，Python的创新潜力巨大，是开发者投资技能的明智选择。