大模型基石：Transformer架构完整计算流程详解

AI产品经理

289人浏览 · 2026-01-22 18:43:17

AI产品经理 · 2026-01-22 18:43:17 发布

文章详细解释了Transformer神经网络架构的原理和计算步骤。首先介绍了Transformer如何取代RNN解决序列建模问题，然后分步骤阐述了输入数据处理（Tokenization、Embedding、Positional Encoding）、Encoder结构（Multi-Head Attention、残差连接、Layer Normalization、Feed-Forward Network）、Decoder结构（Masked Multi-Head Self-Attention、Multi-Head Cross-Attention）以及输出数据处理。文章强调了Transformer通过并行化处理和自注意力机制解决了RNN的局限性，为大型语言模型的发展奠定了基础。

前排提示，文末有大模型AGI-CSDN独家资料包哦！

上图是Transformer新型神经网络架构。在Transformer出现之前，如如机器翻译等序列建模任务主要依赖循环神经网络（RNN）。然而RNN需要按时间步依次处理序列，训练时难以在序列维度上并行化处理，而且在建模长距离依赖时容易受到梯度消失等问题的限制（尽管LSTM等结构有所缓解）。Transformer完全摒弃了循环结构，转而仅依靠位置编码、自注意力机制、全连接前馈网络来建模序列关系。这种设计使得模型在训练时能够高度并行化，显著提升了训练效率，为后续在大规模数据上训练大型语言模型奠定了重要基础。其实现在有很多很多文章来讲Transformer架构了，这里主要记录下个人的一些理解，用最简单的方式来说明Transformer的计算步骤。

一、输入数据处理

1、Tokenization（分词）

首先模型是要将输入的句子拆分为token，也就是分词，只有分词后才能匹配对应的词向量，将用户所输入的内容转换为矩阵的形式来做进一步计算处理。这里分词前后的区别如下：

// 分词前
我爱中国。
// 分词后，变为一个数组
['我','爱','中国','。']

2、Embedding（词嵌入）

词嵌入是要将每个token都映射为一个d_model维的向量，例如当d_model = 512时，每个token对应的向量就是512维。在这一阶段所获取的词嵌入向量是一个静态向量，也就是说每个token对应的向量是固定的、与上下文无关的。例如，“苹果手机”和“富士苹果”中的“苹果”二字，只要被分词为相同的token，其初始嵌入向量就完全一致。这种静态嵌入方式与Word2Vec这种传统词向量方法类似，都是通过在一张静态嵌入表中查找来获得向量表示。为了获取上下文之间的关联性，Transformer模型会在后续的自注意力层中，基于上下文对这些静态向量进行动态调整，从而生成上下文感知的表示。因此尽管初始嵌入是静态的，模型最终仍能有效建模词语在不同语境下的语义差异。

// 输入的token数组
['我','爱','中国','。']
// 查表得到的512维词嵌入向量示例
[[0.1,0.2,0.3,...,0.2]
[0.7,0.4,0.1,...,0.1]
[0.4,0.2,0.5,...,0.8]
[0.9,0.3,0.2,...,0.9]]

上面是嵌入式向量维度的简单示例，但实际上，在这个阶段的是一个这种形状的张量：(batch_size, seq_len, d_model)。seq_len对应的是token数，例如切分后的句子有4个token的那么seq_len为4。d_model就是上面所说的嵌入式向量的维度了，例如嵌入式向量有512维的，那么d_model就对应为512。而这里的batch_size是为了提高运算效率，将多个输入序列进行并行运算，但是这些序列在计算过程中是完全独立、互不影响的，只是一种工程上的优化方式。

3、Positional Encoding（位置编码）

位置编码是一个由确定公式计算出来的向量，用于与词嵌入向量相加的。这是因为词向量是没有上下文顺序信息的，而且Transformer架构是并行的运算的，为了表示输入序列的顺序位置信息就需要加上这个位置编码。这个位置编码在Transformer论文里的计算公式是这样的：

公式中的pos是指这个token在序列中的位置，如0、1、2这种取值。而i的部分（即2i、2i+1）指的是维度索引，其中0≤i< d_model/2，这里分为2i和2i+1是为了表示维度索引为偶数时使用sin计算，而维度索引为奇数时使用cos来计算。最后得到的位置编码矩阵与前面的词嵌入矩阵相加，这样每个token的向量表示就同时包含了是什么（token embedding）和在哪个位置（Positional Encoding）的信息。

输入到Encoder的向量 = token_embedding + positional_encoding

二、Encoder

经过上述处理后的词向量将进入Encoder模块。在标准Transformer架构中，通常堆叠6层Encoder，其最终输出的上下文表示会被传递给Decoder模块，作为Key(K)和Value(V)用于Decoder中的cross-attention计算。由于Encoder在训练和推理阶段均可对整个输入序列并行处理，因此计算效率高。这也是为何仅包含Encoder的BERT系列模型在推理时速度较快——它们无需像Decoder那样进行自回归式的逐token生成。

1、Multi-Head Attention

Multi-Head Attention是Encoder中的一个关键组件，它使模型能够有效捕捉输入序列中各token之间的上下文依赖关系。要深入理解Multi-Head Attention，需依次掌握其核心概念：Scaled Dot-Product Attention（基础注意力计算）、Self-Attention（Q、K、V均来自同一输入的注意力机制），以及Multi-Head机制（通过并行多个注意力头来联合建模不同表示子空间的信息）。

（1）Scaled Dot-Product Attention和Self-Attention

Scaled Dot-Product Attention是一种通过计算Query（Q）与Key（K）的缩放点积（因为需要除以K向量的维度dk的平方根，所以名叫Scaled）来衡量其相关性，并利用softmax归一化后的注意力权重矩阵，对Value（V）进行加权求和的注意力机制。Self-Attention则是该注意力机制的一种应用形式，其中Q、K和V均来自同一个输入序列X：首先将输入X分别通过可训练的权重矩阵（Wq、Wk、Wv）线性投影为Q、K、V，然后将其送入Scaled Dot-Product Attention进行计算。计算公式如下：

公式中的dk是Key（K）向量的维度，在计算注意力分数时除以该值的平方根是为了进行缩放，避免因为Q和K点积结果的方差过大，导致传入softmax计算后仅有少数位置的注意力权重接近1，其余大多数位置的注意力权重接近0，而几乎不会出现0.2、0.5等中间值存在的情况，会给后续计算产生梯度消失的影响。因为softmax的计算公式是如下的，当某个数值相对较大时就会发生指数增长，与较小的数据差异将会更大。

以e为底的指数函数图像：

（2）Multi-Head机制

前面讲的Self-Attention就是自注意力了，而Transformer中使用的是多头自注意力机制，即Multi-Head Self-Attention。首先对于进入Encoder模块的矩阵X乘以权重矩阵Wq、Wk、Wv计算得到Q、K、V。然后对Q、K、V按照词嵌入向量的维度进行均分，例如本来是512维的词嵌入向量分为4个头：（Q1、K1、V1）、…、（Q4、K4、V4），每个头对应的向量有128维。再分别计算每个头各自的注意力Attention（Q1、K1、V1）、…、Attention（Q4、K4、V4），注意公式中要除以的dk从512变为128了，然后将结果按顺序拼接为一个大矩阵，拼接后的大矩阵一般还会使用另一个权重矩阵W做一次线性变换。多头机制本质上是为了让模型能够同时从多个不同的表示子空间中学习信息交互，从而提升表达能力和建模灵活性。计算公式如下：

（3）残差连接+Layer Normalization

在Transformer架构示意图上可以看到，进入Multi-Head Attention前的张量X，会和经过Multi-Head Attention计算后的输出相加，这个加和操作称为残差连接。这么设计是因为在深层网络中，反向传播时梯度容易因多层导数连乘而急剧衰减（即梯度消失）。残差连接提供了一条梯度直接回传的路径，使得底层参数仍能有效更新。在本质上，此时模型学习的是输入与输出之间的“残差”（即变化量）而非完整的映射，这降低了模型优化的难度。同时原始输入信息可以通过残差连接无损地传递到后续层，避免在多层非线性变换中被过度扭曲或丢失。在Transformer中每个子层后都采用了残差连接，包括Encoder中的Multi-Head Attention和Feed-Forward Network，以及Decoder中的Masked Multi-Head Attention、Multi-Head Cross-Attention和Feed-Forward Network。残差连接的计算公式如下：

Layer Normalization（层归一化）就是Transformer架构图中的Norm节点，如果接触过传统机器学习中的数据预处理，会发现这个Norm节点的数学公式与普通机器学习中标准化的计算公式在数学形式上是一模一样的。只是Layer Normalization中是对同一个token向量所对应的各个维度的数值进行标准化计算，也就是如果token向量有512维的，那么针对这512个数值进行下面的标准化计算，得到一个新的向量值。公式中的x_i 是token嵌入向量的第i个维度的值，而H是该向量的维度总数，例如若嵌入向量为512维，则H=512。

在《Attention Is All You Need》论文中，Transformer使用的是Post-Layer Normalization（Post-LN）结构，即在Multi-Head Attention、Feed-Forward Network等子层的输出与输入进行残差连接之后，再应用Layer Normalization。然而经过一些算法大佬们后续研究发现，如果将Layer Normalization移至这些子层之前，即先对输入做Norm，再送入子层计算，然后将计算结果与原始输入做残差相加，称为Pre–Layer Normalization（Pre-LN）结构，模型训练过程会更加稳定，收敛速度也更快，因此许多现代Transformer变体采用了Pre–Layer Normalization的设计。下图是《Attention Is All You Need》中的Post-LN结构，与开头图片中的Pre-LN结构有所区别：

// Post-LN结构
x → Sublayer → Add(x) → LayerNorm → output
// Pre-LN结构
x → LayerNorm → Sublayer → Add(x) → output

2、Feed-Forward Network

Encoder模块中除了Multi-Head Attention之外，还有一个前馈神经网络。这个网络实际上是一个包含一个隐藏层的两层全连接网络，在两个线性变换之间使用ReLU等非线性激活函数，用于进一步提升每个token中维度位置的表达能力。经过这个FFN处理后的输出将保持和输入的序列长度和维度不变。

在Post-LN结构中，FFN的输出会与其输入进行残差连接（即相加），然后通过Layer Normalization得到该子层的最终输出。经过Attention和FFN两个子层后，一个完整的Encoder层完成计算。多层Encoder堆叠后的最终输出，将作为Key和Value输入到Decoder的Cross-Attention层中。

三、Decoder

Decoder主要包含Masked Multi-Head Self-Attention、Multi-Head Cross-Attention和Feed-Forward Network这三个层，其中Encoder模块的输出结果是用于Multi-Head Cross-Attention中进行计算的。

1、Masked Multi-Head Self-Attention

在模型训练时，Decoder的Masked Multi-Head Self-Attention层的输入被称为Shifted Target Sequence（移位的目标序列），它是将真实目标序列（需要包含结束标记）向右平移一位，并在开头添加起始标记得到的。例如，若目标序列为[“我”,“很”,“好”,“”]，则对应的Shifted Target Sequence为[“”,“我”,“很”,“好”]。训练时Decoder通过Masked Self-Attention确保下面4个预测在同一时间步（一次前向传播）中并行计算完成：

// 并行训练
位置0只能看见“<sos>”，预测“我”
位置1只能看见“<sos>我”，预测“很”
位置2只能看见“<sos>我很”，预测“好”
位置3只能看见“<sos>我很好”，预测“<eos>”

而在模型推理时因为没有完整的Shifted Target Sequence，Decoder模块则是串行地循环生成下一个字，其初始的输入必定是这样的起始标志，然后按顺序循环进行生成，例如预测目标是“我很好”时，生成步骤如下：

// 串行推理
时间步1：输入“<sos>”，预测“我”
时间步2：输入“<sos>我”，预测“很”
时间步3：输入“<sos>我很”，预测“好”
时间步4：输入“<sos>我很好”，预测“<eos>”，生成结束。

Masked Multi-Head Self-Attention层的计算和Multi-Head Self-Attention很像，因此这部分完全可以参考前面Multi-Head Self-Attention中的Self-Attention、Multi-Head、残差连接、Layer-Norm的描述，唯一区别在于在计算多头注意力Attention时会加上一个上三角矩阵causal mask：

例如对于长度为5的序列，Causal Mask的掩码矩阵如下，-inf（负无穷）在经过softmax后会变成0，从而屏蔽掉未来位置的信息：

[[0., -inf, -inf, -inf, -inf],
[0.,   0., -inf, -inf, -inf],
[0.,   0.,   0., -inf, -inf],
[0.,   0.,   0.,   0., -inf],
[0.,   0.,   0.,   0.,   0.]]

2、Multi-Head Cross-Attention

Masked Multi-Head Self-Attention的输出经过残差连接和Layer Normalization后，作为Query(Q)输入到Multi-Head Cross-Attention层，而该Cross-Attention层的Key(K)和Value(V)则来自Encoder模块的最终输出。可知Cross-Attention与Self-Attention的主要区别是：Self-Attention是Q、K、V同源的（同一序列内部交互）；而Cross-Attention的Q来自Decoder，K和V来自Encoder，用于实现跨序列的信息融合。Transformer架构中每预测一个token就会经过一次decoder step（每次decoder step中，输入会依次通过所有堆叠的Decoder层），但encoder的输出在整个decoding过程中是固定不变的（即K和V不随decoder step改变），而Q在每个decoding step都会更新。

经过Multi-Head Cross-Attention层计算后的结果，同样需要经过残差连接和Layer-Norm，然后进入一个两层Feed-Forward Network，这方面的计算和Encoder模块上的一样。

四、输出数据处理

Decoder最终输出的是一个形状为L × D的张量，L表示当前已生成的token序列长度，D是模型的隐藏维度与输入内容的词嵌入（token embedding）的维度是一致的。该张量随后通过一个线性层（输出投影层）Linear，其权重矩阵大小为D × V（V为词表大小），则计算得到一个L × V的张量。接着这个张量的每一行（即每个位置）独立应用Softmax函数，将其转换为概率分布。最终得到的L × V概率矩阵中，第i行表示在第i个位置上选择词表中各个token的概率，示例如下：

// 概率矩阵中每行之和为 1，代表该位置对词表中 5 个 token 的预测概率
// 这里可以根据数值选择选概率最大的那个词
// 也可以通过调节Top-k、Top-p、temperature等进行采样
[
[0.215 0.205 0.226 0.185 0.169]
[0.175 0.260 0.210 0.155 0.200]
[0.230 0.170 0.260 0.210 0.130]
]

至此本文关于Transformer架构中关键的计算逻辑已经分步写完了，完结撒花~~

读者福利：倘若大家对大模型感兴趣，那么这套大模型学习资料一定对你有用。

针对0基础小白：