AI基础概念之十三:Transformer 算法结构相比传统神经网络的改进
Transformer 的编码器 - 解码器架构,本质上是一种特殊的 “输入层→隐藏层→输出层” 结构,但和传统神经网络(如 MLP、CNN、RNN)相比,其结构改动是颠覆性的 —— 核心是用注意力机制 + 并行子层替代了传统网络的 “全连接 / 卷积 / 递归” 隐藏层,同时重构了输入输出的信息传递逻辑。以下是从 “输入 - 隐藏 - 输出” 三层视角,拆解 Transformer 相对传统神经网络的核心结构改动:
一、 输入层:从 “原始特征映射” 到 “语义 + 位置双编码”
传统神经网络的输入层,核心是 “特征向量化”,不主动编码位置信息;而 Transformer 的输入层,是“词嵌入 + 位置编码的融合”,这是适配注意力机制无序性的关键改动。
| 对比维度 | 传统神经网络(MLP/CNN/RNN) | Transformer |
|---|---|---|
| 核心操作 | 1. MLP:输入直接扁平化,映射为低维向量;2. CNN:图像像素 / 序列 token 直接作为输入,卷积核提取局部特征;3. RNN:序列 token 按顺序逐个输入,隐含状态累积信息 | 1. 词嵌入(Word Embedding):将离散 token 映射为高维语义向量(和传统一致);2. 位置编码(Positional Encoding):强制注入位置信息—通过正弦 / 余弦函数或可学习向量,生成和词嵌入同维度的位置向量,与词嵌入逐元素相加;3. 最终输入向量 = 语义向量 + 位置向量 |
| 位置信息处理 |
MLP/CNN:无显式位置编码, CNN 靠卷积核滑动顺序隐含编码位置; RNN:靠串行输入顺序编码位置,是结构自带的属性 |
注意力机制是无序并行计算,无法区分 token 顺序,必须显式编码位置,否则模型无法理解 “我爱你” 和 “你爱我” 的区别 |
关键改动总结:输入层新增了位置编码模块,解决了注意力机制 “无序性” 的致命缺陷,这是 Transformer 脱离 RNN/CNN 结构的前提。
二、 隐藏层:从 “单一计算单元” 到 “注意力 + 前馈的堆叠子层”
传统神经网络的隐藏层,是由 “全连接层 / 卷积层 / 递归层” 构成的相对单一类型计算单元,信息传递是 “链式 / 局部” 的;而 Transformer 的隐藏层,是编码器 + 解码器的多层堆叠,每层由 “注意力子层 + 前馈子层”+ 残差连接 + 层归一化组成,信息传递是全局并行的。这是 Transformer 最核心的结构改动。
1. 传统神经网络的隐藏层:“单一结构,串行 / 局部传递”
-
MLP:隐藏层是全连接层,每个神经元和上一层所有神经元连接,全局连接但无结构,参数冗余,无法捕捉序列 / 图像的局部关联;
-
CNN:隐藏层是卷积层,通过局部感受野 + 权值共享提取局部特征,信息从局部向全局传递,需多层堆叠扩大感受野;
-
RNN/LSTM:隐藏层是递归单元,通过时刻间的状态传递累积序列信息,串行计算前一时刻输出是后一时刻输入,长序列易丢失信息。
2. Transformer 隐藏层:“多子层堆叠,全局并行传递”
Transformer 的隐藏层分为编码器和解码器两部分,两者均包含多个子层,整个隐藏层再由多个编码器和解码器堆叠而成,核心有 3 点。
(1) 用 “多头自注意力子层” 替代传统的 “卷积 / 递归层”,实现全局依赖建模
-
传统网络的隐藏层,只能捕捉局部 / 串行依赖:CNN 靠卷积核大小限制感受野,RNN 靠时刻传递累积信息;
-
Transformer 的自注意力子层,让每个 token 直接和序列中所有 token 计算注意力权重 ,一步到位捕捉全局依赖。此处注意,当前的大语言模型往往堆叠多个编码器解码器,每个里面都会有自注意力子层,不同的堆叠编码器解码器会捕捉不同性质的全局依赖。比如在某些大语言模型中,浅层编码器(第 1-3 层)捕捉局部语法特征,单词的词性、短语结构、相邻 token 的依赖关系等;中层(第 4-6 层)捕捉句子级语义特征,句子内的逻辑关系、指代关系、语义角色;深层(第 7-12 层)捕捉篇章级全局特征:跨句子的关联、段落主旨、语义抽象等。
-
新增多头机制:将输入向量映射到多个子空间,并行计算多组注意力,同时捕捉不同维度的语义关联(如语法、逻辑),比单注意力表达能力更强。注意其为单个自注意力层内部的多维度特征捕捉方案,让一个自注意力层能同时关注不同类型的关联关系,与上一段提到的多个编码器关注不同的特征不一样。把输入的词向量拆分成多个(比如 12 个)“子向量”,每个子向量对应一个 “注意力头”;每个注意力头独立计算自注意力,相当于一个 “专属视角”—— 有的头关注指代关系(比如 “他” 对应 “小明”),有的头关注动宾搭配(比如 “喜欢” 对应 “苹果”),有的头关注逻辑连接(比如 “因为” 对应 “所以”);最后把所有头的计算结果拼接起来,得到一个融合了多视角关联的特征向量。
(2) 用 “前馈神经网络(FFN)” 替代传统的 “全连接层”,并保持并行特性
-
FFN的核心作用是对每个 token 的特征做精细化非线性加工,和自注意力层形成 “分工协作”:自注意力层负责捕捉 token 间的全局关联,FFN 负责强化单个 token 的特征表达能力。Transformer 的自注意力层本质是线性计算(矩阵乘法、加权求和),只能捕捉 token 间的线性关联,而真实世界的语义、逻辑关系大多是非线性的。FFN 通过 “两层全连接 + ReLU 激活” 的结构引入强非线性,公式如下:
![]()
-
Transformer的 FFN 是每个 token 独立的全连接层,计算所有 token 的注意力输出,不需要依赖其他 token 的计算结果,可以独立并行的计算。相当于给每个 token 单独过一个相同的 “全连接网络”。
-
传统 MLP 的全连接层是全局共享参数,每个神经元都会关注每个输入。MLP的全连接层它的计算逻辑是 “对所有输入特征做加权求和,实现全局关联”。全连接层的权重矩阵 W 实现了 “输入特征的全局组合”— 每个输出特征都是所有输入特征的加权和,这意味着输入特征的任何一个维度变化,都会影响所有输出特征,本质是捕捉输入特征间的关联。
-
传统神经网络中,RNN只能串行计算,因为有前后依赖,但是MLP和CNN也是可以并行计算的,不同的输入样本和不同位置的卷积运算都是可以并行计算的。
(3) “残差连接 + 层归一化(Add & Norm)”,支撑深层网络训练。
-
层归一化(Layer Normalization,LN)和残差连接(Residual Connection)在传统的 CNN、RNN 中都有广泛使用,二者是解决深层网络训练难题的核心技术,并非 Transformer 专属。
-
Transformer 在每个子层(注意力 / 前馈)后,都添加残差连接 + 层归一化。残差连接:让梯度直接传递到浅层,避免退化;层归一化(Layer Norm):针对单个样本的所有 token 向量归一化,对单个样本的同一层所有神经元的输出做归一化,将数值分布调整为均值 0、方差 1 的标准分布。
三、 输出层:从 “单一预测头” 到 “基于注意力的生成头”
传统神经网络的输出层,是 隐藏层特征→目标空间” 的直接映射 ;而 Transformer 的输出层,是 “解码器特征→线性变换→概率分布”,且生成过程可并行或自回归,适配不同任务。
| 对比维度 | 传统神经网络(MLP/CNN/RNN) | Transformer |
|---|---|---|
| 核心操作 | 1. MLP:全连接层 + Softmax,输出分类概率;2. CNN:全局池化 + 全连接 + Softmax,输出图像分类概率;3. RNN Seq2Seq:解码器最后一步的隐藏状态→全连接 + Softmax,逐个生成目标 token(部分场景也会使用上一步的输出作为下一步输出的输入) | 1. 线性变换:解码器最后一层的输出向量,通过一个共享的全连接层,映射到目标词表维度;2. Softmax 归一化:将向量转化为词表中每个 token 的概率分布;3. 生成方式:自回归生成(如 GPT):逐个 token 生成,利用上一步输出作为下一步输入;自回归生成(如 NMT):并行生成所有 token,速度更快 |
| 信息依赖 | 依赖最后一层隐藏层的局部 / 累积特征 | 依赖解码器的全局注意力特征,且交叉注意力保证了和源序列的对齐 |
关键改动总结:输出层本身结构改动不大,但输入特征是注意力机制提炼的全局关联特征,而非传统网络的局部 / 累积特征,因此预测精度更高。
总结
Transformer 本质上是用注意力机制重构了神经网络的隐藏层,同时通过位置编码补全了输入层的信息,最终实现了 “全局关联 + 并行计算” 的核心优势。相比传统神经网络如RNN的 “串行局部传递”,Transformer 的结构改动,直接解决了长序列依赖建模难、训练效率低的痛点,这也是它能支撑大模型发展的根本原因。
更多推荐

所有评论(0)