AI基础概念之十三：Transformer 算法结构相比传统神经网络的改进

楚来客

825人浏览 · 2026-01-24 00:42:44

楚来客 · 2026-01-24 00:42:44 发布

Transformer 的编码器 - 解码器架构，本质上是一种特殊的 “输入层→隐藏层→输出层” 结构，但和传统神经网络（如 MLP、CNN、RNN）相比，其结构改动是颠覆性的 —— 核心是用注意力机制 + 并行子层替代了传统网络的 “全连接 / 卷积 / 递归” 隐藏层，同时重构了输入输出的信息传递逻辑。以下是从 “输入 - 隐藏 - 输出” 三层视角，拆解 Transformer 相对传统神经网络的核心结构改动：

一、输入层：从 “原始特征映射” 到 “语义 + 位置双编码”

传统神经网络的输入层，核心是 “特征向量化”，不主动编码位置信息；而 Transformer 的输入层，是“词嵌入 + 位置编码的融合”，这是适配注意力机制无序性的关键改动。

对比维度	传统神经网络（MLP/CNN/RNN）	Transformer
核心操作	1. MLP：输入直接扁平化，映射为低维向量；2. CNN：图像像素 / 序列 token 直接作为输入，卷积核提取局部特征；3. RNN：序列 token 按顺序逐个输入，隐含状态累积信息	1. 词嵌入（Word Embedding）：将离散 token 映射为高维语义向量（和传统一致）；2. 位置编码（Positional Encoding）：强制注入位置信息—通过正弦 / 余弦函数或可学习向量，生成和词嵌入同维度的位置向量，与词嵌入逐元素相加；3. 最终输入向量 = 语义向量 + 位置向量
位置信息处理	MLP/CNN：无显式位置编码， CNN 靠卷积核滑动顺序隐含编码位置； RNN：靠串行输入顺序编码位置，是结构自带的属性	注意力机制是无序并行计算，无法区分 token 顺序，必须显式编码位置，否则模型无法理解 “我爱你” 和 “你爱我” 的区别

对比维度

传统神经网络（MLP/CNN/RNN）

Transformer

核心操作

1. MLP：输入直接扁平化，映射为低维向量；2. CNN：图像像素 / 序列 token 直接作为输入，卷积核提取局部特征；3. RNN：序列 token 按顺序逐个输入，隐含状态累积信息

1. 词嵌入（Word Embedding）：将离散 token 映射为高维语义向量（和传统一致）；2. 位置编码（Positional Encoding）：强制注入位置信息—通过正弦 / 余弦函数或可学习向量，生成和词嵌入同维度的位置向量，与词嵌入逐元素相加；3. 最终输入向量 = 语义向量 + 位置向量

位置信息处理

MLP/CNN：无显式位置编码，

CNN 靠卷积核滑动顺序隐含编码位置；

RNN：靠串行输入顺序编码位置，是结构自带的属性

注意力机制是无序并行计算，无法区分 token 顺序，必须显式编码位置，否则模型无法理解 “我爱你” 和 “你爱我” 的区别

关键改动总结：输入层新增了位置编码模块，解决了注意力机制 “无序性” 的致命缺陷，这是 Transformer 脱离 RNN/CNN 结构的前提。

二、隐藏层：从 “单一计算单元” 到 “注意力 + 前馈的堆叠子层”

传统神经网络的隐藏层，是由 “全连接层 / 卷积层 / 递归层” 构成的相对单一类型计算单元，信息传递是 “链式 / 局部” 的；而 Transformer 的隐藏层，是编码器 + 解码器的多层堆叠，每层由 “注意力子层 + 前馈子层”+ 残差连接 + 层归一化组成，信息传递是全局并行的。这是 Transformer 最核心的结构改动。

1. 传统神经网络的隐藏层：“单一结构，串行 / 局部传递”

MLP：隐藏层是全连接层，每个神经元和上一层所有神经元连接，全局连接但无结构，参数冗余，无法捕捉序列 / 图像的局部关联；
CNN：隐藏层是卷积层，通过局部感受野 + 权值共享提取局部特征，信息从局部向全局传递，需多层堆叠扩大感受野；
RNN/LSTM：隐藏层是递归单元，通过时刻间的状态传递累积序列信息，串行计算前一时刻输出是后一时刻输入，长序列易丢失信息。

2. Transformer 隐藏层：“多子层堆叠，全局并行传递”

Transformer 的隐藏层分为编码器和解码器两部分，两者均包含多个子层，整个隐藏层再由多个编码器和解码器堆叠而成，核心有 3 点。

（1）用 “多头自注意力子层” 替代传统的 “卷积 / 递归层”，实现全局依赖建模

传统网络的隐藏层，只能捕捉局部 / 串行依赖：CNN 靠卷积核大小限制感受野，RNN 靠时刻传递累积信息；
Transformer 的自注意力子层，让每个 token 直接和序列中所有 token 计算注意力权重，一步到位捕捉全局依赖。此处注意，当前的大语言模型往往堆叠多个编码器解码器，每个里面都会有自注意力子层，不同的堆叠编码器解码器会捕捉不同性质的全局依赖。比如在某些大语言模型中，浅层编码器（第 1-3 层）捕捉局部语法特征，单词的词性、短语结构、相邻 token 的依赖关系等；中层（第 4-6 层）捕捉句子级语义特征，句子内的逻辑关系、指代关系、语义角色；深层（第 7-12 层）捕捉篇章级全局特征：跨句子的关联、段落主旨、语义抽象等。
新增多头机制：将输入向量映射到多个子空间，并行计算多组注意力，同时捕捉不同维度的语义关联（如语法、逻辑），比单注意力表达能力更强。注意其为单个自注意力层内部的多维度特征捕捉方案，让一个自注意力层能同时关注不同类型的关联关系，与上一段提到的多个编码器关注不同的特征不一样。把输入的词向量拆分成多个（比如 12 个）“子向量”，每个子向量对应一个 “注意力头”；每个注意力头独立计算自注意力，相当于一个 “专属视角”—— 有的头关注指代关系（比如 “他” 对应 “小明”），有的头关注动宾搭配（比如 “喜欢” 对应 “苹果”），有的头关注逻辑连接（比如 “因为” 对应 “所以”）；最后把所有头的计算结果拼接起来，得到一个融合了多视角关联的特征向量。

（2）用 “前馈神经网络（FFN）” 替代传统的 “全连接层”，并保持并行特性

FFN的核心作用是对每个 token 的特征做精细化非线性加工，和自注意力层形成 “分工协作”：自注意力层负责捕捉 token 间的全局关联，FFN 负责强化单个 token 的特征表达能力。Transformer 的自注意力层本质是线性计算（矩阵乘法、加权求和），只能捕捉 token 间的线性关联，而真实世界的语义、逻辑关系大多是非线性的。FFN 通过 “两层全连接 + ReLU 激活” 的结构引入强非线性，公式如下：

Transformer的 FFN 是每个 token 独立的全连接层，计算所有 token 的注意力输出，不需要依赖其他 token 的计算结果，可以独立并行的计算。相当于给每个 token 单独过一个相同的 “全连接网络”。
传统 MLP 的全连接层是全局共享参数，每个神经元都会关注每个输入。MLP的全连接层它的计算逻辑是 “对所有输入特征做加权求和，实现全局关联”。全连接层的权重矩阵 W 实现了 “输入特征的全局组合”— 每个输出特征都是所有输入特征的加权和，这意味着输入特征的任何一个维度变化，都会影响所有输出特征，本质是捕捉输入特征间的关联。
传统神经网络中，RNN只能串行计算，因为有前后依赖，但是MLP和CNN也是可以并行计算的，不同的输入样本和不同位置的卷积运算都是可以并行计算的。

（3） “残差连接 + 层归一化（Add & Norm）”，支撑深层网络训练。

层归一化（Layer Normalization，LN）和残差连接（Residual Connection）在传统的 CNN、RNN 中都有广泛使用，二者是解决深层网络训练难题的核心技术，并非 Transformer 专属。
Transformer 在每个子层（注意力 / 前馈）后，都添加残差连接 + 层归一化。残差连接：让梯度直接传递到浅层，避免退化；层归一化（Layer Norm）：针对单个样本的所有 token 向量归一化，对单个样本的同一层所有神经元的输出做归一化，将数值分布调整为均值 0、方差 1 的标准分布。

三、输出层：从 “单一预测头” 到 “基于注意力的生成头”

传统神经网络的输出层，是隐藏层特征→目标空间” 的直接映射；而 Transformer 的输出层，是 “解码器特征→线性变换→概率分布”，且生成过程可并行或自回归，适配不同任务。

对比维度	传统神经网络（MLP/CNN/RNN）	Transformer
核心操作	1. MLP：全连接层 + Softmax，输出分类概率；2. CNN：全局池化 + 全连接 + Softmax，输出图像分类概率；3. RNN Seq2Seq：解码器最后一步的隐藏状态→全连接 + Softmax，逐个生成目标 token（部分场景也会使用上一步的输出作为下一步输出的输入）	1. 线性变换：解码器最后一层的输出向量，通过一个共享的全连接层，映射到目标词表维度；2. Softmax 归一化：将向量转化为词表中每个 token 的概率分布；3. 生成方式：自回归生成（如 GPT）：逐个 token 生成，利用上一步输出作为下一步输入；自回归生成（如 NMT）：并行生成所有 token，速度更快
信息依赖	依赖最后一层隐藏层的局部 / 累积特征	依赖解码器的全局注意力特征，且交叉注意力保证了和源序列的对齐

关键改动总结：输出层本身结构改动不大，但输入特征是注意力机制提炼的全局关联特征，而非传统网络的局部 / 累积特征，因此预测精度更高。

总结

Transformer 本质上是用注意力机制重构了神经网络的隐藏层，同时通过位置编码补全了输入层的信息，最终实现了 “全局关联 + 并行计算” 的核心优势。相比传统神经网络如RNN的 “串行局部传递”，Transformer 的结构改动，直接解决了长序列依赖建模难、训练效率低的痛点，这也是它能支撑大模型发展的根本原因。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

小白也能看懂！手把手教你入门MCP协议，解锁大模型本地应用，速收藏！

2048 AI社区

Kimi新架构训练效率提升25%！马斯克夸赞

月之暗面刚刚发布了新模型架构𝑨𝒕𝒕𝒆𝒏𝒕𝒊𝒐𝒏 𝑹𝒆𝒔𝒊𝒅𝒖𝒂𝒍𝒔。在不同模型尺寸上，训练效率均提升了25%。有人声称这一创新，将注意力旋转了90°。马斯克也对这一创新表示惊叹。AI大神Karpathy直言，我们对Transformer开山之作《Attention is All You Need》这篇论文的理解还是不够。月之暗面团队提出注意力残差机制，巧妙化解了