大模型Transform架构介绍(Attention机制、自注意力机制、Multi-Head Attention、FFN、位置编码Positional Encoding、ViT)
Transformer 的本质是:基于自注意力机制的可扩展序列建模框架。它之所以成为大模型核心,不仅因为结构创新,更因为其高度可扩展性与硬件友好性。从 2017 年的论文提出,到如今支撑全球范围的智能系统,Transformer 已成为 AI 时代的“操作系统”。
文章目录
大模型中的 Transformer 架构详解
近年来,大规模语言模型(LLM)的快速发展,几乎都建立在同一种核心架构之上——Transformer。从最初的论文提出,到如今支撑诸如 ChatGPT、GPT-4 等系统,Transformer 已成为自然语言处理(NLP)乃至多模态学习的基础设施。
本文将系统介绍 Transformer 的核心思想、关键结构、训练机制及其在大模型中的演进。
一、Transformer 的起源
Transformer 架构由 Ashish Vaswani 等人在 2017 年提出,论文题为:
Attention Is All You Need
这篇论文的核心观点是:完全抛弃 RNN 和 CNN,仅使用 Attention 机制即可构建高效的序列建模系统。
这在当时是颠覆性的,因为此前主流模型(如 LSTM、GRU)高度依赖递归结构。
二、Transformer 的核心思想:Self-Attention
1. 为什么需要 Self-Attention?
传统 RNN 的问题:
- 无法并行计算(时间步依赖)
- 长距离依赖建模困难(梯度消失)
- 计算效率低
Self-Attention 的目标:
让序列中每一个 token 都能“直接看到”其他所有 token,并学习它们之间的依赖关系。
2. Self-Attention 数学形式
给定输入向量:
- Query (Q)
- Key (K)
- Value (V)
注意力计算公式:
A t t e n t i o n ( Q , K , V ) = s o f t m a x ( Q K T d k ) V Attention(Q, K, V) = softmax\left(\frac{QK^T}{\sqrt{d_k}}\right)V Attention(Q,K,V)=softmax(dkQKT)V
解释:
- ( Q K T QK^T QKT):计算相似度
- ( d k \sqrt{d_k} dk):缩放因子,防止梯度爆炸
- s o f t m a x softmax softmax:归一化权重
- 与 V V V 相乘得到加权表示
这是 Transformer 的计算核心。
三、Multi-Head Attention
单一 Attention 只能捕获一种关系模式。
Transformer 引入 Multi-Head Attention:
- 将 Q / K / V Q/K/V Q/K/V 投影到多个子空间
- 并行计算多个 attention
- 拼接后再线性变换
优势:
- 捕捉不同语义关系
- 提高表达能力
- 增强模型稳定性
四、Transformer 的完整结构
一个标准 Transformer 包含:
1. Encoder
每层包含:
- Multi-Head Self-Attention
- Feed Forward Network (FFN)
- Residual Connection
- Layer Normalization
2. Decoder
在 Encoder 基础上增加:
- Masked Self-Attention(防止看到未来信息)
- Encoder-Decoder Attention
五、大模型中的 Transformer 变体
现代 LLM 主要使用 Decoder-only Transformer 架构,例如:
- GPT-3
- LLaMA
- Claude
特点:
- 仅使用 Decoder 结构
- 采用自回归训练(预测下一个 token)
- 使用大规模无监督语料进行预训练
六、位置编码(Positional Encoding)
由于 Transformer 没有递归结构,它本身不包含位置信息。
解决方法:
- 正弦/余弦位置编码(原论文)
- 可学习位置嵌入
- RoPE(旋转位置编码,现代 LLM 常用)
位置编码让模型区分:
“我爱你” ≠ “你爱我”
七、训练机制
大模型训练通常包括两个阶段:
1. 预训练(Pretraining)
目标:
- 最大化下一个 token 的似然
训练目标函数:
L = − ∑ log P ( x t ∣ x < t ) \mathcal{L} = - \sum \log P(x_t | x_{<t}) L=−∑logP(xt∣x<t)
2. 指令微调(Instruction Tuning)
包括:
- SFT(监督微调)
- RLHF(基于人类反馈的强化学习)
这些技术使模型从“语言预测器”转变为“对话助手”。
八、为什么 Transformer 适合大模型?
关键原因:
- 完全并行计算
- 长距离依赖建模能力强
- 可扩展性好
- 结构规则,易于堆叠
其计算复杂度为:
O ( n 2 ) O(n^2) O(n2)
这也导致长上下文成本较高,因此近年来出现:
- FlashAttention
- Linear Attention
- Mamba 等改进架构
九、Transformer 的影响
Transformer 不仅改变了 NLP,还扩展至:
- 计算机视觉(ViT)
- 多模态模型(如 GPT-4V)
- 蛋白质结构预测
- 强化学习
可以说:
Transformer 是现代人工智能的基础架构。
十、总结
Transformer 的本质是:
基于自注意力机制的可扩展序列建模框架。
它之所以成为大模型核心,不仅因为结构创新,更因为其高度可扩展性与硬件友好性。
从 2017 年的论文提出,到如今支撑全球范围的智能系统,Transformer 已成为 AI 时代的“操作系统”。
更多推荐



所有评论(0)