大模型中的 Transformer 架构详解

近年来,大规模语言模型(LLM)的快速发展,几乎都建立在同一种核心架构之上——Transformer。从最初的论文提出,到如今支撑诸如 ChatGPT、GPT-4 等系统,Transformer 已成为自然语言处理(NLP)乃至多模态学习的基础设施。

本文将系统介绍 Transformer 的核心思想、关键结构、训练机制及其在大模型中的演进。


一、Transformer 的起源

Transformer 架构由 Ashish Vaswani 等人在 2017 年提出,论文题为:

Attention Is All You Need

这篇论文的核心观点是:完全抛弃 RNN 和 CNN,仅使用 Attention 机制即可构建高效的序列建模系统。

这在当时是颠覆性的,因为此前主流模型(如 LSTM、GRU)高度依赖递归结构。


二、Transformer 的核心思想:Self-Attention

1. 为什么需要 Self-Attention?

传统 RNN 的问题:

  • 无法并行计算(时间步依赖)
  • 长距离依赖建模困难(梯度消失)
  • 计算效率低

Self-Attention 的目标:

让序列中每一个 token 都能“直接看到”其他所有 token,并学习它们之间的依赖关系。


2. Self-Attention 数学形式

给定输入向量:

  • Query (Q)
  • Key (K)
  • Value (V)

注意力计算公式:

A t t e n t i o n ( Q , K , V ) = s o f t m a x ( Q K T d k ) V Attention(Q, K, V) = softmax\left(\frac{QK^T}{\sqrt{d_k}}\right)V Attention(Q,K,V)=softmax(dk QKT)V

解释:

  • ( Q K T QK^T QKT):计算相似度
  • ( d k \sqrt{d_k} dk ):缩放因子,防止梯度爆炸
  • s o f t m a x softmax softmax:归一化权重
  • V V V 相乘得到加权表示

这是 Transformer 的计算核心。


三、Multi-Head Attention

单一 Attention 只能捕获一种关系模式。

Transformer 引入 Multi-Head Attention

  • Q / K / V Q/K/V Q/K/V 投影到多个子空间
  • 并行计算多个 attention
  • 拼接后再线性变换

优势:

  • 捕捉不同语义关系
  • 提高表达能力
  • 增强模型稳定性

四、Transformer 的完整结构

一个标准 Transformer 包含:

1. Encoder

每层包含:

  • Multi-Head Self-Attention
  • Feed Forward Network (FFN)
  • Residual Connection
  • Layer Normalization

2. Decoder

在 Encoder 基础上增加:

  • Masked Self-Attention(防止看到未来信息)
  • Encoder-Decoder Attention

五、大模型中的 Transformer 变体

现代 LLM 主要使用 Decoder-only Transformer 架构,例如:

  • GPT-3
  • LLaMA
  • Claude

特点:

  • 仅使用 Decoder 结构
  • 采用自回归训练(预测下一个 token)
  • 使用大规模无监督语料进行预训练

六、位置编码(Positional Encoding)

由于 Transformer 没有递归结构,它本身不包含位置信息。

解决方法:

  • 正弦/余弦位置编码(原论文)
  • 可学习位置嵌入
  • RoPE(旋转位置编码,现代 LLM 常用)

位置编码让模型区分:

“我爱你” ≠ “你爱我”


七、训练机制

大模型训练通常包括两个阶段:

1. 预训练(Pretraining)

目标:

  • 最大化下一个 token 的似然

训练目标函数:

L = − ∑ log ⁡ P ( x t ∣ x < t ) \mathcal{L} = - \sum \log P(x_t | x_{<t}) L=logP(xtx<t)

2. 指令微调(Instruction Tuning)

包括:

  • SFT(监督微调)
  • RLHF(基于人类反馈的强化学习)

这些技术使模型从“语言预测器”转变为“对话助手”。


八、为什么 Transformer 适合大模型?

关键原因:

  1. 完全并行计算
  2. 长距离依赖建模能力强
  3. 可扩展性好
  4. 结构规则,易于堆叠

其计算复杂度为:

O ( n 2 ) O(n^2) O(n2)

这也导致长上下文成本较高,因此近年来出现:

  • FlashAttention
  • Linear Attention
  • Mamba 等改进架构

九、Transformer 的影响

Transformer 不仅改变了 NLP,还扩展至:

  • 计算机视觉(ViT)
  • 多模态模型(如 GPT-4V)
  • 蛋白质结构预测
  • 强化学习

可以说:

Transformer 是现代人工智能的基础架构。


十、总结

Transformer 的本质是:

基于自注意力机制的可扩展序列建模框架。

它之所以成为大模型核心,不仅因为结构创新,更因为其高度可扩展性与硬件友好性。

从 2017 年的论文提出,到如今支撑全球范围的智能系统,Transformer 已成为 AI 时代的“操作系统”。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐