Transformer 学习笔记（5）

回顾注意力机制的设计，我们会发现它的核心逻辑异常简洁：用 QKV 模拟信息检索，用权重体现关注程度，用多头实现多维度关联。但正是这种简洁的设计，彻底改变了序列建模的范式 —— 它让模型既能并行处理序列，又能精准捕捉全局关联，为 Transformer 的高效与强大奠定了基础。至此，我们已完整掌握 Transformer 的核心模块（编码器、解码器、输入部分、注意力机制），接下来的学习将聚焦于模型的

weixin_44673517

1064人浏览 · 2025-08-26 17:22:29

weixin_44673517 · 2025-08-26 17:22:29 发布

解密 Transformer 注意力机制：从 QKV 运算到多头协同的底层逻辑

注意力机制是 Transformer 架构的 “灵魂”，正是它让模型具备了 “全局关联捕捉” 与 “并行计算” 的核心能力。但提起注意力，很多人会被 “QKV 矩阵”“Softmax 归一化” 等术语劝退，忽略了其背后直观的设计逻辑。本文将从注意力的本质出发，拆解自注意力的完整计算流程，解析多头注意力的协同价值，带你真正理解 “注意力是如何让模型‘专注’关键信息的”。

一、注意力机制的本质：让模型像人一样 “选择性关注”

在理解技术细节前，我们需要先回答一个核心问题：注意力机制到底在做什么？其实答案很简单 —— 它模拟了人类处理信息时的 “选择性关注” 行为。

比如阅读句子 “The cat sits on the mat” 时，我们会自然地将注意力聚焦在 “cat”“sits”“mat” 这些关键名词和动词上，而对 “the”“on” 等虚词的关注较少；当看到 “sits” 时，会下意识地关联 “cat”（谁在坐）和 “mat”（坐在哪里）。注意力机制的作用，就是让模型通过数学运算，复现这种 “关注重点、关联上下文” 的过程。

从技术角度看，注意力机制的核心是为序列中的每个词，计算它与其他所有词的 “关联强度（注意力权重）”，并根据权重对其他词的信息进行加权求和 —— 权重越高，说明该词对当前词的语义贡献越大。

二、自注意力的完整计算流程：QKV 矩阵的 “协同分工”

自注意力（Self-Attention）是 Transformer 中最基础的注意力形式（“自” 指关注自身序列内的词），其计算过程围绕 “Query（查询）、Key（键）、Value（值）” 三个矩阵展开。这三个矩阵并非凭空设计，而是对应了信息检索的经典逻辑：用 “Query”（你想找什么）去匹配 “Key”（有什么资源），找到后获取对应的 “Value”（资源内容）。

视频通过 “信息检索类比 + 矩阵运算动画”，清晰展示了自注意力的 5 步计算流程（以处理词 “sits” 为例）：

1. 生成 Q、K、V 矩阵：从融合向量到专用向量

首先，编码器输入的 “语义 + 位置” 融合向量（512 维），会通过三个独立的线性变换层，分别生成 Q、K、V 三个矩阵：

Query（Q）：代表 “当前词想要获取什么信息”—— 比如词 “sits” 的 Q 向量，关注 “谁在做这个动作”“动作发生在哪里”；
Key（K）：代表 “每个词能提供什么信息”—— 比如词 “cat” 的 K 向量，包含 “动物主体” 的信息，词 “mat” 的 K 向量包含 “位置” 的信息；
Value（V）：代表 “每个词的具体信息内容”—— 比如词 “cat” 的 V 向量，就是该词经过语义提炼后的核心特征。

三者的维度与输入融合向量一致（均为 512 维），且每个词都会对应一组 Q、K、V 向量（如序列长度为 6，Q、K、V 矩阵的形状均为 “6×512”）。

2. 计算注意力分数：Q 与 K 的 “相似度匹配”

接下来，需要计算 “当前词的 Q 向量” 与 “所有词的 K 向量” 的相似度 —— 这一步的本质是判断 “其他词的信息是否与当前词的需求匹配”。

计算方式很直接：将当前词的 Q 向量与所有词的 K 向量进行 “点积运算”（对应元素相乘后求和）。以词 “sits” 为例：

“sits” 的 Q 向量 × “cat” 的 K 向量 = 高分数（因为 “cat” 是 “sits” 的动作主体，匹配度高）；
“sits” 的 Q 向量 × “the” 的 K 向量 = 低分数（因为 “the” 是虚词，无法满足 “动作主体 / 位置” 的需求，匹配度低）。

若序列长度为 6，这一步会生成一个 “1×6” 的注意力分数向量（每个元素对应一个词与当前词的相似度）。

3. 缩放（Scaling）：避免 “维度灾难” 导致的梯度问题

完成点积运算后，需要将注意力分数除以 “√K 向量的维度”（如 K 向量为 512 维，则除以√512≈22.63）。这一步看似简单，却是保障模型稳定训练的关键。

为什么需要缩放？因为当 K 向量的维度（d_k）较大时，点积运算的结果会变得非常大 —— 比如 512 维向量的点积结果可能达到数百甚至上千。过大的分数会导致后续 Softmax 函数输出 “极端值”（要么接近 1，要么接近 0），使得梯度变得极小（梯度消失），模型难以训练。

通过除以√d_k，可将注意力分数的方差控制在 1 左右，避免上述问题，让模型训练更稳定。

4. Softmax 归一化：将分数转化为 “权重概率”

缩放后的注意力分数，会输入 Softmax 函数进行归一化处理 —— 这一步的目的是将 “相似度分数” 转化为 “权重概率”，确保所有词的权重之和为 1，便于后续的加权求和。

以词 “sits” 为例，Softmax 会将高分数（如 “cat”“mat” 对应的分数）转化为高权重（如 0.4、0.3），将低分数（如 “the” 对应的分数）转化为低权重（如 0.05）。最终生成的 “1×6” 权重向量，直观体现了 “每个词对当前词的语义贡献度”。

视频用 “饼图动画” 展示了这一过程：权重高的词在饼图中占比大，权重低的词占比小，让 “选择性关注” 的效果一目了然。

5. 加权求和：结合 V 向量生成最终注意力输出

最后，用 Softmax 得到的权重向量，与所有词的 V 向量进行 “加权求和”—— 权重越高的 V 向量，对最终结果的贡献越大。

仍以词 “sits” 为例：

注意力输出 = （0.4×“cat” 的 V 向量） + （0.3×“mat” 的 V 向量） + （0.05×“the” 的 V 向量） + ...
这个输出向量，就包含了 “sits” 与序列中所有词的关联信息，既突出了 “cat”“mat” 等关键词的贡献，又保留了其他词的辅助信息。

若序列长度为 6，这一步会生成一个 “1×512” 的注意力输出向量；对所有词重复上述流程，最终得到 “6×512” 的自注意力层输出矩阵，传递给下一层的前馈神经网络。

三、多头注意力：多维度 “看” 序列，提升关联捕捉能力

理解了自注意力的流程后，我们自然会问：为什么 Transformer 要设计 “多头注意力（Multi-Head Attention）”，而不是只用一个注意力头？

答案很简单：单一注意力头只能从 “一个角度” 捕捉序列关联，而多头注意力可以通过 “多个并行的注意力头”，从 “多个维度” 捕捉关联 —— 就像多个人从不同视角分析同一问题，最终汇总的结论会更全面。

1. 多头注意力的实现逻辑

多头注意力的计算流程可拆解为 3 步：

拆分（Split）：将 Q、K、V 矩阵按 “头数” 拆分为多个子矩阵。比如将 “6×512” 的 Q 矩阵拆分为 8 个 “6×64” 的子 Q 矩阵（512÷8=64，每个头对应 64 维）；
并行计算（Parallel Attention）：8 个注意力头同时执行上述自注意力计算流程，每个头生成一个 “6×64” 的子输出矩阵；
拼接（Concatenate）：将 8 个 “6×64” 的子输出矩阵拼接为一个 “6×512” 的矩阵，再通过一个线性变换层，得到多头注意力层的最终输出。

2. 多头注意力的核心价值：多维度关联捕捉

每个注意力头会关注序列的不同维度，比如在处理 “The cat sits on the mat” 时：

头 1：重点关注 “主谓关系”（“cat”→“sits”）；
头 2：重点关注 “动宾 / 位置关系”（“sits”→“mat”）；
头 3：重点关注 “冠词与名词的搭配”（“The”→“cat”，“the”→“mat”）；
通过多个头的协同，模型能更全面地理解序列的语义结构，避免单一视角导致的信息遗漏。

视频用 “多窗口视图” 动画展示了这一效果：每个窗口代表一个注意力头，窗口内用颜色深浅标注权重，不同窗口的权重分布差异明显，直观体现了 “多维度关注” 的特点。

四、注意力机制的 “变种”：自注意力、交叉注意力与掩码注意力的差异

在 Transformer 中，注意力机制有三种常见 “变种”，它们的核心计算流程一致，仅在 Q、K、V 的来源上存在差异：

自注意力（Self-Attention）：Q、K、V 均来自同一序列（如编码器的自注意力，Q/K/V 均为编码器输入），用于捕捉序列内部的关联；
交叉注意力（Cross-Attention）：Q 来自一个序列，K、V 来自另一个序列（如解码器的交叉注意力，Q 来自解码器，K/V 来自编码器），用于跨序列关联；
掩码注意力（Masked Attention）：仅在自注意力基础上新增 “掩码”（屏蔽未来位置信息），Q/K/V 仍来自同一序列（如解码器的掩码自注意力），用于保证生成逻辑。

理解这种差异，能帮助我们快速区分不同模块的注意力作用 —— 比如看到 “交叉注意力”，就知道它是解码器与编码器的 “信息桥梁”；看到 “掩码注意力”，就知道它是为了避免生成时 “偷看” 未来内容。

结语：注意力机制的 “简洁与强大”

回顾注意力机制的设计，我们会发现它的核心逻辑异常简洁：用 QKV 模拟信息检索，用权重体现关注程度，用多头实现多维度关联。但正是这种简洁的设计，彻底改变了序列建模的范式 —— 它让模型既能并行处理序列，又能精准捕捉全局关联，为 Transformer 的高效与强大奠定了基础。

至此，我们已完整掌握 Transformer 的核心模块（编码器、解码器、输入部分、注意力机制），接下来的学习将聚焦于模型的训练细节与实际应用，进一步将理论转化为对大模型的深层认知。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

手把手带你使用LangChain框架从0实现RAG，大模型入门到精通，收藏这篇就足够了！

本文将带大家用 LangChain 框架，结合向量数据库，构建一个简易的 RAG 系统，并完成一个端到端的问答任务。

2048 AI社区

NVIDIA Blackwell B200 与 Hopper H100 架构深度对比：技术迭代驱动算力市场格局重构

企业对算力的需求，促进了算力平台的发展，天罡智算平台（https://www.tiangangaitp.com）就是其中的佼佼者：提供弹性GPU算力，灵活选择GPU类型和数量，按需动态使用，打破固定时长租期的束缚，只需为实际使用的资源付费。预计至2025年底，在训练如DeepSeek 670B等大型MoE模型时，B200的每token能耗仅相当于H100的四分之一，从而在长期运行中带来显著的电力成