【人工智能99问】Qwen3中的QK归一化是什么？(34/99)

Qwen3中的**QK归一化（QK-Norm）**是一种针对注意力机制中查询（Q）和键（K）的改进归一化方法，旨在提升训练稳定性和推理精度。QK归一化是Qwen3在注意力机制上的关键改进，通过点积前归一化+可学习参数调节，实现了训练稳定性、推理精度和硬件兼容性的全面提升。这一设计不仅解决了传统Transformer的数值溢出问题，还为大模型在边缘设备的部署提供了可行性，是Qwen3成为开源SOTA

9呀

765人浏览 · 2025-08-31 19:47:55

9呀 · 2025-08-31 19:47:55 发布

文章目录

Qwen3中的QK归一化简介

Qwen3中的QK归一化简介

Qwen3中的**QK归一化（QK-Norm）**是一种针对注意力机制中查询（Q）和键（K）的改进归一化方法，旨在提升训练稳定性和推理精度。以下从技术原理、与原始Transformer的区别、操作步骤及实例展开详细说明：

一、QK归一化的核心设计

QK归一化是Qwen3在注意力机制上的关键创新，其核心逻辑是在计算Q与K的点积前，对Q和K进行逐层归一化，并引入可学习参数动态调节注意力分布。具体实现上，Qwen3采用**RMSNorm（均方根归一化）**对每个注意力头的Q和K分别处理，公式为：
$\text{RMSNorm}(x) = \gamma \cdot \frac{x}{\sqrt{\text{mean}(x^2) + \epsilon}}$
其中， $\gamma$ 是可学习的缩放参数， $\epsilon$ 是防止分母为零的小常数。这一操作强制Q和K的范数分布更集中，避免数值溢出并增强梯度稳定性。

二、与原始Transformer的核心区别

对比维度	原始Transformer	Qwen3的QK归一化
归一化位置	点积后除以 $\sqrt{d_k}$ （缩放点积注意力）	点积前对Q和K分别进行RMSNorm
归一化方式	全局固定缩放（ $\sqrt{d_k}$ ）	动态归一化，基于每个头的统计量（均值、方差）
偏置项	通常包含QKV偏置项	移除QKV偏置项，仅通过归一化稳定训练
数值稳定性	当 $d_k$ 较大时易导致点积结果过大，引发softmax梯度消失或FP16推理溢出	通过归一化将点积结果控制在安全范围（如d_k=128时，点积最大值约为128，远低于FP16上限65504）
可学习参数	无	每个头独立的 $\gamma$ 参数，可动态调整注意力分布

三、具体操作步骤

线性变换生成Q、K、V
输入序列通过线性层投影得到Q、K、V，维度为 $batch, seq\_len, head\_dim]$ 。
Q和K的RMSNorm归一化
对每个头的Q和K分别应用RMSNorm：
$\text{RMSNorm}(Q), \quad K' = \text{RMSNorm}(K)$
这一步在旋转位置编码（RoPE）之前执行，确保位置信息与归一化后的Q、K结合。
应用旋转位置编码（RoPE）
对归一化后的Q’和K’施加RoPE，公式为：
$\cdot \cos(\theta_m) - Q'_{\text{rot}} \cdot \sin(\theta_m)$
其中 $\theta_m$ 是位置相关的旋转角度，增强模型对相对位置的感知。
计算点积与softmax
归一化后的Q’‘和K’'进行点积，得到注意力得分矩阵：
$\text{scores} = Q'' \cdot K''^T$
随后应用softmax生成注意力权重，再与V加权求和得到输出。

四、实例说明

假设输入序列包含两个token，每个token的Q和K维度为 $d_k=64$ ，且每个头独立处理：

原始Transformer流程
- Q和K未经归一化，直接计算点积：
  $\text{scores} = \frac{Q \cdot K^T}{\sqrt{64}} = \frac{Q \cdot K^T}{8}$
- 若Q和K的范数较大（如均值为10），点积结果可能超过1000，导致FP16溢出。
Qwen3的QK归一化流程
- 对Q和K分别进行RMSNorm：
  $\frac{Q}{\sqrt{\text{mean}(Q^2)}} \cdot \gamma, \quad K' = \frac{K}{\sqrt{\text{mean}(K^2)}} \cdot \gamma$
  假设 $\gamma=1$ ，Q和K的范数被归一化为1。
- 应用RoPE后计算点积：
  $\text{scores} = Q' \cdot K'^T$
  此时点积结果范围被严格限制在[-64, 64]，彻底避免溢出风险。
可视化对比
- 原始Transformer：点积结果分布分散，可能包含极大值（如1000+）。
- Qwen3：点积结果集中在较小区间（如-64到64），softmax输出更稳定，梯度回传更有效。

五、技术优势与应用价值

训练稳定性提升
移除QKV偏置并引入动态归一化，有效缓解深层网络中的梯度消失/爆炸问题，尤其适用于MoE架构等复杂模型。
端侧推理优化
在FP16或INT8量化场景下，QK归一化后的Q和K点积结果远低于硬件精度上限，显著降低溢出概率。实测显示，Qwen3在移动端的推理稳定性比Qwen2提升40%以上。
多语言泛化能力
Qwen3支持119种语言，QK归一化通过统一不同语言token的分布，增强跨语言任务的表现，例如在MT-AIME2024（55语言数学推理）中准确率提升12%。

六、总结

QK归一化是Qwen3在注意力机制上的关键改进，通过点积前归一化+可学习参数调节，实现了训练稳定性、推理精度和硬件兼容性的全面提升。这一设计不仅解决了传统Transformer的数值溢出问题，还为大模型在边缘设备的部署提供了可行性，是Qwen3成为开源SOTA模型的重要技术基石之一。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Datawhale Happy-LLM 202509 第8次作业

架构就像一位专业的"作家"，它不需要深度理解输入，而是专注于如何流畅地生成文本。正是这种专注，让它成为了当今大语言模型的基石。想象一下，如果AI模型不是"全才"，而是专攻"创作"的"作家"，会是什么样子？让GPT掌握了语言的生成规律，成为真正的"文本创作专家"。——当今所有大语言模型（如ChatGPT）的核心架构！模型通过看例子就能学会判断，不再需要大量训练数据。当GPT系列闭源发展时，Meta公

2048 AI社区

010-网络命令与工具

网络诊断命令与工具摘要本文介绍了网络管理员常用的诊断命令和工具，主要包括ping、traceroute等基本连通性测试工具，以及netstat、tcpdump等高级分析工具。文章详细讲解了ping命令的语法、使用示例和结果分析方法，并提供了Python脚本实现ping结果自动解析与质量评估。同时解释了traceroute的工作原理，通过Mermaid图展示了其追踪网络路径的机制。这些工具能有效诊

2048 AI社区

毕设成品 stm32与深度学习口罩佩戴检测系统(源码+硬件+论文)

本文介绍了一个基于STM32与深度学习的口罩佩戴检测系统，该系统通过PC端摄像头实时检测人脸口罩佩戴情况，并将结果通过WiFi传输至STM32控制器进行显示和报警。系统硬件包括STM32开发板、蜂鸣器、WiFi模块和液晶屏。软件部分采用深度学习模型训练（准确率达97%），结合TCP通信实现上下位机交互。系统能准确识别佩戴口罩、未佩戴及不正确佩戴三种状态，并触发相应报警功能。该项目创新性地结合嵌入式

2048 AI社区

所有评论(0)

查看更多评论

9呀

@EnHengNa

已为社区贡献5条内容