为什么缩放点积自注意力除以√d

考虑两个独立的随机向量a和b，这两个向量的长度均为d，并且都取自均值为零、方差为单位方差的高斯分布N⋅∣0I。证明a⊤b的方差由d给出。ab∈Rda∼N0Ib∼N0Ia与b独立Vara⊤bd令Xa⊤bi1∑daibi方差公式VarXEX2−EX2EX2期望的计算EXi1∑dEaibii1∑dEaiEbi。

phoenix@Capricornus

534人浏览 · 2025-12-20 17:17:31

phoenix@Capricornus · 2025-12-20 17:17:31 发布

考虑两个独立的随机向量 $a\boldsymbol{a}$ 和 $b\boldsymbol{b}$ ，这两个向量的长度均为 $d$ ，并且都取自均值为零、方差为单位方差的高斯分布 $N(⋅∣0,I){N}(\cdot \mid \boldsymbol{0}, \boldsymbol{I})$ 。证明 $a⊤b\boldsymbol{a}^\top \boldsymbol{b}$ 的方差由 $d$ 给出。

已知：
$\boldsymbol{a}, \boldsymbol{b} \in {R}^d, \quad \boldsymbol{a} \sim {N}(\boldsymbol{0}, \boldsymbol{I}), \quad \boldsymbol{b} \sim {N}(\boldsymbol{0}, \boldsymbol{I}), \quad \boldsymbol{a} \text{ 与 } \boldsymbol{b} \text{ 独立}.$
证明：
$\operatorname{Var}(\boldsymbol{a}^\top \boldsymbol{b}) = d.$

令
$\boldsymbol{a}^\top \boldsymbol{b} = \sum_{i=1}^d a_i b_i.$
方差公式
$\operatorname{Var}(X) = {E}[X^2] - ({E}[X])^2 = {E}[X^2].$
期望的计算
$\sum_{i=1}^d {E}[a_i b_i] = \sum_{i=1}^d {E}[a_i] {E}[b_i] = 0.$

因为 $a_i$ 与 $b_i$ 独立且每个均值为 0。

${E}[X^2]$ 的计算

$X^2 = \sum_{i=1}^d \sum_{j=1}^d a_i b_i a_j b_j.$

取期望：
${E}[X^2] = \sum_{i=1}^d \sum_{j=1}^d {E}[a_i a_j b_i b_j].$

由于 $a\boldsymbol{a}$ 与 $b\boldsymbol{b}$ 独立，
${E}[a_i a_j b_i b_j] = {E}[a_i a_j] \cdot {E}[b_i b_j].$

对于标准正态分布：
${E}[a_i a_j] = \delta_{ij} = \begin{cases} 1 & i=j \\ 0 & i\neq j \end{cases}.$
同样地， $E[bibj]=δij{E}[b_i b_j] = \delta_{ij}$ 。

因此
${E}[a_i a_j] \cdot {E}[b_i b_j] = \delta_{ij} \cdot \delta_{ij} = \delta_{ij}.$
求和
${E}[X^2] = \sum_{i=1}^d \sum_{j=1}^d \delta_{ij} = \sum_{i=1}^d 1 = d.$

所以：
$\operatorname{Var}(X) = {E}[X^2] = d.$

结论

$\boxed{d}$
即：
$\operatorname{Var}(\boldsymbol{a}^\top \boldsymbol{b}) = d.$

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

从智慧办公到场景赋能，移动云电脑助力千行百业解锁数智价值

资源方面，该产品汇聚国家智慧中小学平台11万优质教育资源，能够满足不同地区、不同阶段用户的学习需求，并能以视频、课件、题库等多样化形式，打通课前－课中－课后全流程，助力优质教育资源下沉；目前，移动云电脑已集成智能问答、创意生成、智慧会议、知识管理、睿智创作、智研报告等丰富AI功能，全方位覆盖日常办公的各个环节，能够大幅提升用户的办公效率与创新能力。目前，移动云电脑已广泛应用于政务、教育、医疗、金融