为什么缩放点积自注意力除以√d
考虑两个独立的随机向量a和b,这两个向量的长度均为d,并且都取自均值为零、方差为单位方差的高斯分布N⋅∣0I。证明a⊤b的方差由d给出。ab∈Rda∼N0Ib∼N0Ia与b独立Vara⊤bd令Xa⊤bi1∑daibi方差公式VarXEX2−EX2EX2期望的计算EXi1∑dEaibii1∑dEaiEbi。
考虑两个独立的随机向量a\boldsymbol{a}a和b\boldsymbol{b}b,这两个向量的长度均为ddd,并且都取自均值为零、方差为单位方差的高斯分布N(⋅∣0,I){N}(\cdot \mid \boldsymbol{0}, \boldsymbol{I})N(⋅∣0,I)。证明a⊤b\boldsymbol{a}^\top \boldsymbol{b}a⊤b的方差由ddd给出。
已知:
a,b∈Rd,a∼N(0,I),b∼N(0,I),a 与 b 独立. \boldsymbol{a}, \boldsymbol{b} \in {R}^d, \quad \boldsymbol{a} \sim {N}(\boldsymbol{0}, \boldsymbol{I}), \quad \boldsymbol{b} \sim {N}(\boldsymbol{0}, \boldsymbol{I}), \quad \boldsymbol{a} \text{ 与 } \boldsymbol{b} \text{ 独立}. a,b∈Rd,a∼N(0,I),b∼N(0,I),a 与 b 独立.
证明:
Var(a⊤b)=d. \operatorname{Var}(\boldsymbol{a}^\top \boldsymbol{b}) = d. Var(a⊤b)=d.
令
X=a⊤b=∑i=1daibi. X = \boldsymbol{a}^\top \boldsymbol{b} = \sum_{i=1}^d a_i b_i. X=a⊤b=i=1∑daibi.
方差公式
Var(X)=E[X2]−(E[X])2=E[X2]. \operatorname{Var}(X) = {E}[X^2] - ({E}[X])^2 = {E}[X^2]. Var(X)=E[X2]−(E[X])2=E[X2].
期望的计算
E[X]=∑i=1dE[aibi]=∑i=1dE[ai]E[bi]=0. {E}[X] = \sum_{i=1}^d {E}[a_i b_i] = \sum_{i=1}^d {E}[a_i] {E}[b_i] = 0. E[X]=i=1∑dE[aibi]=i=1∑dE[ai]E[bi]=0.
因为aia_iai与bib_ibi独立且每个均值为 0。
E[X2]{E}[X^2]E[X2]的计算
X2=∑i=1d∑j=1daibiajbj. X^2 = \sum_{i=1}^d \sum_{j=1}^d a_i b_i a_j b_j. X2=i=1∑dj=1∑daibiajbj.
取期望:
E[X2]=∑i=1d∑j=1dE[aiajbibj]. {E}[X^2] = \sum_{i=1}^d \sum_{j=1}^d {E}[a_i a_j b_i b_j]. E[X2]=i=1∑dj=1∑dE[aiajbibj].
由于a\boldsymbol{a}a与b\boldsymbol{b}b独立,
E[aiajbibj]=E[aiaj]⋅E[bibj]. {E}[a_i a_j b_i b_j] = {E}[a_i a_j] \cdot {E}[b_i b_j]. E[aiajbibj]=E[aiaj]⋅E[bibj].
对于标准正态分布:
E[aiaj]=δij={1i=j0i≠j. {E}[a_i a_j] = \delta_{ij} = \begin{cases} 1 & i=j \\ 0 & i\neq j \end{cases}. E[aiaj]=δij={10i=ji=j.
同样地,E[bibj]=δij{E}[b_i b_j] = \delta_{ij}E[bibj]=δij。
因此
E[aiaj]⋅E[bibj]=δij⋅δij=δij. {E}[a_i a_j] \cdot {E}[b_i b_j] = \delta_{ij} \cdot \delta_{ij} = \delta_{ij}. E[aiaj]⋅E[bibj]=δij⋅δij=δij.
求和
E[X2]=∑i=1d∑j=1dδij=∑i=1d1=d. {E}[X^2] = \sum_{i=1}^d \sum_{j=1}^d \delta_{ij} = \sum_{i=1}^d 1 = d. E[X2]=i=1∑dj=1∑dδij=i=1∑d1=d.
所以:
Var(X)=E[X2]=d. \operatorname{Var}(X) = {E}[X^2] = d. Var(X)=E[X2]=d.
结论
d \boxed{d} d
即:
Var(a⊤b)=d. \operatorname{Var}(\boldsymbol{a}^\top \boldsymbol{b}) = d. Var(a⊤b)=d.
更多推荐

所有评论(0)