最基本矩阵求导公式
文章目录1. 矩阵求导法则1.1 标量求导1.2 向量求导1.3矩阵求导1. 矩阵求导法则矩阵的求导分为:标量求导、向量求导、矩阵求导三个方面。1.1 标量求导矩阵和向量对标量求导,只需矩阵中的每个量都对标量进行求导,这个很好理解。标量对矩阵的向量求导,也是同样的,等价于标量对矩阵的每个分量进行求导,并且保持维数不变。举例。设yyy为一个标量,xT=[x1x2⋯xn]x^T=[x_...
1. 矩阵求导法则
矩阵的求导分为:标量求导、向量求导、矩阵求导三个方面。
1.1 标量求导
- 矩阵和向量对标量求导,只需矩阵中的每个量都对标量进行求导,这个很好理解。
- 标量对矩阵的向量求导,也是同样的,等价于标量对矩阵的每个分量进行求导,并且保持维数不变。
举例。设 y y y为一个标量, x T = [ x 1 x 2 ⋯ x n ] x^T=[x_1 x_2 \cdots x_n] xT=[x1x2⋯xn]为一个行向量,则:
∂ y ∂ x T = [ ∂ y ∂ x 1 ⋯ ∂ y ∂ x n ] \frac{\partial y}{\partial x^T}=[ \frac{\partial y}{\partial x_1} \cdots \frac{\partial y}{\partial x_n} ] ∂xT∂y=[∂x1∂y⋯∂xn∂y]
1.2 向量求导
对于向量求导,我们可以将向量看做一个标量,先使用上面的标量求导法则,最后将向量形式化为标量进行。
举例,
设 y T = [ y 1 ⋯ y n ] y^T=[y_1 \cdots y_n] yT=[y1⋯yn] 是一个行向量,
x = [ x 1 ⋮ x m ] x=\begin{bmatrix} x_1 \\ \vdots \\ x_m\end{bmatrix} x=⎣⎢⎡x1⋮xm⎦⎥⎤是一个列向量。
则
∂ y T ∂ x = [ ∂ y 1 ∂ x ⋯ ∂ y n ∂ x ] = [ ∂ y 1 ∂ x 1 ⋯ ∂ y n ∂ x 1 ⋮ ⋱ ⋮ ∂ y 1 ∂ x m ⋯ ∂ y n ∂ x m ] \begin{aligned} \frac{\partial y^T}{\partial x}&=[\frac{\partial y_1}{\partial x} \cdots \frac{\partial y_n}{\partial x}] \\ &= \begin{bmatrix} \frac{\partial y_1}{\partial x_1} & \cdots & \frac{\partial y_n}{\partial x_1} \\ \vdots&\ddots&\vdots \\ \frac{\partial y_1}{\partial x_m} & \cdots & \frac{\partial y_n}{\partial x_m} \end{bmatrix} \end{aligned} ∂x∂yT=[∂x∂y1⋯∂x∂yn]=⎣⎢⎡∂x1∂y1⋮∂xm∂y1⋯⋱⋯∂x1∂yn⋮∂xm∂yn⎦⎥⎤
1.3矩阵求导
与向量求导类似,先将矩阵当做一个标量,再使用标量的求导法则。
举例,
设 Y = [ y 11 ⋯ y 1 m ⋮ ⋱ ⋮ y n 1 ⋯ y n m ] Y=\begin{bmatrix} y_{11} & \cdots & y_{1m} \\ \vdots & \ddots & \vdots \\ y_{n1} & \cdots & y_{nm}\end{bmatrix} Y=⎣⎢⎡y11⋮yn1⋯⋱⋯y1m⋮ynm⎦⎥⎤是 n ∗ m n*m n∗m矩阵, x = [ x 1 , ⋯   , x p ] x=[x_1,\cdots,x_p] x=[x1,⋯,xp]是 p p p维列向量,则
∂ Y ∂ x = [ ∂ Y ∂ x 1 , ⋯   , ∂ Y ∂ x p ] \frac{\partial Y}{\partial x}=[\frac{\partial Y}{\partial x_1}, \cdots, \frac{\partial Y}{\partial x_p}] ∂x∂Y=[∂x1∂Y,⋯,∂xp∂Y]
更多推荐
所有评论(0)