向量的导数运算和向量叉乘以及点乘的导数运算

向量和向量之间的导数，以及它们的叉积的导数

夕阳染色的坡道

6763人浏览 · 2022-06-17 23:40:46

夕阳染色的坡道 · 2022-06-17 23:40:46 发布

目的：最近在写优化代码，需要对函数中的变量求导，以及求得它们的雅克比矩阵。因此用到向量以及矩阵的求导。

一个向量可以表示为如下： $Y=[y_1,y_2,...,y_m]^T$
向量导数的基本知识。它分为以下几类：
1)向量 $Y=[y_1,y_2,...,y_m]^T$ 对 $x$ 标量求导:
$\cfrac{\partial{Y}}{\partial{x}}=\begin{bmatrix} \cfrac{\partial{y_1}}{\partial{x}} \\ \cfrac{\partial{y_2}}{\partial{x}} \\ \vdots \\ \cfrac{\partial{y_m}}{\partial{x}} \end{bmatrix}$
如果 $Y=[y_1,y_2,...,y_m]$ 是行向量，则求导
$\cfrac{\partial{Y}}{\partial{x}}=\begin{bmatrix} \cfrac{\partial{y_1}}{\partial{x}} \space \cfrac{\partial{y_2}}{\partial{x}} \ldots \cfrac{\partial{y_m}}{\partial{x}} \end{bmatrix}$

2)标量 $y$ 对向量 $X=[x_1,x_2,...,x_m]^T$ 求导
$\cfrac{\partial{y}}{\partial{X}}=\begin{bmatrix} \cfrac{\partial{y}}{\partial{x_1}} \\ \cfrac{\partial{y}}{\partial{x_2}} \\ \vdots \\ \cfrac{\partial{y}}{\partial{x_m}} \end{bmatrix}$
如果 $X=[x_1,x_2,...,x_m]$ 为行向量：
$\cfrac{\partial{y}}{\partial{X}}=\begin{bmatrix} \cfrac{\partial{y}}{\partial{x_1}} \space \cfrac{\partial{y}}{\partial{x_2}} \ldots \cfrac{\partial{y}}{\partial{x_m}} \end{bmatrix}$

3)向量 $Y=[y_1,y_2,...,y_m]^T$ 对向量 $X=[x_1,x_2,...,x_n]$ 求导
$\cfrac{\partial{Y}}{\partial{X}}=\begin{bmatrix} \cfrac{\partial{y_1}}{\partial{x_1}} \space \space \cfrac{\partial{y_1}}{\partial{x_2}} \space \space \ldots \space \space \cfrac{\partial{y_1}}{\partial{x_n}} \\ \cfrac{\partial{y_2}}{\partial{x_1}} \space \space \cfrac{\partial{y_2}}{\partial{x_2}} \space \space \ldots \space \space \cfrac{\partial{y_2}}{\partial{x_n}} \\ \vdots \\ \cfrac{\partial{y_m}}{\partial{x_1}} \space \space \cfrac{\partial{y_m}}{\partial{x_2}} \space \space \ldots \space \space \cfrac{\partial{y_m}}{\partial{x_n}} \end{bmatrix}$
向量对向量求导也是所谓的雅克比矩阵，它在优化中非常见。

如果是矩阵的话，
如 $Y$ 是矩阵的时候，它的表达：
$Y=\begin{bmatrix} y_{11} \space \space y_{12} \space \space \ldots \space \space y_{1n} \\ y_{21} \space \space y_{22} \space \space \ldots \space \space y_{2n} \\ \vdots \\ y_{m1} \space \space y_{m2} \space \space \ldots \space \space y_{mn} \end{bmatrix}$
如 $X$ 是矩阵的时候，它的表达：
$X=\begin{bmatrix} x_{11} \space \space x_{12} \space \space \ldots \space \space x_{1n} \\ x_{21} \space \space x_{22} \space \space \ldots \space \space x_{2n} \\ \vdots \\ x_{m1} \space \space x_{m2} \space \space \ldots \space \space x_{mn} \end{bmatrix}$

矩阵的导数有两种，如下
1)矩阵 $Y$ 对标量 $x$ 求导:
$\cfrac{\partial{Y}}{\partial{x}}=\begin{bmatrix} \cfrac{\partial{y_{11}}}{\partial{x}} \space \space \cfrac{\partial{y_{12}}}{\partial{x}} \space \space \ldots \space \space \cfrac{\partial{y_{1n}}}{\partial{x}} \\ \cfrac{\partial{y_{21}}}{\partial{x}} \space \space \cfrac{\partial{y_{22}}}{\partial{x}} \space \space \ldots \space \space \cfrac{\partial{y_{2n}}}{\partial{x}} \\ \vdots \\ \cfrac{\partial{y_{m1}}}{\partial{x}} \space \space \cfrac{\partial{y_{m2}}}{\partial{x}} \space \space \ldots \space \space \cfrac{\partial{y_{mn}}}{\partial{x}} \end{bmatrix}$
2)标量 $y$ 对矩阵 $X$ 求导:
$\cfrac{\partial{y}}{\partial{X}}=\begin{bmatrix} \cfrac{\partial{y}}{\partial{x_{11}}} \space \space \cfrac{\partial{y}}{\partial{x_{12}}} \space \space \ldots \space \space \cfrac{\partial{y}}{\partial{x_{1n}}} \\ \cfrac{\partial{y}}{\partial{x_{21}}} \space \space \cfrac{\partial{y}}{\partial{x_{22}}} \space \space \ldots \space \space \cfrac{\partial{y}}{\partial{x_{2n}}} \\ \vdots \\ \cfrac{\partial{y}}{\partial{x_{m1}}} \space \space \cfrac{\partial{y}}{\partial{x_{m2}}} \space \space \ldots \space \space \cfrac{\partial{y}}{\partial{x_{mn}}} \end{bmatrix}$
这是基本的向量的导数定义。基于这些定义以及一些基本的运算法则，得到一些组合的公式。在几何算法的编程中非常有用。

公式中的向量求导，在一般公式中会多个向量以及向量依赖，因此，在求导数的时候希望它能满足标量求导的链式法则。
假设向量相互依赖的关系为： $U - > V - > W$
则偏导数为：
$\cfrac{\partial{W}}{\partial{U}}=\cfrac{\partial{W}}{\partial{V}} \space \space \cfrac{\partial{V}}{\partial{U}}$

证明：只需要拆开逐一对元素求导得到：
$∂V∂uj\cfrac{\partial{w_i}}{\partial{u_j}} = \sum_{k}\cfrac{\partial{w_i}}{\partial{v_k}}\space \cfrac{\partial{v_k}}{\partial{u_j}} =\cfrac{\partial{w_i}}{\partial{V}} \space \cfrac{\partial{V}}{\partial{u_j}}$
由此可见 $∂wi∂uj\cfrac{\partial{w_i}}{\partial{u_j}}$ 是等于矩阵 $∂W∂V\cfrac{\partial{W}}{\partial{V}}$ 第 $i$ 行和矩阵 $∂V∂U\cfrac{\partial{V}}{\partial{U}}$ 的第 $j$ 列的内积，这是矩阵的乘法定义。
它很容易能推广到多层中间变量的情景。

在变量中遇到的情况是常常公式为 $F$ 为一个实数，中间变量都是向量的时候，它的依赖为：
$X - > V - > U - > f$
根据雅克比矩阵的传递性可以得到如下：
$\cfrac{\partial{F}}{\partial{X}} = \cfrac{\partial{F}}{\partial{U}}\space \cfrac{\partial{U}}{\partial{V}} \space \cfrac{\partial{V}}{\partial{X}}$
因为 $f$ 为标量，因此它写成如下形式：
$\cfrac{\partial{f}}{\partial{X^T}} = \cfrac{\partial{f}}{\partial{U^T}}\space \cfrac{\partial{U}}{\partial{V}} \space \cfrac{\partial{V}}{\partial{X}}$
为了便于计算，上述需要转为行向量 $U^T$ , $X^T$ 计算。这个非常重要。

下面介绍向量求倒数的时候遇到的常用的运算公式，它们有以下两类

1）两向量 $U$ , $V$ （列向量）点积的结果对 $W$ 求导:
$\cfrac{\partial{(U^T V)}}{\partial{W}} = V^T ( \cfrac{\partial{U}}{\partial{W}}) +U^T ( \cfrac{\partial{V}}{\partial{W}}) \space (4)$
点积的导数公式证明后续补上。
证明：假设 $U=[u0u1u3]U=\begin{bmatrix} u_0 \\ u_1 \\ u_3 \end{bmatrix}$ 和 $V=[v0v1v3]V=\begin{bmatrix} v_0 \\ v_1 \\ v_3 \end{bmatrix}$ ，它们为三维向量。得到点乘为 $f=U^T V$ ，它是一个标量为： $f=u_0v_0+u_1v_1+u_2v_2$ ，然后求它对 $W$ 的导数

$\cfrac{\partial{f}}{\partial{W}}=\cfrac{\partial{(u_0v_0+u_1v_1+u_2v_2)}}{\partial{W}} \\ =\cfrac{\partial{u_0}}{\partial{W}}v_0 + \cfrac{\partial{v_0}}{\partial{W}}u_0 + \cfrac{\partial{u_1}}{\partial{W}}v_1 + \cfrac{\partial{v_1}}{\partial{W}}u_1 + \cfrac{\partial{u_2}}{\partial{W}}v_2 + \cfrac{\partial{v_2}}{\partial{W}}u_2 \\ =(\cfrac{\partial{u_0}}{\partial{W}}v_0 + \cfrac{\partial{u_1}}{\partial{W}}v_1 + \cfrac{\partial{u_2}}{\partial{W}}v_2) + (\cfrac{\partial{v_0}}{\partial{W}}u_0 + \cfrac{\partial{v_1}}{\partial{W}}u_1 + \cfrac{\partial{v_2}}{\partial{W}}u_2) \\ =V^T ( \cfrac{\partial{U}}{\partial{W}}) +U^T ( \cfrac{\partial{V}}{\partial{W}})$

它可以推广到其它的维度。证明完毕。

如果 $W$ 是标量其实直接代入 $(4)$ 即可。但是如果 $W$ 为向量，在计算中 $W$ 就是行向量。因为定义jacobi矩阵是，列向量对行向量就行求导。但是如果 $W$ 是列向量（和U,V同样列向量），一般表示为 $W^T$ (行向量)，所以在一般情况下公式 $(4)$ 写成：
$\cfrac{\partial{(U^T V)}}{\partial{W^T}} = V^T ( \cfrac{\partial{U}}{\partial{W^T}}) +U^T ( \cfrac{\partial{V}}{\partial{W^T}})$

2）两个向量 $U$ , $V$ (列向量)叉积的结果对 $W$ 求导:
$\cfrac{\partial{(U \times V)}}{\partial{W}} = -Skew(V)( \cfrac{\partial{U}}{\partial{W}}) +Skew(U)( \cfrac{\partial{V}}{\partial{W}}) \space (5)$
其中
$\begin{bmatrix} 0 \space \space -U_3 \space \space U_2 \\ U_3 \space \space 0 \space \space -U_1 \\ -U_2 \space \space U_1 \space \space 0 \end{bmatrix}$
其中 $S k e w (V)$ 是将叉乘转化为点积的矩阵。它非常容易证明，因为它就是矩阵展开即可。
对于多个向量叉乘的时候，需要对公式进行转化。叉乘满足分配率。
$\cfrac{\partial{(U \times V)}}{\partial{W}} = ( \cfrac{\partial{U}}{\partial{W}}) \times V + U \times ( \cfrac{\partial{V}}{\partial{W}}) \space (6)$
证明后续再补上。(5)和(6)两者的公式是想通的。只是表达形式不同。它们的转化后面再补上。

证明：假设 $U=[u0u1u3]U=\begin{bmatrix} u_0 \\ u_1 \\ u_3 \end{bmatrix}$ 和 $V=[v0v1v3]V=\begin{bmatrix} v_0 \\ v_1 \\ v_3 \end{bmatrix}$ ，它们为三维向量。

$\times V = \begin{bmatrix} i \space \space j \space \space k \\ u_0 \space \space u_1 \space \space u_2 \\ v_0 \space \space v_1 \space \space v_2 \end{bmatrix} \\ = (u_1v_2 - u_1v_2)i+ (u_2v_0 - u_0v_2)j+ (u_0v_1 - u_1v_0)k$

它是一个向量，因此展开后，它的表达为如下：

$\times V = \begin{bmatrix} (u_1v_2 - u_2v_1) \\ (u_2v_0 - u_0v_2) \\ (u_0v_1 - u_1v_0) \end{bmatrix}$

展开后得到如下：

$\cfrac{\partial{(U \times V)}}{\partial{W}} = \begin{bmatrix} \cfrac{\partial{(u_1v_2 - u_2v_1) }}{\partial{W}} \\ \cfrac{\partial{ (u_2v_0 - u_0v_2)}}{\partial{W}}\\ \cfrac{\partial{ (u_0v_1 - u_1v_0)}}{\partial{W}}\\ \end{bmatrix} = \cfrac{\partial{(u_1v_2 - u_2v_1) }}{\partial{W}} I + \cfrac{\partial{ (u_2v_0 - u_0v_2)}}{\partial{W}}J+ \cfrac{\partial{ (u_0v_1 - u_1v_0)}}{\partial{W}}K \\ = (\cfrac{\partial{u_1}}{\partial{W}}*v_2+\cfrac{\partial{v_2}}{\partial{W}}*u_1-\cfrac{\partial{u_2}}{\partial{W}}*v_1-\cfrac{\partial{v_1}}{\partial{W}}*u_2)I+(\cfrac{\partial{u_2}}{\partial{W}}*v_0+\cfrac{\partial{v_0}}{\partial{W}}*u_2-\cfrac{\partial{u_0}}{\partial{W}}*v_2-\cfrac{\partial{v_2}}{\partial{W}}*u_0)J + (\cfrac{\partial{u_0}}{\partial{W}}*v_1+\cfrac{\partial{v_1}}{\partial{W}}*u_0-\cfrac{\partial{u_1}}{\partial{W}}*v_0-\cfrac{\partial{v_0}}{\partial{W}}*u_1)K \\ =[(\cfrac{\partial{u_1}}{\partial{W}}*v_2 -\cfrac{\partial{u_2}}{\partial{W}}*v_1)I + (\cfrac{\partial{u_2}}{\partial{W}}*v_0 - \cfrac{\partial{u_0}}{\partial{W}}*v_2)J + (\cfrac{\partial{u_0}}{\partial{W}}*v_1 - \cfrac{\partial{u_1}}{\partial{W}}*v_0)K] + [(\cfrac{\partial{v_2}}{\partial{W}}*u_1 -\cfrac{\partial{v_1}}{\partial{W}}*u_2)I + (\cfrac{\partial{v_0}}{\partial{W}}*u_2 - \cfrac{\partial{v_2}}{\partial{W}}*u_0)J + (\cfrac{\partial{v_1}}{\partial{W}}*u_0 - \cfrac{\partial{v_0}}{\partial{W}}*u_1)K] \\ =( \cfrac{\partial{U}}{\partial{W}}) \times V - ( \cfrac{\partial{V}}{\partial{W}}) \times U = -V \times (\cfrac{\partial{U}}{\partial{W}}) + U \times ( \cfrac{\partial{V}}{\partial{W}})= -Skew(V)( \cfrac{\partial{U}}{\partial{W}}) +Skew(U)( \cfrac{\partial{V}}{\partial{W}})$

其中的假设 $a, b$ 为向量，易得如下
$\times b = -b \times a$

从三维可以拓展到多维向量中。证明完毕

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

AI“会不会写代码”已不再是问题，真正决定其能否成为开发者得力助手的关键，在于它“能不能理解上下文这些擦收

2048 AI社区

运维从静态到动态

系统架构相对固定，扩展性较差，故障恢复依赖人工干预，监控以阈值告警为主，缺乏实时分析能力。Prometheus+Grafana实现指标采集与可视化，ELK栈处理日志分析，分布式追踪工具（如Jaeger）监控微服务链路，AIops平台进行异常检测。云原生架构支持自动扩缩容，服务网格（如Istio）实现流量动态调度，多活部署保障故障自动切换，混沌工程验证系统容错能力。动态运维最终目标是实现声明式管理，