交叉熵损失函数

它的功能是将𝐾个输出节点的值转换为概率，并保证概率之和为 1。可以看到，上式是概率值?𝑖和1 − 𝑝 的相乘，…个节点的输出经过softmax后的输出概率。因此交叉熵损失函数的偏导数可以进一步简化为。& 根据softmax偏导数表达式：\。完成交叉熵损失函数的梯度推导。交叉熵损失函数表达式。

亲持红叶

1136人浏览 · 2025-02-21 17:12:36

亲持红叶 · 2025-02-21 17:12:36 发布

交叉熵损失函数

在计算交叉熵损失函数时，一般将Softmax函数与交叉熵函数统一实现。我们先推导
Softmax 函数的梯度，再推导交叉熵函数的梯度

softmax函数梯度

softmax函数表达式
$p_i = \frac{e^{z_i}}{\sum\limits_{k=1}^Ke^{z_k}}$
它的功能是将𝐾个输出节点的值转换为概率，并保证概率之和为 1。 $z_i$ 是第 $i$ 个节点的输出, $p_i$ 是第 $i$ 个节点的输出经过softmax后的输出概率。
偏导数，当i = j时
$$
\begin{aligned}
\frac{\partial p_i}{\partial z_j} &= \frac{\partial \frac{e^{{z_i}}{\sum\limits_{k=1}}Ke^{z_k}}}{\partial z_j} \

& = \frac{e^{z_i} * \sum\limits_{k=1}^Ke{z_k} - e^{z_i}*e{z_j} }{(\sum\limits_{k=1}^Ke{z_k})^2} \
& = \frac{e^{z_i} * (\sum\limits_{k=1}^Ke{z_k} - e^{z_j} )}{(\sum\limits_{k=1}^Ke{z_k})^2} \
& = \frac{e^{z_i} }{\sum\limits_{k=1}^Ke{z_k}}*\frac{\sum\limits_{k=1}^Ke{z_k} - e^{{z_j}}{\sum\limits_{k=1}}Ke^{z_k}}\
&=p_i * (1-p_j)
\end{aligned}
$KaTeX parse error: Unexpected character: '?' at position 13: 可以看到，上式是概率值?̲?𝑖和1 - 𝑝 的相乘，\dots$
\frac{\partial p_i}{\partial z_j} = p_i * (1-p_j) , i = j
$$
偏导数，当 i $≠\ne$ j 时
$$
\begin{aligned}
\frac{\partial p_i}{\partial z_j} &= \frac{\partial \frac{e^{{z_i}}{\sum\limits_{k=1}}Ke^{z_k}}}{\partial z_j} \

& = \frac{0 - e^{z_i}*e{z_j} }{(\sum\limits_{k=1}^Ke{z_k})^2} \
& = -\frac{e^{{z_i}}{\sum\limits_{k=1}}Ke^{z_k}}* \frac{e^{{z_j}}{\sum\limits_{k=1}}Ke^{z_k}} \
& = -p_i*p_j
\end{aligned}
$$
softmax偏导数表达式
$\frac{\partial p_i}{\partial z_i} = \left \{ \begin{array}{} p_i * (1-p_j) \quad当i=j \\ -p_i*p_j \quad\quad\quad 当i\ne j \end{array} \right.$

交叉熵梯度

交叉熵损失函数表达式
$-\sum_k y_k\log {p_k}$
这里直接来推导最终损失值L对网络输出 logits 变量𝑧𝑖的偏导数，展开为:
$$
\begin{aligned}
\frac{\partial L}{\partial z_i} & = -\sum_k y_k\frac{\partial \log {p_k}}{\partial z_i} \
& = -\sum_k y_k\frac{\partial \log {p_k}}{\partial p_k} \frac{\partial p_k}{\partial z_i} \
& = -\sum_k y_k\frac{1}{p_k} \frac{\partial p_k}{\partial z_i} \
& 根据softmax偏导数表达式：\
&=\left{
\begin{array}{}
-\sum_k y_k\frac{1}{p_k} p_i(1-p_k) \quad i=k \
-\sum_k y_k\frac{1}{p_k} (-p_ip_k) \quad i\ne k
\end{array}
\right. \
& = -y_i(1-p_i) - \sum_{k\ne i} y_k\frac{1}{p_k} (-p_ip_k) \
& = -y_i+y_ip_i+\sum_{k\ne i}y_kp_i \
& = p_i(y_i+\sum_{k\ne i}y_k) -y_i

\end{aligned}
$$
完成交叉熵损失函数的梯度推导
特别的，对于分类问题中标签𝑦通过 One-hot 编码的方式，则有如下关系:
$\sum_k y_k = 1 \\ y_i+\sum_{k\ne i} y_k = 1$
因此交叉熵损失函数的偏导数可以进一步简化为
$\frac{\partial L}{\partial z_i} = p_i-y_i$

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

2026年Gemini 3 Pro技术拆解：深度推理、空间智能与Agentic系统的架构革命

2048 AI社区

数据分类分级：从工具化扫描到智能化治理的跨越

摘要：数据安全治理已转向"以数据为中心"模式，"发现即安全"理念强调数据可见性是安全控制的起点。优秀的数据分类分级产品需具备多模态识别能力，结合NLP和AI大模型实现深度语义理解；采用自动化标签体系和行业模板提升效率；覆盖静态存储与动态流量，实现全生命周期管理；并能将分类结果转化为安全策略。同时需保证轻量化性能，通过分布式架构实现无感接入，最终形成动态数据地