BP神经网络误差反向传播公式简单推导

最近看了BP神经网络(Back Propagation Neural Networks)，对于其中误差反向传播公式的推导比较困惑，在参考周志华老师的《机器学习》和网上一些博客后，做出一个简单的还原。1. BP网络模型及变量说明1.1 模型简图1.2 变量说明：ml：第l层神经元个数x(1)p: 输入层第p个神经元，p=1…m1；yk : 输出层第k的神经元的输

霍姆格雷特

4626人浏览 · 2017-10-31 21:58:03

霍姆格雷特 · 2017-10-31 21:58:03 发布

最近看了BP神经网络(Back Propagation Neural Networks)，对于其中误差反向传播公式的推导比较困惑，在参考周志华老师的《机器学习》和网上一些博客后，做出一个简单的还原。

1. BP网络模型及变量说明

1.1 模型简图

1.2 变量说明：

m_l：第l层神经元个数
x⁽¹⁾_p: 输入层第p个神经元，p=1…m1；
y_k : 输出层第k的神经元的输出，k=1…ml+1；
t_k：输出层第k的神经元的目标值，k=1…ml+1；
z^(l)_j：第l层的第j的神经元的输入；
a^(l)_j：第l层第j个神经元的输出；
a^(l)₀：第l层的偏置项；
w^(l)_ji：第l−1层第i个神经元与第l层第j个神经元的连接权值；
h(.)：激活函数，这里假设每一层各个神经元的激励函数相同（实际中可能不同）；
E_p：网络在第p个样本输入下的偏差，n=1…N；
N：样本总数

2. 误差反向传播相关推导

2.1 正向传播（forward-propagation）

正向传播的思想比较直观，最主要的是对于激活函数的理解。对于网络中第l层的第j个神经元，它会接受来自第l-1层所有神经元的信号，即：

z (l) j = \sum i = 1 m l - 1 w j i a (l - 1) i + a (l - 1) 0

wj0=1 <script type="math/tex" id="MathJax-Element-4"> w_{j0}=1 </script>，可以将公式简写为

z (l) j = \sum i = 0 m l - 1 w j i a (l - 1) i

a (l) j = h (z (l) j)

y k = a (l + 1) k = h (z (l + 1) j) = h (\sum j = 0 m l w k j a (l) j)

其中，sigmod函数的公式为

f (x) = 1 1 + e - x

f' (x) = f (x) (1 - f (x))

2.2 代价函数（cost function）

由2.1节公式可以得到BP网络在一个样本下的输出值，我们定义平方和误差函数（sum-of-square error function）如下：

E p = \sum k = 1 m l + 1 1 2 (y k - t k) 2

E N = \sum p = 1 N E p

2.3 反向传播（back-propagation）

这是BP神经网络最核心的部分，误差从输出层逐层反向传播，各层权值通过梯度下降法（gradient descent algorithm）进行更新，即：

w : = w - η ▽ E p (w)

η <script type="math/tex" id="MathJax-Element-13"> \eta </script>是每次更新的步长，

▽Ep(w) <script type="math/tex" id="MathJax-Element-14"> \bigtriangledown{E_p}(w) </script>是第p个样本输入下的输出偏差对某一层权值的偏导数，表示每输入一个样本更新一次参数。

下面我们以 w(l)ji <script type="math/tex" id="MathJax-Element-15"> w_{ji}^{(l)} </script>为例推导梯度项：

\partial E p \partial w ( l ) j i = \partial E p \partial z ( l ) j \partial z ( l ) j \partial w ( l ) j i = \partial E p \partial z ( l ) j a (l - 1) i

其中，

\partial E p \partial z ( l ) j = \partial E p \partial y k \partial y k \partial z ( l ) j = \partial { \sum m l + 1 k = 1 1 2 ( y k - t k ) 2 } \partial y k \partial h ( z ( l ) j ) \partial z ( l ) j = \sum k = 1 m l + 1 (y k - t k) h' (z (l) j)

h' (z (l) j) = h (z (l) j) (1 - h (z (l) j)) = y k (1 - y k)

\partial E p \partial w ( l ) j i = \sum k = 1 m l + 1 y k (1 - y k) (y k - t k) a (l - 1) i

由此我们得到了误差从输出层向低层反向传播的递推公式，进而可以求出误差对于每一层权值的梯度 ▽Ep(w) <script type="math/tex" id="MathJax-Element-20"> \bigtriangledown{E_p}(w) </script>

3. 总结

BP神经网络是应用最多、最基本的一种人工神经网络，其精髓在于误差反向传播。后续的优化改动多在于激活函数、核函数上。

4. 参考文献

[1] 周志华，机器学习[M] , 清华大学出版社，2016.
[2] BP神经网络：误差反向传播公式的简单推导(博主：Meringue_zz)

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

智能论文创作工具集（11项功能），提供LaTeX兼容排版及AI辅助文本优化

2048 AI社区

AI驱动的11款论文写作工具，提供LaTeX格式智能排版与内容优化功能。

2025年的AI论文工具已成熟化，10款推荐均支持LaTeX和格式优化，能高效解决写作痛点。选择适合的工具，你的论文旅程将更顺畅！毕业季阶段，学生们通常需要解决论文重复率过高、减少AI生成痕迹、提升写作效率、调整开题框架以及整合文献资源等关键问题，而智能技术凭借其语义重构、增强内容独特性及自动化处理三大核心功能，为这些学术痛点提供了高效的解决方案。调整后的表述在保持学术规范的同时，减少了模式化表达