详解+推导神经网络中的前向传播和反向传播公式（神经网络中的梯度下降）

文章目录线性回归快速回忆逻辑回归中的正向传播与反向传播逻辑回归中的正向传播与反向传播-代码实战神经网络的正向传播与反向传播线性回归快速回忆在线性回归（y=ax+by=ax+by=ax+b）中，使用梯度下降时的公式为：a=a−ηdJdaa = a-\eta \frac{dJ}{da}a=a−ηdadJ通过求出代价函数 JJJ 对参数 aaa 的导数，来更新 aaa ，不断重复该过程，直到某次a值的

iioSnail

4145人浏览 · 2021-10-27 14:25:05

iioSnail · 2021-10-27 14:25:05 发布

线性回归快速回忆

在线性回归（ $y = a x + b$ ）中，使用梯度下降时的公式为：
$a-\eta \frac{dJ}{da}$

通过求出代价函数 $J$ 对参数 $a$ 的导数，来更新 $a$ ，不断重复该过程，直到某次a值的变化趋于0，即认为已经找到了最佳的 $a$

逻辑回归中的正向传播与反向传播

在这里插入图片描述
这里将逻辑回归看成一个：有两个输入，没有隐藏层的简单神经网络。

其中：
$\begin{aligned} & z = w_0 + w_1 x_1 + w_2 x_2 \\\\ & \hat{y}=a=\sigma(z) \\\\ & \mathcal{L}(a, y)=-(y \log (a)+(1-y) \log (1-a)) \end{aligned}$

使用sigmoid $\sigma$ 作为激活函数， $\mathcal{L}$ 为损失函数

正向传播就是输出 $x_1,x_2$ ，通过上述公式计算出 $\hat{y}$

反向传播就是通过得到的 $\hat{y}$ ，利用上述公式，推导出 $\frac{d\mathcal{L}}{dw_1}$ 和 $\frac{d\mathcal{L}}{dw_2}$ （假设只取一样本）

正向传播很简单，只需要代入算即可。

反向传播只需要使用微积分中的链式法则即可，即：

$\frac{d\mathcal{L}}{dw_1} = \frac{d\mathcal{L}}{da} \frac{da}{dz} \frac{dz}{dw_1}$

其中:
$\begin{aligned} & \frac{d\mathcal{L}}{da} = -\frac{y}{a} + \frac{1-y}{1-a}\\\\ & \frac{da}{dz} = a(1-a) \\\\ & \frac{dz}{dw_1} = x_1 \end{aligned}$

将上式代入原式，得：

$\frac{d\mathcal{L}}{dw_1} = (a - y)x_1 = (\hat{y} - y)x_1$

到这里，我们计算出了 $\frac{d\mathcal{L}}{dw_1}$ ，这样就可以利用梯度下降求解最佳的 $w_1$ ，即：
$w_1 = w_1 - \eta \frac{d\mathcal{L}}{dw_1}$

$w_0 和w_2$ 同理

逻辑回归中的正向传播与反向传播-代码实战

有了上面的理论基础，就可以轻松进行实现：

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
import math
import random

iris = datasets.load_iris() # 去iris数据集

X = iris.data
y = iris.target
 
X = X[y<2, :2] # 只要0、1的，且只取两个特征
y = y[y<2]

plt.scatter(X[y==0, 0],X[y==0, 1])
plt.scatter(X[y==1, 0],X[y==1, 1])
plt.xlabel("x1")
plt.ylabel("x2")
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QmzzQh81-1635311578992)(output_2_0.png)]

def z(x1, x2, w0, w1, w2):
    return w0 + w1*x1 + w2*x2

def y_hat(z):
    return 1 / (1 + math.exp(-z))

def dw1(y_hat, y, x1):
    return (y_hat-y) * x1

def dw2(y_hat, y, x2):
    return (y_hat-y) * x2

def dw0(y_hat, y):
    return y_hat - y

# 初始化权重
w0, w1, w2 = random.random(), random.random(), random.random()
eta = 0.01 # 学习率

for _ in range(1000): # 进行1000次学习
    for i, x in enumerate(X):
        x1 = x[0]
        x2 = x[1]
        y_predict = y_hat(z(x1, x2, w0, w1, w2))
        w1 = w1 - eta * dw1(y_predict, y[i], x1)
        w2 = w2 - eta * dw2(y_predict, y[i], x2)
        w0 = w0 - eta * dw0(y_predict, y[i])

x1_plot = np.arange(4, 7, 0.1) # 将直线绘制出来
x2_plot = (w0 + w1*x1_plot)/(-w2)

plt.scatter(X[y==0, 0],X[y==0, 1])
plt.scatter(X[y==1, 0],X[y==1, 1])
plt.plot(x1_plot, x2_plot)
plt.xlabel("x1")
plt.ylabel("x2")
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wmMH5SJL-1635311578995)(output_11_0.png)]

神经网络的正向传播与反向传播

有了上面的基础，我们就可以推导神经网络的正向传播和反向传播的公式了。

这里使用西瓜书的相关符号。

在这里插入图片描述
这里，我们有一个神经网络， $d$ 个输入， $l$ 个输出，单个隐层，隐层有 $q$ 个神经元。 $v_{ih}$ 表示 $x_i$ 与 $b_h$ 之间的权重， $w_{hj}$ 表示 $b_h$ 与 $y_j$ 之间的权重。

激活函数使用 sigmoid，记作 $f$

对于训练集 $x_k, y_k)$ ，利用正向传播，我们可以得到第j个输出 $\hat{y}^k_j$ 得值，公式为：

$\hat{y}^k_j = f(\beta_j - \theta_j) ~~~~~~~~~~~~~~~(1)$

(1) 公式的解释：

$\beta_j$ 为所有隐层“ $b_1, \cdots , b_q$ ” 与输出层 $y_j$ 的乘积，即：

$\beta_j = w_{1_j} b_1 + w_{2_j} b_2 + \cdots + w_{q_j} b_q = \sum_{h=1}^{q} w_{h j} b_{h}$

相当于上一章的 $z = w_0 + w_1 x_1 + w_2 x_2$

此时可以发现 $\beta_j$ 少了一个偏移量 $w_0$ ，在西瓜书中，使用 $\theta_j$ 表示了这个偏移量。所以才会有 $\beta_j - \theta_j$ 。

将其代入 sigmoid 函数，就可以得到 $\hat{y}^k_j$ 的值：
$\hat{y}^k_j = f(\beta_j - \theta_j)$

$\hat{y}^k_j$ 的公式中为什么不包含输入 $x$ ? 其实输入变量 x 包含在隐层中，即隐层的 $b_j$ 是通过所有 $x$ 和 $w$ 算出来的

拿到了 $\hat{y}^k_j$ ，就可以定义代价函数了，这里使用均方误差来得出代价函数：

$E_{k}=\frac{1}{2} \sum_{j=1}^{l}\left(\hat{y}_{j}^{k}-y_{j}^{k}\right)^{2}$

有了代价函数 $E_k$ ，那只要求出来 $\frac{\partial E_{k}}{\partial w_{h j}}$ ，那就可以利用梯度下降更新 $w_{hj}$ 了，即

$w_{hj} = w_{hj} - \eta \frac{\partial E_{k}}{\partial w_{h j}}$

与上节一样，利用链式法则求 $\frac{\partial E_{k}}{\partial w_{h j}}$ ，即：

$\frac{\partial E_{k}}{\partial w_{h j}}=\frac{\partial E_{k}}{\partial \hat{y}_{j}^{k}} \cdot \frac{\partial \hat{y}_{j}^{k}}{\partial \beta_{j}} \cdot \frac{\partial \beta_{j}}{\partial w_{h j}}$

到这如果可以看懂，基本就算成功了。通过简单计算可以得出：

$\begin{aligned} & \frac{\partial \beta_{j}}{\partial w_{h j}}=b_{h} \\\\ & \frac{\partial \hat{y}_{j}^{k}}{\partial \beta_{j}} = \hat{y}^k_j (1-\hat{y}^k_j) \\\\ & \frac{\partial E_{k}}{\partial \hat{y}_{j}^{k}} = \hat{y}_{j}^{k}-y_{j}^{k} \end{aligned}$

将其代入原始就可以得到 $w_{hj}$ 的梯度下降公式，即：
$w_{hj} = w_{hj} - \eta \frac{\partial E_{k}}{\partial w_{h j}} = w_{hj} - \eta (\hat{y}_{j}^{k}-y_{j}^{k})\hat{y}^k_j (1-\hat{y}^k_j)b_{h}$

同理，也可以得出 $v_{hj}$ 和 $\theta_j$ 的梯度下降公式。

参考资料

考研必备数学公式大全: https://blog.csdn.net/zhaohongfei_358/article/details/106039576

机器学习纸上谈兵之线性回归: https://blog.csdn.net/zhaohongfei_358/article/details/117967229

Sigmoid函数求导过程: https://blog.csdn.net/zhaohongfei_358/article/details/119274445

周志华西瓜书

吴恩达深度学习

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【售后必看】说明书全是中文，老外看不懂退货？揭秘 AI 如何一键翻新“纸质说明书”，让 Listing 评分稳在 4.8！

2048 AI社区

【Rockchip RK3576】边缘计算与 AIoT 领域的全能架构深度解析

2048 AI社区

AI赋能的数据湖架构创新：企业数字化转型

本文旨在为企业技术决策者、数据架构师和AI工程师提供一份全面的AI赋能数据湖架构指南。我们将覆盖从基础概念到高级应用的完整知识体系，重点探讨AI技术如何解决传统数据湖的痛点，并创造新的业务价值。本文首先介绍数据湖的基本概念和传统架构的局限性，然后详细阐述AI如何增强数据湖能力，包括核心技术组件和架构设计。接着通过实际案例展示应用场景，最后讨论实施挑战和未来趋势。数据湖(Data Lake): 一个