深度学习笔记: 稀疏自编码器

# 深度学习笔记: 稀疏自编码器

冬之晓东

1693人浏览 · 2017-09-22 23:33:27

冬之晓东 · 2017-09-22 23:33:27 发布

深度学习笔记: 稀疏自编码器

神经网络

概述

神经元

h W, b (x) = f (\sum i = 1 3 w i x + b) f R \to R

f (z) = 1 1 + e - z (1)

f' (z) = f (z) * (1 - f (z))

δ(nl)i=∂∂z(nl)iJ(W,b;x,y)=−(yi−a(nl)i)f′(z(nl)i) <script type="math/tex" id="MathJax-Element-2730"> \delta_i^{(n_l)} = {\partial \over \partial z_i^{(n_l)} } J(W,b;x,y)= - (y_i-a^{(n_l)}_i )f'(z_i^{(n_l)})</script>

sigmoid function

神经网络模型

+1 称为偏置节点
输入层 最左边
输出层 最右边
隐藏层 中间
三个输入单元1个输出单元 三个隐藏单元
nl <script type="math/tex" id="MathJax-Element-2821">n_l</script> 表示层数,将第l层记为 Ll <script type="math/tex" id="MathJax-Element-2822">L_l</script>
输入层是 L1 <script type="math/tex" id="MathJax-Element-2823">L_1</script>, 输出层是 Lnl <script type="math/tex" id="MathJax-Element-2824">L_{n_l}</script>
上图神经网络参数如下
{ W(1),b(1),W(2),b(2)} <script type="math/tex" id="MathJax-Element-2825">\{\ W^{(1)}, b^{(1)},W^{(2)},b^{(2)}\}</script>

其中 Wlij <script type="math/tex" id="MathJax-Element-2826">W_{ij}^{l}</script>代表着第*l层的 xj <script type="math/tex" id="MathJax-Element-2827">x_j</script> 与第l+1层的 xi <script type="math/tex" id="MathJax-Element-2828">x_{i}</script>之间的关系*
bli <script type="math/tex" id="MathJax-Element-2829">b^l_i</script>是第l+1层的i单元的偏置项偏置项

在上图例子中

W (1) \in R 3 \times 3 W (2) \in R 1 * 3

ali <script type="math/tex" id="MathJax-Element-2831">a^l_i</script> 表示第l层的第i个单元的 激活值,即 输出值,但l=1时,

a1i <script type="math/tex" id="MathJax-Element-2832">a_i^1</script>等于

xi <script type="math/tex" id="MathJax-Element-2833">x_i</script> 也就是第i个输入值

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ a (2) 1 = f (w (1) 11 x 1 + w (1) 12 x 2 + w (1) 13 x 3 + b (1) 1) a (2) 2 = f (w (1) 21 x 1 + w () 22 x 2 + w (1) 23 x 3 + b 12) a (2) 3 = f (w (1) 31 x 1 + w (1) 32 x 2 + w (1) 33 x 3 + b (1) 3)

h w, b (x) = a (3) 1 = f (w (2) 11 a (2) 1 + w (2) (12) a (2) 2 + w (2) 13 a (2) 3 + b (2) 1)

如果我们用 z(l)i <script type="math/tex" id="MathJax-Element-2836">z^{(l)}_{i}</script>表示第l层的第i 个单元的加权输入和, 那么 a(l)i=f(z(l)i) <script type="math/tex" id="MathJax-Element-2837">a_i^{(l)}=f(z_i^{(l)})</script>.
如果我们将f扩展成向量表示:

f ([z 1, z 2, z 3]) = [f (z 1), f (z 2), f (z 3)]

z (2) = w (1) x + b (1) a (2) = f (z (2)) z (3) = w (2) a (2) h (w, b) (x) = a (3) = f (z (3))

a(1)=x(1) <script type="math/tex" id="MathJax-Element-2840">a^{(1)}=x^{(1)}</script>.
2. 对于任何给定的第l层激活值,可以通过下面公式计算得到第l+1层的激活值:

z (1 + 1) = W (l) X (l) a (l + 1) = f (z (l + 1))

我们还可以构建多种神经网络结构(结构指的是神经元之间的连接方式)

## 反向传导算法
假设有一个固定的样本集 {(x(1),y(1)),(x(2),y(2))...(x(m),y(m))} <script type="math/tex" id="MathJax-Element-2842">\{ (x^{(1)},y^{(1)}), (x^{(2)},y^{(2)}) ... (x^{(m)},y^{(m)}) \}</script> 包含m个样例.我们定义总体代价函数如下:

J (w, b) = [1 m \sum i = 1 m J (w, b : x (i), y (i))] + λ 2 \sum l = 1 n l \sum i = 1 s l \sum j = 1 s l + 1 (W (l) i j) 2 = [1 m \sum i = 1 m 1 2 ∣ h w, b (x (i)) - y (i) ∣ 2] + λ 2 \sum l = 1 n l \sum i = 1 s l \sum j = 1 s l + 1 (W (l) j i) 2

我们的目标是求得是J(w,b)最小的w,b. 首先使用随机生成w,b,利用正态分布,均值为0,方差为0.01, 之后利用梯度下降法求得最优值.由于J(w,b)是非凸函数,所以未必会下降到最小值,但是实际一般效果还不错.

将参数进行随机初始化,不是全部取0,因为全部取0 的话,或者取相同的值的话将导致每一个隐藏单元的输出值一样, 随机初始化的目的是是对称失效

梯度下降法的的步骤如下:

W (l) i j = W (l) i j - α * \partial \partial W ( l ) i j J (W, b) b (l) i = b (l) i - α * \partial \partial b ( l ) i J (W, b)

α <script type="math/tex" id="MathJax-Element-2846">\alpha</script> 成为学习速率. 其中计算偏导数比较重要,需要专门讲一讲,反向传导算法

∂∂W(l)ijJ(W,b) <script type="math/tex" id="MathJax-Element-2847"> {\partial \over \partial {W^{(l)}_{ij}} }J(W,b)</script>和

∂∂b(l)iJ(W,b) <script type="math/tex" id="MathJax-Element-2848">{\partial \over \partial b^{(l)}_{i} } J(W,b)</script>是最重要的两个计算:

\partial \partial W ( l ) i j J (W, b) = ⎡ ⎣ 1 m \sum i = 1 m \partial \partial W ( l ) i j J (w, b : x (i), y (i)) ⎤ ⎦ + λ W (l) i j \partial \partial b ( l ) i J (W, b) = ⎡ ⎣ 1 m \sum i = 1 m \partial \partial b ( l ) i J (w, b : x (i), y (i)) ⎤ ⎦

反向传播算法的思路如下:

给定一个样例(x,y),
- 首先进行前向传导计算,计算出每个单元的激活值,包括 hw,b(x) <script type="math/tex" id="MathJax-Element-2850">h_{w,b}(x)</script>的输出值,
- 之后针对第l层的每一个节点i,我们计算其残差 δ(l)i <script type="math/tex" id="MathJax-Element-2851">\delta^{(l)}_i </script>:残差表明该节点对最终输出值的残差产生了多少的影响,

对于输出层,我们可以直接用输出值和理论值之间的差距,即 δ(nl)i <script type="math/tex" id="MathJax-Element-2852">\delta_i^{(n_l)}</script> 那么对于隐藏层我们做什么处理呢? 我们将基于节点(l+1层)的残差加权计算 δ(l)i <script type="math/tex" id="MathJax-Element-2853">\delta_i^{(l)}</script>,这些节点以 a(l)I <script type="math/tex" id="MathJax-Element-2854">a_I^{(l)}</script>作为输入:
下面给出计算细节:
1. 进行前馈传导计算,利用前向传导公式,得到 L2,L3.....Lnl <script type="math/tex" id="MathJax-Element-2855">L_2,L_3.....L_{n_l}</script>
2. 对于第 nl <script type="math/tex" id="MathJax-Element-2856">n_l</script>层的(输出层)的每个输出单元i, 我们根据以下公式计算残差:
δ(nl)i=∂∂z(nl)iJ(W,b;x,y)=−(yi−a(nl)i)f′(z(nl)i) <script type="math/tex" id="MathJax-Element-2857"> \delta_i^{(n_l)} = {\partial \over \partial z_i^{(n_l)} } J(W,b;x,y)= - (y_i-a^{(n_l)}_i )f'(z_i^{(n_l)})</script>
3. 对于隐藏层, 第l层的计算公式如下:
δ(l)i=(∑sl+1j=1W(l)jiδ(l)j)f′(z(l)i) <script type="math/tex" id="MathJax-Element-2858">\delta_i^{(l) } = \left (\sum _{j=1}^{s_{l+1}} W^{(l)}_{ji } \delta_j^{(l) } \right )f'(z_i^{(l)}) </script>
4. 计算我们所需要

\partial \partial W ( l ) i j J (W, b) = a (l) j δ (l) i

\partial \partial b ( l ) i J (W, b) = δ (l + 1) i

如果用矩阵和向量来表示反向传播算法:
1. 利用前馈传导算法,得到 L2,L3 <script type="math/tex" id="MathJax-Element-2861">L_2,L_3</script>直到 Lnl <script type="math/tex" id="MathJax-Element-2862">L_{n_l}</script>的激活值
2. 对输出层,计算:
δ(nl)i=−(y−a(nl))∗f′(z(nl)) <script type="math/tex" id="MathJax-Element-2863">\delta^{(n_l)}_i=-(y-a^{(n_l)})*f'(z^{(n_l)})</script>
3. 对于隐藏层,计算:
δ(l)=((W(l))Tδ(l+1))∗f′(z(l)) <script type="math/tex" id="MathJax-Element-2864">\delta^{(l)}= ( (W^{(l)} )^{T} \delta^{(l+1)})*f'(z^{(l)})</script>
4. 计算最终的偏导数值:
∇W(t)J=δ(l+1)(a(l))T <script type="math/tex" id="MathJax-Element-2865"> \nabla _{W^{(t)}} J = \delta^{(l+1)} (a^{(l)})^T</script>
∇b(t)J=δ(l+1) <script type="math/tex" id="MathJax-Element-2866"> \nabla _{b^{(t)}} J = \delta^{(l+1)} </script>

实际中因注意: 在以上(2)和(3)中要计算f’(z), 可以利用f’(z)=f(z)(1-f(z))
f′(z(l)i)=a(l)i(1−a(l)i) <script type="math/tex" id="MathJax-Element-2867">f'(z_i^{(l)})= a_i^{(l)} (1-a_i^{(l)})</script>

总结:
梯度下降法的一次迭代:
1. 对所有的l, 令 ΔW <script type="math/tex" id="MathJax-Element-2868">\Delta W</script>和 Δb <script type="math/tex" id="MathJax-Element-2869">\Delta b </script>全部为0;
2. 对于i=1到m:
a. 利用反向传播算法计算 ∇W(t)J∇b(t)J <script type="math/tex" id="MathJax-Element-2870"> \nabla _{W^{(t)}} J \qquad \nabla _{b^{(t)}} J</script>
b. 计算 ΔW=ΔW+∇W(t)J <script type="math/tex" id="MathJax-Element-2871">\Delta W=\Delta W + \nabla _{W^{(t)}} J</script>
c. 计算 Δb=Δb+∇b(t)J <script type="math/tex" id="MathJax-Element-2872">\Delta b =\Delta b + \nabla _{b^{(t)}} J</script>
3. 更新权重参数:
- W(l)=W(l)−α[(1mΔW(l))+λW(l)] <script type="math/tex" id="MathJax-Element-2873">W^{(l)} = W^{(l)} -\alpha \left [ ({1 \over m} \Delta W^{(l)})+\lambda W^{(l)} \right ] </script>
- b(l)=b(l)−α[1mΔb(l)] <script type="math/tex" id="MathJax-Element-2874">b^{(l)}= b^{(l)} -\alpha \left [ {1 \over m } \Delta b^{(l)}\right ] </script>

重复梯度下降法的迭代步骤即可减小代价函数 J,继而求得神经网络的

梯度检验与高级优化

索引的缺位错误（off-by-one error）会导致只有部分层的权重得到训练，再比如忘记计算偏置项。这些错误会使你得到一个看似十分合理的结果（但实际上比正确代码的结果要差）。因此，但从计算结果上来看，我们很难发现代码中有什么东西遗漏了.本节将介绍一种对求导结果进行数值检验的方法，该方法可以验证求导代码是否正确。另外，使用本节所述求导检验方法，可以帮助你提升写正确代码的信心
缺位错误: for (i=0;i<m;i++)写成了for (for (i=0;i<=m;i++))
比如在梯度下降法当中 θ:=θ−α∂∂θJ(θ) <script type="math/tex" id="MathJax-Element-2911">\theta := \theta - \alpha {\partial \over \partial \theta}J(\theta) </script>
而导数的定义如下:
dJ(θ)d(θ)=limϵ→0J(θ+ϵ)−J(θ−ϵ)2ϵ <script type="math/tex" id="MathJax-Element-2912">{d J(\theta)\over d(\theta)} =lim_{\epsilon\to 0 }{J(\theta + \epsilon )-J(\theta - \epsilon ) \over 2 \epsilon} </script>
如果我们取 ϵ <script type="math/tex" id="MathJax-Element-2913">\epsilon </script>很小比如 10−4 <script type="math/tex" id="MathJax-Element-2914">10^{-4}</script> 那么计算出来的结果应当和实际求导出来的结果小数至少前四位一样. 注意 ϵ <script type="math/tex" id="MathJax-Element-2915">\epsilon </script> 不能取太小,否则会有舍入误差

如果是向量的话,也是类似,
将W,b 扩展成一个向量 J: Rn↦R <script type="math/tex" id="MathJax-Element-2916">\mathbb {R^n \mapsto R}</script>

自编码算法与稀疏性

输入是无标签数据,学习一个函数 hw,b(x)=x <script type="math/tex" id="MathJax-Element-2947"> h_{w,b}(x)=x</script>

如果我们加以限制,假设某个自编码神经网络的输入 x <script type="math/tex" id="MathJax-Element-2948">\textstyle x</script> 是一张 10×10 <script type="math/tex" id="MathJax-Element-2949">\textstyle 10 \times 10 </script>图像（共100个像素）的像素灰度值，于是 n=100 <script type="math/tex" id="MathJax-Element-2950">\textstyle n=100 </script>，其隐藏层 L2 <script type="math/tex" id="MathJax-Element-2951"> \textstyle L_2 </script>中有50个隐藏神经元。注意，输出也是100维的 y∈R100 <script type="math/tex" id="MathJax-Element-2952">\textstyle y \in \Re^{100}</script> 。由于只有50个隐藏神经元，我们迫使自编码神经网络去学习输入数据的压缩表示，也就是说，它必须从50维的隐藏神经元激活度向量 a(2)∈R50 <script type="math/tex" id="MathJax-Element-2953">\textstyle a^{(2)} \in \Re^{50}</script> 中重构出100维的像素灰度值输入 x <script type="math/tex" id="MathJax-Element-2954">\textstyle x</script> 。
如果网络的输入数据是完全随机的，比如每一个输入 \textstyle x_i 都是一个跟其它特征完全无关的独立同分布高斯随机变量，那么这一压缩表示将会非常难学习。但是如果输入数据中隐含着一些特定的结构，比如某些输入特征是彼此相关的，那么这一算法就可以发现输入数据中的这些相关性。事实上，这一简单的自编码神经网络通常可以学习出一个跟主元分析（PCA）结果非常相似的输入数据的低维表示。

即使隐藏神经元的数量较大（可能比输入像素的个数还要多），我们仍然通过给自编码神经网络施加一些其他的限制条件来发现输入数据中的结构。比如稀疏性: 如果当神经元的输出接近于1的时候我们认为它被激活，而输出接近于0的时候认为它被抑制，那么使得神经元大部分的时间都是被抑制的限制则被称作稀疏性限制。

ρ^j = 1 m \sum i = 1 m [a (2) j (x (i))]

j <script type="math/tex" id="MathJax-Element-2956">\textstyle j</script> 的平均活跃度
我们可以加入一条限制

ρ^j = ρ,

ρ <script type="math/tex" id="MathJax-Element-2958">\textstyle \rho</script> 是稀疏性参数,

ρ <script type="math/tex" id="MathJax-Element-2959">\rho</script>称之为稀疏性参数,通常很小,比如0.05,. 为了实现这个目标,我们常常加入一个惩罚因子

\sum j = 1 s 2 ρ log ρ ρ ^ j + (1 - ρ) log 1 - ρ 1 - ρ ^ j .

J s p a r s e (W, b) = J (W, b) + β \sum j = 1 s 2 K L (ρ | | ρ^j),

为了对相对熵进行导数计算，我们可以使用一个易于实现的技巧，
前面在后向传播算法中计算第二层（ \textstyle l=2 ）更新的时候我们已经计算了

δ (2) i = ⎛ ⎝ \sum j = 1 s 2 W (2) j i δ (3) j ⎞ ⎠ f' (z (2) i),

δ (2) i = ⎛ ⎝ ⎛ ⎝ \sum j = 1 s 2 W (2) j i δ (3) j ⎞ ⎠ β (- ρ ρ ^ i + 1 - ρ 1 - ρ ^ i) ⎞ ⎠ f' (z (2) i) .

可视化自编码器训练结果

训练完（稀疏）自编码器，我们还想把这自编码器学到的函数可视化出来，好弄明白它到底学到了什么。我们以在10×10图像（即n=100）上训练自编码器为例。在该自编码器中，每个隐藏单元i对如下关于输入的函数进行计算：

+ a (2) i = f ⎛ ⎝ \sum j = 1 100 W (1) i j x j + b (1) i ⎞ ⎠ .

W(1)ij <script type="math/tex" id="MathJax-Element-2965">\textstyle W^{(1)}_{ij}</script>的（暂时忽略偏置项bi）。需要注意的是，

a(2)i <script type="math/tex" id="MathJax-Element-2966">\textstyle a^{(2)}_i</script>可看作输入

x <script type="math/tex" id="MathJax-Element-2967">\textstyle x</script>的非线性特征。不过还有个问题：什么样的输入图像

x <script type="math/tex" id="MathJax-Element-2968">\textstyle x</script>可让

a(2)i <script type="math/tex" id="MathJax-Element-2969">\textstyle a^{(2)}_i</script>得到最大程度的激励？（通俗一点说，隐藏单元

i <script type="math/tex" id="MathJax-Element-2970">\textstyle i</script>要找个什么样的特征？）。这里我们必须给

x <script type="math/tex" id="MathJax-Element-2971">\textstyle x</script>加约束，否则会得到平凡解。若假设输入有范数约束

||x||2=∑100i=1x2i≤1 <script type="math/tex" id="MathJax-Element-2972">\textstyle ||x||^2 = \sum_{i=1}^{100} x_i^2 \leq 1</script>，则可证（请读者自行推导）令隐藏单元

i <script type="math/tex" id="MathJax-Element-2973">\textstyle i</script>得到最大激励的输入应由下面公式计算的像素

xj <script type="math/tex" id="MathJax-Element-2974">\textstyle x_j</script>给出（共需计算100个像素，j=1,…,100）：

x j = W ( 1 ) i j \sum 100 j = 1 ( W ( 1 ) i j ) 2 - - - - - - - - - - \sqrt .

上图的每个小方块都给出了一个（带有有界范数的）输入图像 x，它可使这100个隐藏单元中的某一个获得最大激励。我们可以看到，不同的隐藏单元学会了在图像的不同位置和方向进行边缘检测

在概率论或信息论中，KL散度( Kullback–Leibler divergence)，又称相对熵（relative entropy)，是描述两个概率分布P和Q差异的一种方法。它是非对称的，这意味着D(P||Q) ≠ D(Q||P)。特别的，在信息论中，D(P||Q)表示当用概率分布Q来拟合真实分布P时，产生的信息损耗，其中P表示真实分布，Q表示P的拟合分布。
+有人将KL散度称为KL距离，但事实上，KL散度并不满足距离的概念，因为：1）KL散度不是对称的；2）KL散度不满足三角不等式。 ↩

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

刚刚，Anthropic 用 Claude Code 团灭了一大批 AI 初创公司！

2048 AI社区

WorldModel_Theory_002_PPT

这句话其实是在说一件经典事：在 POMDP 里，如果你用历史构造一个信念态/信息态（belief state / agent state），这个“新状态”对智能体来说就是可观测的，并且可以变成 Markov，从而把问题转成一个 MDP 来做。Dreamer 的 (s_t) 就扮演了这种“agent state”（智能体内部状态）的角色：RL4AA 的讲义也明确区分了environment stat

2048 AI社区

数据库那些事

简单的说，bc范式是在第三范式的基础上的一种特殊情况，既每个表中只有一个候选键（在一个数据库中每行的值都不相同，则可称为候选键），在上面第三范式的noNf表中可以看出，每一个员工的email都是唯一的（难道两个人用同一个email?数据库范式在数据库设计中的地位一直很暧昧，教科书中对于数据库范式倒是都给出了学术性的定义，但实际应用中范式的应用却不甚乐观，这篇文章会用简单的语言和一个简单的数据库DE