权重归一化weight_norm

神经网络权重归一化weight_norm

小周ipython

4263人浏览 · 2022-11-24 14:59:42

小周ipython · 2022-11-24 14:59:42 发布

1. 权重归一化原理

对于网络中一神经元，其输入为 x，输出为 y，计算过程为
$y=ϕ(ω∗x+b)y=\phi(\omega *x+b)$
$ω\omega$ 为与该神经元连接的权重，通过损失函数与梯度下降对网络进行优化的过程就是求解最优 $ω\omega$ 的过程。将 $ω\omega$ 的长度与方向解耦，可以将 $ω\omega$ 表示为
$ω=gv∣∣v∣∣,\omega = g\frac{v}{||v||},$
其中 $g$ 为标量，其大小等于 $ω\omega$ 的模长， $v∣∣v∣∣\frac{v}{||v||}$ 为与 $ω\omega$ 同方向的单位向量，此时，原先训练过程中 $ω\omega$ 的学习转化为 $g$ 和 $v$ 的学习。假设损失函数以 $L$ 表示，则 $L$ 对 $g$ 和 $v$ 的梯度可以分别表示为，
$∇gL=∇gω∗(∇ωL)T=∇ωL∗vT∣∣v∣∣\nabla_gL=\nabla_g \omega * (\nabla_\omega L)^T = \frac{\nabla_\omega L*v^T}{||v||}$
$∇vL=∇vω∗∇ωL=∂g∗v∣∣v∣∣∂v∗∇ωL=g∗∣∣v∣∣∣∣v∣∣2∗∇ωL−g∗v∗∂∣∣v∣∣∂v∣∣v∣∣2∗∇ωL\nabla_vL = \nabla_v\omega*\nabla_\omega L=\frac{\partial \frac{g*v}{||v||}}{\partial v}*\nabla_\omega L=\frac{g*||v||}{||v||^2}*\nabla_\omega L-\frac{g*v*\frac{\partial||v||}{\partial v}}{||v||^2}*\nabla_\omega L$
因为
$∂∣∣v∣∣∂v=∂(vT∗v)0.5∂v=0.5∗(vT∗v)−0.5∗∂(vT∗v)∂v=v∣∣v∣∣,\frac{\partial||v||}{\partial v}=\frac{\partial (v^T*v)^{0.5}}{\partial v}=0.5*(v^T*v)^{-0.5}*\frac{\partial (v^T*v)}{\partial v}=\frac{v}{||v||},$
所以
$∇gL=g∣∣v∣∣∗∇ωL−g∗∇gL∣∣v∣∣2∗v=g∣∣v∣∣∗Mω∗∇ωL,\nabla_gL = \frac{g}{||v||}*\nabla_\omega L-\frac{g*\nabla_g L}{||v||^2}*v=\frac{g}{||v||}*M_\omega*\nabla_\omega L,$
其中 $Mω=I−ω∗ωT∣∣ω∣∣2M_\omega=I-\frac{\omega*\omega^T}{||\omega||^2}$ ，与向量点乘可以投影任意向量至 $ω\omega$ 的补空间，相对于原先的 $∇ωL\nabla_\omega L$ ， $∇vL\nabla_v L$ 进行了 $g∣∣v∣∣\frac{g}{||v||}$ 的缩放以及 $MωM_\omega$ 的投影，两者对优化过程都起到作用。

2. Pytorch中weight normalization的使用

import torch
import torch.nn as nn

net = nn.Linear(200,10)
net.weight.data

nn.utils.weight_norm(net, name='weight')

net.weight_g.size(),net.weight_v.size()

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

企业级公交线路查询系统管理系统源码｜SpringBoot+Vue+MyBatis架构+MySQL数据库【完整版】

2048 AI社区

具有非线性不确定性的多智能体系统的固定时间事件触发共识控制（Matlab代码实现）

本文研究了具有非线性不确定性的多智能体系统的固定时间事件触发共识控制问题。基于事件触发策略的固定时间共识协议被提出，这些协议可以显著降低能量消耗和控制器更新的频率。集中式和分布式共识控制策略均被考虑。证明了在所提出的事件触发共识控制策略下，可以避免Zeno行为。与有限时间共识相比，固定时间共识可以在固定的收敛时间内达成，而与智能体的任意初始状态无关。最后，通过两个例子展示了固定时间事件触发共识协议