近端梯度法（proximal gradient）

近端梯度法是一种求解不可微凸函数最优化问题的经典方法。其核心思想在于将不可微凸函数的最优化问题转换为易求解的proximal映射函数，从而实现近似求解。一、proximal映射proximal映射是近端梯度法的核心方法。假设约束函数f(x)f(\boldsymbol x)f(x)的定义域为U\boldsymbol UU，定义自变量x\boldsymbol xx的proximal映射为：prox..

guofei_fly

4270人浏览 · 2020-01-05 10:47:42

guofei_fly · 2020-01-05 10:47:42 发布

近端梯度法是一种求解不可微凸函数最优化问题的经典方法。其核心思想在于将不可微凸函数的最优化问题转换为易求解的proximal映射函数，从而实现近似求解。

一、proximal映射

proximal映射是近端梯度法的核心方法。假设约束函数 $f(\boldsymbol x)$ 的定义域为 $\boldsymbol U$ ，定义自变量 $\boldsymbol x$ 的proximal映射为： $prox_f(\boldsymbol x)=\arg\min_{\boldsymbol {u\in U}}(f(\boldsymbol u)+\frac{1}{2}||\boldsymbol {u}-\boldsymbol x||_2^2), \quad \forall \boldsymbol x\in \boldsymbol U$ 通俗的讲，变量 $\boldsymbol x$ 的proximal映射即为同定义域内，满足与之“欧式距离平方+约束函数 $f$ 值”最小的变量值 $\boldsymbol u$ 。

下面给出一些约束函数 $f(\boldsymbol x)$ 下的proximal映射案例：

1）常数函数

令 $f(\boldsymbol x)=c$ ，则有:
$prox_f(\boldsymbol x)=\arg\min_{\boldsymbol {u\in U}}(c+\frac{1}{2}||\boldsymbol {u}-\boldsymbol x||_2^2)$ 显然，此时 $prox_f(\boldsymbol x)=\boldsymbol x$

2）仿射函数

令 $f(\boldsymbol x)=\boldsymbol a^T\boldsymbol x+\boldsymbol b$ ，则有： $prox_f(\boldsymbol x)=\arg\min_{\boldsymbol {u\in U}}(\boldsymbol a^T\boldsymbol u+\boldsymbol b +\frac{1}{2}||\boldsymbol {u}-\boldsymbol x||_2^2)$ 对 $\boldsymbol {u}$ 求导，并另其为0，可得： $prox_f(\boldsymbol x)=\boldsymbol x-\boldsymbol a$

3）二次函数

令 $f(\boldsymbol x)=\frac{1}{2}\boldsymbol {x^TAx}+\boldsymbol b^T\boldsymbol x+ \boldsymbol c$ ，则有： $prox_f(\boldsymbol x)=\arg\min_{\boldsymbol {u\in U}}(\frac{1}{2}\boldsymbol {u^TAu}+\boldsymbol b^T\boldsymbol u+ \boldsymbol c \boldsymbol +\frac{1}{2}||\boldsymbol {u}-\boldsymbol x||_2^2)$ 对 $\boldsymbol {u}$ 求导，并另其为0，可得： $prox_f(\boldsymbol x)=(\boldsymbol A+\boldsymbol I)^{-1}(\boldsymbol x-\boldsymbol b)$

4）L1范数

令 $f(\boldsymbol x)=t||\boldsymbol x||_1$ ，则有： $prox_f(\boldsymbol x)=\arg\min_{\boldsymbol {u\in U}}(t ||\boldsymbol u||_1 +\frac{1}{2}||\boldsymbol {u}-\boldsymbol x||_2^2)$ 注意到L1范数并非连续可导，这里需要用到次梯度的性质，将上述问题转化为： $\begin{aligned}&0\in \partial(t ||\boldsymbol u||_1 +\frac{1}{2}||\boldsymbol {u}-\boldsymbol x||_2^2)\\ \Rightarrow &\boldsymbol {x}-\boldsymbol u\in t\partial ||\boldsymbol u||_1\end{aligned}$ 对于上式而言， $\boldsymbol u$ 的各成分 $u_i$ 并无耦合关系，所以可单独考虑每个 $u_i$ 。根据 $u_i$ 的取值符号进行分段考虑：

（a）若 $u_i>0$
此时 $\partial ||u_i||_1=1$ ，因此： $prox_f(u_i)=x_i-t$ 同时注意到 $x_i-t=u_i>0$

（b）若 $u_i<0$
此时 $\partial ||u_i||_1=-1$ ，因此： $prox_f(u_i)=x_i+t$ 同时注意到 $x_i+t=u_i<0$

（c）若 $u_i=0$
此时 $\partial |u_i|=[-1,1]$ ，因此 $x_i-u_i\in[-t,t]$ ，即： $|x_i-u_i|\le t$ 综上，上述由proximal映射定义的优化问题的解为： $u_i=S_t(x_i)$ ，其中 $S_t (\cdot)$ 被称为软阈值函数： $S_t(x_i)=\begin{cases}x_i-t\quad,if \quad x_i>t\\0\quad,if \quad |x_i-u_i|\le t\\x_i+t,\quad,if \quad x_i<-t\end{cases}$

二、近端梯度法

定义如下的无约束问题： $\min f(\boldsymbol x)=g(\boldsymbol x)+h(\boldsymbol x)$ 其中 $g (x)$ 为凸函数，且可微分； $h (x)$ 为凸函数（分解时应尽量简单），但不可微。

对于 $g(\boldsymbol x)$ ，在 $\boldsymbol x_k$ 处进行二阶泰勒展开的近似，可知存在值 $t$ ，使得： $g(\boldsymbol x)=g(\boldsymbol x_{k})+\nabla g^T(\boldsymbol x_{k})(\boldsymbol x-\boldsymbol x_{k})+\frac{1}{2t}(\boldsymbol x-\boldsymbol x_{k})^T(\boldsymbol x-\boldsymbol x_{k})$ 因此，最优化问题可写为 $\begin{aligned}&\arg\min_x g(\boldsymbol x_{k})+\nabla g^T(\boldsymbol x_{k})(\boldsymbol x-\boldsymbol x_{k})+\frac{1}{2t}(\boldsymbol x-\boldsymbol x_{k})^T(\boldsymbol x-\boldsymbol x_{k})+h(\boldsymbol x)\\=&\arg\min_x\frac{1}{2t}||\boldsymbol x-(\boldsymbol x_k-t\nabla g(\boldsymbol x_k))||_2^2+h(\boldsymbol x)\end{aligned}$ 仔细观察上式，如果将 $\boldsymbol x_k-t\nabla g(\boldsymbol x_k)$ 视为一个整体 $\boldsymbol z$ ，同时忽略常系数，其本质上就是求其的proximal映射： $prox_h(\boldsymbol z)=\frac{1}{2t}||\boldsymbol x-\boldsymbol z||_2^2+h(\boldsymbol x)$ 由此，便得到了近段梯度法的迭代公式： $\boldsymbol x_{k+1}=\mathop{prox}\limits_{h,t}(\boldsymbol x_k-t\nabla g(\boldsymbol x_k))$

三、近端梯度法在Lasso回归的应用

近段梯度法常被用于解决Lasso回归的优化问题： $\arg\min_{\boldsymbol W}\frac{1}{2}||(\boldsymbol{XW}-{\boldsymbol y})||_2^2+\lambda||\boldsymbol W||_1$ 其中损失函数第一项为可微凸函数，第二项为L1正则项，直接套用上文近段梯度法的迭代公式以及L1范数下的近段梯度，可得： $w_i^{k+1}=\mathop{prox}\limits_{h,w_i}(w_i^k-\boldsymbol X^T_{\cdot,i}(\boldsymbol {XW^k}-\boldsymbol y)),h(w)=|w|$ 且若 $|\boldsymbol X^T_{\cdot,i}(\boldsymbol {XW^k}-\boldsymbol y)|\le\lambda$ 此时有 $w_i=0$ ，这表明了L1正则化会导致系数的稀疏化。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

异地组网安全吗？一文解答所有安全疑虑

会不会泄露我的数据？“黑客能不能攻击我的NAS？“和VPN比哪个更安全？“免费的能靠谱吗？“我家里的摄像头会被人看到吗？这些担忧很正常。毕竟，你是在把家里的设备"暴露"到互联网上。异地组网的安全性到底如何？有哪些风险？如何防范？机密性（Confidentiality）- 数据不被窃取完整性（Integrity）- 数据不被篡改可用性（Availability）- 服务不被中断异地组网主要涉及前两个