支持向量机（SVM）详解（二）

对于非线性可分情况，支持向量机通过适当放松限制条件，使得前文所述优化问题变得有解。同时，支持向量机通过将特征空间由低维映射到高维，提升特征空间被线性可分的概率，从而提升非线性可分情况下的分类效果。

RuizhiHe

5219人浏览 · 2021-04-25 20:55:12

RuizhiHe · 2021-04-25 20:55:12 发布

1. 前言

前文：支持向量机（SVM）详解（一）
前文详细介绍了线性可分情况下，支持向量机如何将寻找最优分类直线或线性超平面的问题转化为一个凸优化问题。当训练样本集非线性可分，显然，前文所述优化问题无解，即不存在 $W$ 和 $b$ 满足所有n个限制条件。
对于非线性可分情况，支持向量机通过适当放松限制条件，使得前文所述优化问题变得有解。同时，支持向量机通过将特征空间由低维映射到高维，提升训练样本集被线性可分的概率，从而提升分类效果。

2. 实际问题是否为线性可分问题的探讨

前文介绍了线性可分情况下，支持向量机寻找最优分类直线或线性超平面的过程。然而不幸的是，实际问题中，大多数分类问题都是非线性可分的。
1969年，人工智能先驱之一Marvin Minsky出版了《感知器》（Perceptrons）一书，在书中他明确地定义了线性可分和非线性可分的概念，同时他用大量实际的例子，并用严格的数学论证了大量现实生活中的很多分类问题都是非线性可分的。其中一个例子如下：
如图1所示，识别一幅图像是否为连通图，是一个非线性可分问题。
连通图与非连通图

证明：
将图中每条边进行标号如图1中左图所示，则图一至图四可表示为 $X_1=(1,1,1,0,1,1,0)^T, X_2=(1,1,1,1,0,0,1)^T, X_3=(1,1,1,1,1,0,0)^T, X_4=(1,1,1,0,0,1,1)^T$ 。其中1表示相应位置边存在，0表示相应位置边不存在。
假设上述问题线性可分，则必存在 $W=(w_1, w_2, w_3, w_4, w_5, w_6, w_7)^T$ 和 $b$ 使得：
$W^TX_1+b=w_1+w_2+w_3+w_5+w_6+b>0~~~~~~~~~~~~~~~~~~~~~~~(1)\\ W^TX_2+b=w_1+w_2+w_3+w_4+w_7+b>0~~~~~~~~~~~~~~~~~~~~~~~(2)\\ W^TX_3+b=w_1+w_2+w_3+w_4+w_5+b<0~~~~~~~~~~~~~~~~~~~~~~~(3)\\ W^TX_4+b=w_1+w_2+w_3+w_6+w_7+b<0~~~~~~~~~~~~~~~~~~~~~~~(4)$
(1) + (2) = $2w_1+2w_2+2w_3+w_4+w_5+w_6+w_7+2b>0~~~~~~~~~~~~~~~~~~~~~~~(5)$
(3) + (4) = $2w_1+2w_2+2w_3+w_4+w_5+w_6+w_7+2b<0~~~~~~~~~~~~~~~~~~~~~~~(6)$
显然， $2w_1+2w_2+2w_3+w_4+w_5+w_6+w_7+2b$ 不可能同时大于0且小于0,式(5)和(6)矛盾。
假设不成立，即上述问题非线性可分。

3. 基本定义

3.1 核函数（Kernel Function）

设 $\varphi$ 是向量 $X$ 到向量 $\varphi(X)$ 的映射，如果对任意两个向量 $X_1和X_2$ ，存在 $K(X_1, X_2)=\varphi(X_1)^T\varphi(X_2)$ ，则称函数 $K(X_1, X_2)$ 为核函数。
核函数 $K$ 和映射 $\varphi$ 是一一对应的关系，核函数必须满足如下条件才能被分解成两个 $\varphi$ 内积的形式。 $K(X_1, X_2)$ 能写成 $\varphi(X_1)^T\varphi(X_2)$ 的充要条件如下：

交换性： $K(X_1, X_2)=K(X_2, X_1)$
半正定性： $\forall c_i, X_i(i=1\sim n), 有：\sum_{i=1}^n\sum_{j=1}^nc_ic_jK(X_i, X_j) \geqslant 0$

3.2 原问题（Prime Problem）与对偶问题（Dual Problem）

设原问题形式如下：
$最小化：f(W)~~~~~~~~~~~~~~~~~~~~~~~~(7)\\ 限制条件：g_i(W) \leqslant 0, ~~~~~~~i=1\sim k~~~~~~~~~~~~~~~~~~(8)\\ \ ~~~~~~~~~~~~~~~~~~~h_j(W) = 0, ~~~~~~j=1\sim m~~~~~~~~~~~~~~~~(9)$
定义函数： $L(W,\Alpha,\Beta) = f(W) + \sum_{i=1}^k \alpha_ig_i(W) + \sum_{j=1}^m\beta_jh_j(W) = f(W) + \Alpha^TG(W) + \Beta^TH(W)$

其中 $\Alpha = [\alpha_1, \alpha_2, ..., \alpha_k]^T\\ \ ~~~~~~~\Beta = [\beta_1, \beta_2, ..., \beta_m]^T\\ \ ~~~~~~~G(W) = [g_1(W), g_2(W), ..., g_k(W)]^T\\ \ ~~~~~~~H(W) = [h_1(W), h_2(W), ..., h_m(W)]^T$

在定义了函数 $\Alpha, \Beta)$ 的基础上，定义对偶问题如下：
$\ ~~~~~~~~~~~最大化：\theta(\Alpha, \Beta) = \inf\limits_W\{L(W, \Alpha, \Beta)\}~~~~~~~~~~~~~~(10)\\ 限制条件：\alpha_i \geqslant 0, ~~~~~i=1\sim k~~~~~~~~~~~~~~~~~~~~~~(11)$

$\inf$ 表示遍历所有求最小。
$\theta$ 是 $\Alpha$ 和 $\Beta$ 的函数，这个函数表示：给定 $\Alpha, \Beta$ ,去遍历 $\Alpha, \Beta)$ 定义域内所有 $W$ ,找到使 $\Alpha, \Beta)$ 值最小的那个 $W$ ,同时将 $\Alpha, \Beta)$ 的这个最小值赋值给 $\theta(\Alpha, \Beta)$ 。

3.2.1 对偶差距（Duality Gap）

如果 $W^*$ 是原问题的解， $(\Alpha^*, \Beta^*)$ 是对偶问题的解，则对偶差距 $G=f(W^*)-\theta(\Alpha^*, \Beta^*)$ ，且 $G\geqslant0$ 。

证明：
$\theta(\Alpha^*, \Beta^*) = \inf\limits_W\{L(W, \Alpha^*, \Beta^*)\}~~~~~~~~~~~~~~~~~~~~~~~~~(12)\\ \ ~~~~~~~~~~~~~~~~\leqslant L(W^*, \Alpha^*, \Beta^*)~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(13)\\ \ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~=f(W^*) + (\Alpha^*)^TG(W^*) + (\Beta^*)^TH(W^*)~~~~~~~~~~~~~~~~~~~~~~~~~~~~(14)\\ \leqslant f(W^*)~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(15)$
说明：
$(12)\rArr(13)：$ 因为 $\inf\limits_W\{L(W, \Alpha^*, \Beta^*)\}$ 表示遍历定义域内所有 $W$ 取函数 $L$ 最小值，则该最小值一定会小于或等于指定某个具 $体的W^*$ 所得到的函数 $L$ 的值；
$(13)\rArr(14)：$ 根据函数 $L(W,\Alpha,\Beta)$ 的定义展开；
$(14)\rArr(15)：$ 因为 $H(W^*)$ 的每个分量均等于0， $G(W^*)$ 的每个分量均小于或等于0， $\Alpha^*$ 的每个分量均大于或等于0，因此 $~~~~~~~~~~~~~~~~~~~~~~~~(\Alpha^*)^TG(W^*) + (\Beta^*)^TH(W^*) \leqslant 0$ 。

3.2.2 强对偶定理（Strong Duality Theorem）

如果 $g_i(W)=a_iW+b_i, h_j(W)=c_jW+d_j, (i=1\sim k, j=1\sim m), f(W)$ 为凸函数，则有 $f(W^*)=\theta(\Alpha^*, \Beta^*)$ ，即对偶差距G等于0。

如果原问题的目标函数是凸函数，限制条件是线性函数，则原问题的解与对偶问题的解相等，即 $f(W^*)=\theta(\Alpha^*, \Beta^*)。$

3.2.3 KKT条件

若 $f(W^*)=\theta(\Alpha^*, \Beta^*)$ ，则 $\forall i=1\sim k$ ，要么 $\alpha_i^*=0$ ，要么 $g_i(W^*)=0$ 。

因为 $f(W^*)=\theta(\Alpha^*, \Beta^*)$ ，则 $(\Alpha^*)^TG(W^*) + (\Beta^*)^TH(W^*)$ 必定等于0。所有要么 $\Alpha^*$ 的分量 $\alpha_i^*=0$ ，要么 $G(W^*)$ 的分量 $g_i(W^*)=0$ 。

4. 支持向量机——非线性可分情况

回顾线性可分情况下，支持向量机优化问题如下：
$最小化:~~\frac{1}{2}||W||^2~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(16)\\ 限制条件：~~y_i(W^TX_i+b)\geqslant1,~~i=1\sim n~~~~~~~~~~~~~~~~(17)$
对于非线性可分情况，需要适当放松限制条件，使上述线性可分情况下的最优化问题变得有解。放松限制条件的基本思路是：对训练集中的每个训练样本及标签 $X_i, y_i)$ ，设置一个松弛变量 $\delta_i$ (Slack Variable)，将限制条件改写为： $y_i(W^TX_i+b)\geqslant1-\delta_i,~~i=1\sim n$ 。
改造后的支持向量机优化问题如下：
$最小化：~~\frac{1}{2}||W||^2+c\sum_{i=1}^n\delta_i~~或~~\frac{1}{2}||W||^2+c\sum_{i=1}^n\delta_i^2~~~~~~~~~~~~~~(18)\\ 限制条件：~~(1)~~\delta_i\geqslant0,~~i=1\sim n~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(19)\\ ~~~~~~~~~~~~~(2)~~y_i(W^TX_i+b)\geqslant1-\delta_i,~~i=1\sim n~~~~~~~~~~~(20)$

$c$ 称为比例因子，是人为设定的。一个算法中需要人为事先设定的参数叫做算法的超参数（Hyper Parameter）。一般来说，在实际运用中，会不断变化 $c$ 的值，同时测试算法的识别率，然后选取使识别率最大的超参数 $c$ 的值。支持向量机是超参数很少的算法模型。
$c\sum_{i=1}^n\delta_i$ 和 $c\sum_{i=1}^n\delta_i^2$ 称为正则项（Regulation Term）。在优化函数中加入正则项，表明尽量在不放松限制条件的情况下，求解最优分类直线或超平面。如果不约束 $\delta_i$ 的取值，显然当 $\delta_i$ 取非常大的正数时，任意 $W 和 b$ 均会满足限制条件(1)。因此，求解出来的 $W$ 和 $b$ 所对应的直线或超平面，分类效果将会非常差。

非线性可分

对于图1所示非线性可分数据集，运用上述改造后的支持向量机优化问题，仍可求解出合理的分类直线。

5. 特征空间映射到高维的解决方法

5.1 低维到高维的映射

考虑如下图2所示情况，使用上述改造后的支持向量机优化问题，求解出一条分类直线。如图2中的直线所示，求解出的分类直线效果非常差，和瞎猜没什么区别，问题出在哪里？
无法求得合理的分类直线
因为支持向量机限定了分类两类的决策函数是线性的，即支持向量机从无数条直线或超平面中寻找最优的分类直线或超平面。但是在图2所示数据集中，任何直线均无法合理地分开两类。显然，分开两类的决策函数应该是一条类似椭圆的曲线。
人工神经网络等算法，通过多层非线性函数的组合，能够产生类似于椭圆这样的曲线，从而将图2所示中这类训练样本集合理二分。
支持向量机扩大可选函数范围，从而将图2所示中的这类训练样本集合理二分的方法可谓独竖一帜。支持向量机通过将特征空间由低维映射到高维，然后在高维特征空间中，仍然使用线性超平面对训练样本进行分类。

存在定理如下：
在一个M维空间中随机取N个训练样本，随机地对每个训练样本赋予标签+1或-1。设这些训练样本线性可分的概率为P(M)，则当M趋于无穷大时，P(M)=1。
举例说明如下：
考量如图4所示异或问题，其中黑色点为一类，白色点为另一类，即 $X_1=(0,0)^T\in C_1, X_2=(1, 1)^T\in C_1, X_3=(1, 0)^T\in C_2, X_4= (0, 1)^T\in C_2$ ，显然该样本集非线性可分。

构造如下2维到5维的映射 $\varphi(X):$
$X=(x_1, x_2)^T\to\varphi(X)=(x_1^2, x_2^2, x_1, x_2, x_1x_2)^T$
则 $\varphi(X_1)=(0,0,0,0,0)^T, \varphi(X_2)=(1,1,1,1,1)^T, \varphi(X_3)=(1,0,1,0,0), \varphi(X_4)=(0,1,0,1,0)^T$ 。设 $W=(-1,-1,-1,-1,6)^T, b=1，则：$
$W^T\varphi(X_1)+b=1>0\\ W^T\varphi(X_2)+b=3>0\\ W^T\varphi(X_3)+b=-1<0\\ W^T\varphi(X_4)+b=-1<0$
因此， $\varphi(X_1), \varphi(X_2), \varphi(X_3), \varphi(X_4)$ 线性可分。
可见2维非线性可分数据集，其特征空间映射到5维后，变成了线性可分数据集。

当 $X$ 映射成 $\varphi(X)$ ，支持向量机优化问题转变成如下形式：
$最小化：~~\frac{1}{2}||W||^2+c\sum_{i=1}^n\delta_i~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(21)\\ 限制条件：~~(1)~~\delta_i\geqslant0,~~i=1\sim n~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(22)\\ ~~~~~~~~~~~~~~~~~~~(2)~~y_i(W^T\varphi(X_i)+b)\geqslant1-\delta_i,~~i=1\sim n~~~~~~~~~~~(23)$

当 $X$ 映射成 $\varphi(X)$ ， $W$ 的维度须保持与 $\varphi(X)$ 保持一致。高维情况下优化问题的解法和低维情况下是完全类似的。

5.2 转化为对偶问题

将特征空间由低维映射到高维，可使得低维情况下非线性可分数据集变得线性可分。而且高维情况下的优化问题的解法和低维情况下完全类似。因此，只剩下最后一个问题：低维到高维的映射 $\varphi(X)$ 的具体形式如何确定？
支持向量机的创始人Vapnik在关于低维到高维的映射 $\varphi(X)$ 具体形式这个问题上的回答是极具创造性的。他指出，不用知道 $\varphi(X)$ 的具体形式，如果对任意两个向量 $X_1$ 和 $X_2$ ，我们知道一个核函数 $K(X_1, X_2)=\varphi(X_1)^T\varphi(X_2)$ ，那么我们可以通过一些技巧获得一个测试样本 $X$ 的类别信息，从而完成对测试样本类别的预测。
对任意一个测试样本，仅需知道核函数 $K$ ，而不用知道低维到高维的映射 $\varphi(X)$ ，就能知道其类别信息。推导过程如下：
首先将支持向量机的优化问题转化为对偶问题。为了将支持向量机的优化问题转化为对偶问题，须改变支持向量机的优化问题形式，使之和原问题与对偶问题定义中原问题形式保持一致。然后根据定义，对照写出支持向量机的优化问题的对偶问题。
考量3.2中原问题形式，其通过优化变量 $W$ ，使得函数 $f (W)$ 值最小。存在 $k$ 个不等式限制条件，形式为 $g_i(W) \leqslant 0$ 。存在 $m$ 个等式限制条件，形式为 $h_j(W) = 0$ 。
考量支持向量机优化问题(21)—(23)，可以发现优化问题中限制条件形式与原问题定义中形式不一致。首先将 $\delta_i\geqslant0, (i=1\sim n)$ 转变成为 $\delta_i\leqslant0, (i=1\sim n)$ ，即将支持向量机的优化问题中所有 $\delta$ 的值全部取其相反数，优化问题转变成如下形式：
$最小化：~~\frac{1}{2}||W||^2-c\sum_{i=1}^n\delta_i~~~~~~~~~~~~~~~~~~~~~~~~~(24)\\ 限制条件：(1)~~\delta_i\leqslant0,~~i=1\sim n~~~~~~~~~~~~~~~~~~~~~~~(25)\\ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(2)~~y_i(W^T\varphi(X_i)+b)\geqslant1+\delta_i,~~i=1\sim n~~~~~~~~~(26)$

当 $\delta_i\geqslant0, (i=1\sim n)$ 转变成为 $\delta_i\leqslant0, (i=1\sim n)$ ，整个优化问题中所有 $\delta_i$ 均需取其相反数。因此最小化： $\frac{1}{2}||W||^2+c\sum_{i=1}^n\delta_i$ 须换变成为 $\frac{1}{2}||W||^2-c\sum_{i=1}^n\delta_i$ 。限制条件（2）须转变成为 $y_i(W^T\varphi(X_i)+b)\geqslant1+\delta_i,~~i=1\sim n$ 。

考量式（26），可以发现其与原问题定义中形式不一致，将其移项转变成： $1+\delta_i-y_i(W^T\varphi(X_i)+b)\leqslant0$ 。经过整理，可将支持向量机优化问题写成如下形式：
$最小化：~~\frac{1}{2}||W||^2-c\sum_{i=1}^n\delta_i~~~~~~~~~~~~~~~~~~~~~~~~~(27)\\ 限制条件：(1)~~\delta_i\leqslant0,~~i=1\sim n~~~~~~~~~~~~~~~~~~~~~~~(28)\\ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(2)~~1+\delta_i-y_iW^T\varphi(X_i)-y_ib\leqslant0,~~i=1\sim n~~~~~~~~~(29)$

原问题定义中的优化变量 $W=(W,b,\Delta)=(w_1,w_2,...,w_l,b,\delta_i,\delta_2,...,\delta_n)$ ，其中 $l$ 等于向量 $\varphi(X_i)$ 的维数；
原问题定义中的目标函数 $f(W)=\frac{1}{2}||W||^2-c\sum_{i=1}^n\delta_i$ ；
原问题中限制条件 $g_i(W) \leqslant 0, ~i=1\sim k$ 等同于① $\delta_i\leqslant0,~i=1\sim n$ ，② $1+\delta_i-y_iW^T\varphi(X_i)-y_ib\leqslant0,~~i=1\sim n$ 。其中原问题定义中的 $k$ 在该优化问题中等于 $2 n$ ，即总共存在 $2 n$ 个不等式形式的限制条件；
原问题中限制条件 $h_j(W) = 0, ~~j=1\sim m$ 在该优化问题中不存在，即不存在等式形式的限制条件。

考量原问题与对偶问题定义中定义的函数 $\Alpha, \Beta)=f(W) + \sum_{i=1}^k \alpha_ig_i(W) + \sum_{j=1}^m\beta_jh_j(W)$ ，在支持向量机的优化问题中：
$\Alpha, \Beta)=\frac{1}{2}||W||^2-c\sum_{i=1}^n\delta_i+\sum_{i=1}^n\alpha_i[1+\delta_i-y_iW^T\varphi(X_i)-y_ib]+\sum_{i=1}^n\beta_i\delta_i~~~~~~~~~(30)$

由于原问题中限制条件 $g_i(W) \leqslant 0, ~i=1\sim k$ 等同于① $\delta_i\leqslant0,~i=1\sim n$ ，② $1+\delta_i-y_iW^T\varphi(X_i)-y_ib\leqslant0,~~i=1\sim n$ ， $\Alpha, \Beta)$ 中 $g_i(W)$ 前的系数 $\alpha_i$ 在式（30）中，被拆成两部分，即 $\alpha_i$ 和 $\beta_i$ 。

因此，支持向量机优化问题的对偶问题应写成如下形式：
$最大化：\theta(\Alpha, \Beta) = \inf\limits_{W,b,\Delta}\{\frac{1}{2}||W||^2-c\sum_{i=1}^n\delta_i+\sum_{i=1}^n\alpha_i[1+\delta_i-y_iW^T\varphi(X_i)-y_ib]+\sum_{i=1}^n\beta_i\delta_i\}~~~~~~~~~(31)\\ 限制条件：(1)\alpha_i\geqslant0,~~~~~~i=1\sim n~~~~~~~~~~~~~~~~~(32)\\ ~~~~~~~~~~~~~~~~~~~~(2)\beta_i\geqslant0,~~~~~~i=1\sim n~~~~~~~~~~~~~~~~~(33)$
对式（31）进行化简，由于 $\inf\limits_{W,b,\Delta}$ 表示遍历所有 $W,b,\Delta$ ，并取最小值，为一个典型的函数求极值问题。因此对 $\delta_i)$ 求偏导，并令偏导数等于0。将求解出的结果带入式（31），即简化式（31）：
$\frac{\partial\theta}{\partial W}=W-\sum_{i=1}^n\alpha_iy_i\varphi(X_i)=0~~~~~~~~~~~~~~~~~~~~~~~~~(34)\\ \frac{\partial\theta}{\delta_i}=-c+\alpha_i+\beta_i=0~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(35)\\ \frac{\partial\theta}{\partial b}=-\sum_{i=1}^n\alpha_iy_i=0~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(36)$

若 $W=(w_1,w_2,...,w_m)^T,f(W)$ 为 $W$ 的函数，则 $\frac{\partial f}{\partial W}=(\frac{\partial f}{\partial w_1},\frac{\partial f}{\partial w_2},...,\frac{\partial f}{\partial w_m})^T$ ；
若 $f(W)=\frac{1}{2}||W||^2$ ，则 $\frac{\partial f}{\partial W}=W$ ；
若 $f(W)=W^Tg(X)$ ，则 $\frac{\partial f}{\partial W}=g(X)$ 。
具体参见：向量求导法则

从式(34)—(36)可以推出：
$W=\sum_{i=1}^n\alpha_iy_i\varphi(X_i)~~~~~~~~~~~~~~~~~~~~~~~(37)\\ \alpha_i+\beta_i=c~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(38)\\ \sum_{i=1}^n\alpha_iy_i=0~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(39)$
将式(37)—(39)代入式(31)：【这里看上去有一点点复杂，但是实际上并不难理解。我写得很详细，你绝对能够看明白， $\color{red}我保证！$ 请静下心来，深呼吸一次，跟着我的思路，结合下面的解释，一步一步慢慢查看推导过程。】
$\theta(\Alpha, \Beta) = \inf\limits_{W,b,\Delta}\{\frac{1}{2}||W||^2-c\sum_{i=1}^n\delta_i+\sum_{i=1}^n\alpha_i[1+\delta_i-y_iW^T\varphi(X_i)-y_ib]+\sum_{i=1}^n\beta_i\delta_i\}~~~~~~~~~~~~~~~~~~~(40)\\ =\inf\limits_{W,b,\Delta}\{\frac{1}{2}||W||^2+\sum_{i=1}^n\alpha_i[1-y_iW^T\varphi(X_i)-y_ib]\}~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(41)\\ =\inf\limits_{W,b,\Delta}\{\frac{1}{2}||W||^2+\sum_{i=1}^n\alpha_i[1-y_iW^T\varphi(X_i)]\}~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(42)\\ =\inf\limits_{W,b,\Delta}\{\sum_{i=1}^n\alpha_i+\frac{1}{2}||W||^2-\sum_{i=1}^n\alpha_iy_iW^T\varphi(X_i)\}~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(43)\\ =\inf\limits_{W,b,\Delta}\{\sum_{i=1}^n\alpha_i+\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_j\varphi(X_i)^T\varphi(X_j)-\sum_{i=1}^n\alpha_iy_iW^T\varphi(X_i)\}~~~~~~~~(44)\\ =\inf\limits_{W,b,\Delta}\{\sum_{i=1}^n\alpha_i+\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_j\varphi(X_i)^T\varphi(X_j)-\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_j\varphi(X_i)^T\varphi(X_j)\}~~~~~~~~~~~~~~~(45)\\ =\inf\limits_{W,b,\Delta}\{\sum_{i=1}^n\alpha_i-\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_j\varphi(X_i)^T\varphi(X_j)\}~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(46)\\ =\sum_{i=1}^n\alpha_i-\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_j\varphi(X_i)^T\varphi(X_j)~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(47)\\ =\sum_{i=1}^n\alpha_i-\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jK(X_i,X_j)~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(48)$

推导过程辅助解释：
(40) $\rArr$ (41)：因为 $\alpha_i+\beta_i=c$ ，因此可消去式（40）中 $-c\sum_{i=1}^n\delta_i、\sum_{i=1}^n\alpha_i\delta_i、\sum_{i=1}^n\beta_i\delta_i$ ，得到式（41）；
(41) $\rArr$ (42)：因为 $\sum_{i=1}^n\alpha_iy_i=0$ ，因此可消去式（41）中 $\sum_{i=1}^n\alpha_iy_ib$ ，得到式（42）；
(42) $\rArr$ (43)：将 $\sum_{i=1}^n\alpha_i$ 与括号内每一项相乘；
(43) $\rArr$ (44)：
$\frac{1}{2}||W||^2=\frac{1}{2}W^TW~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~①\\ =\frac{1}{2}[\sum_{i=1}^n\alpha_iy_i\varphi(X_i)]^T[\sum_{j=1}^n\alpha_jy_j\varphi(X_j)]~~~~~~~~~~~~②\\ =\frac{1}{2}[\sum_{i=1}^n\alpha_iy_i\varphi(X_i)^T][\sum_{j=1}^n\alpha_jy_j\varphi(X_j)]~~~~~~~~~~~~③\\ =\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_j\varphi(X_i)^T\varphi(X_j)~~~~~~~~~~~~~~~~~④\\ ①：因为W是一个列向量，所以||W||^2=W^TW~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\\ ②\rArr③：因为\alpha_i、y_i为常数，\varphi(X_i)为向量，所以[\sum_{i=1}^n\alpha_iy_i\varphi(X_i)]^T=\sum_{i=1}^n\alpha_iy_i\varphi(X_i)^T$
(44) $\rArr$ (45)：
$\sum_{i=1}^n\alpha_iy_iW^T\varphi(X_i)=\sum_{i=1}^n\alpha_iy_i[\sum_{j=1}^n\alpha_jy_j\varphi(X_j)]^T\varphi(X_i)~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~①\\ =\sum_{i=1}^n\alpha_iy_i[\sum_{j=1}^n\alpha_jy_j\varphi(X_j)^T]\varphi(X_i)~~~~~~~~~~~~②\\ =\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_j\varphi(X_j)^T\varphi(X_i)~~~~~~~~~~~~~~③\\ =\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_j\varphi(X_i)^T\varphi(X_j)~~~~~~~~~~~~~~~④\\ ③\rArr④：调换i和j。相当于双重for循环，循环变量先为i还是先为j，都是一样的。$
(46) $\rArr$ (47)：因为已经将式(37)—(39)全部代入式(31)了，因此可以去掉 $\inf\limits_{W,b,\Delta}$ 了。实际上式（46）中也已经没有了 $W,b,\Delta$ ；
(47) $\rArr$ (48)：因为核函数 $K(X_1, X_2)=\varphi(X_1)^T\varphi(X_2)$ 。

综上所述【终于看到这亲切的四个字了！】，将支持向量机的优化问题转化成对偶问题如下：
$最大化：~~\theta(\Alpha)=\sum_{i=1}^n\alpha_i-\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jK(X_i,X_j)~~~~~~~~~~~~~~~~~(49)\\ 限制条件：~~(1)~0\leqslant\alpha_i\leqslant c,~~~~i=1\sim n~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(50)\\ (2)~\sum_{i=1}^n\alpha_iy_i=0,~~~~i=1\sim n~~~~~~~~~~~~~~~~~~~~~~~~~~~(51)$

式（49）中 $\theta(\Alpha,\Beta)$ 可以写成 $\theta(\Alpha)$ 是因为，支持向量机优化问题原问题中不存在等式形式的限制条件，即不存在变量 $\Beta$ ；
式（50）是综合式(32)、(33)、(38)所得；
式（51）来源于式（39）。
在上述对偶问题中， $\alpha_i、\alpha_j$ 是待求变量， $y_i、y_j、X_i、X_j,n$ 是已知的。其中 $y_i、y_j$ 是训练样本的标签， $X_i、X_j$ 是训练样本， $n$ 是训练样本数量。 $c$ 是算法的超参数，需要人为事先设定。 $K$ 为核函数，需要人为事先设定。
该问题也是一个典型的凸优化问题，同样可以使用SMO算法求解。

5.3 核函数戏法（Kernel Trick）

回顾我们的目标是什么？对于任意一个测试样本 $X_t$ ，需要知道其属于哪一类，即需要知道 $W^T\varphi(X_t)+b$ 的值大于或等于0还是小于0。
$W^T\varphi(X_t)+b=\sum_{i=1}^n\alpha_iy_i\varphi(X_i)^T\varphi(X_t)+b~~~~~~~~~~(52)\\ ~~~~~~~~~~~~~~~~~~~~~=\sum_{i=1}^n\alpha_iy_iK(X_i,X_t)+b~~~~~~~~~~~~~(53)$

(52)：据式(37)， $W=\sum_{i=1}^n\alpha_iy_i\varphi(X_i)$ ，代入可得式（52）；
$\alpha_i$ ：根据式(49)—(51)所述对偶问题，只需知道核函数 $K$ ，即可使用SMO算法求解该凸优化问题，从而得到所有 $\alpha_i~~(i=1\sim n)$ 。

至此，只剩下最后一个问题：如何求 $b$ ？
$因为，W=\sum_{i=1}^n\alpha_iy_i\varphi(X_i)\\ 所以，W^T\varphi(X_i)=[\sum_{j=1}^n\alpha_jy_j\varphi(X_j)]^T\varphi(X_i)=\sum_{j=1}^n\alpha_jy_j\varphi(X_j)^T\varphi(X_i)\\ 又因为，\varphi(X_j)^T\varphi(X_i)=K(X_j,X_i)\\ 所以，W^T\varphi(X_i)=\sum_{j=1}^n\alpha_jy_jK(X_j,X_i)\\ 可知，支持向量机优化问题的对偶问题满足3.2.2所述强对偶定理要求，\\ 因此根据3.2.3所述KKT条件有：\\ \begin{cases} \alpha_i[1+\delta_i-y_iW^T\varphi(X_i)-y_ib]=0\\ \beta_i\delta_i=0~~\rArr~~(c-\alpha_i)\delta_i=0 \end{cases}\\ 对于所有\alpha_i\not=0且\alpha_i\not=c，根据KKT条件，必有：\\ \begin{cases} 1+\delta_i-y_iW^T\varphi(X_i)-y_ib=0\\ \delta_i=0 \end{cases}\\ 即，1-y_iW^T\varphi(X_i)-y_ib=0\\ 即，1-\sum_{j=1}^n\alpha_jy_iy_jK(X_j,X_i)-y_ib=0\\ 所以只需找一个\alpha_i~~(0<\alpha_i<c)，取该\alpha_i对应的X_i和y_i，\\ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~则b=\frac{1-\sum_{j=1}^n\alpha_jy_iy_jK(X_j,X_i)}{y_i}~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(54)$
最后，可以得到判别标准如下：
$如果\sum_{i=1}^n\alpha_iy_iK(X_i,X_t)+b\geqslant0，那么X_t\in C_1；\\ 如果\sum_{i=1}^n\alpha_iy_iK(X_i,X_t)+b<0，那么X_t\in C_2。$

这种不知道 $\varphi(X)$ ，只知道核函数 $K(X_1,X_2)$ 也可以算出 $W^T\varphi(X)+b$ 值的方法被称为“核函数戏法”。

6. 总结支持向量机训练和测试流程

6.1 训练流程

① 输入训练数据 $\{(X_i, y_i)\},~~i=1\sim n$ ，其中 $y_i$ 是标签， $y_i=\pm1$ ；
② 指定超参数的值、核函数 $K(X_i,X_j)$ 的具体形式；
③ 求解如下优化问题，求出所有 $\alpha_i,~~i=1\sim n$ ：
$最大化：~~\theta(\Alpha)=\sum_{i=1}^n\alpha_i-\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jK(X_i,X_j)\\ 限制条件：~~(1)~0\leqslant\alpha_i\leqslant c,~~~~i=1\sim n~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\\ (2)~\sum_{i=1}^n\alpha_iy_i=0,~~~~i=1\sim n~~~~~~~~~~$
④ 求出 $\Alpha$ ，知道了 $\Alpha$ 的每一个分量 $\alpha_i$ 之后，通过下式求 $b$ ：
$找一个\alpha_i~~(0<\alpha_i<c)，取该\alpha_i对应的X_i和y_i，\\ b=\frac{1-\sum_{j=1}^n\alpha_jy_iy_jK(X_j,X_i)}{y_i}$
⑤ 知道了 $\Alpha$ 的每一个分量 $\alpha_i$ 和 $b$ 之后，就完成了支持向量机的训练过程。

6.2 测试流程

① 考察测试数据 $X_t$ ，预测其类别 $y$ ;
② 如果 $\sum_{i=1}^n\alpha_iy_iK(X_i,X_t)+b\geqslant0$ ，则 $y = + 1$ ；
如果 $\sum_{i=1}^n\alpha_iy_iK(X_i,X_t)+b<0$ ，则 $y = - 1$ 。

7. 后记

万字长文，洋洋洒洒，文不加点，一气呵成！
支持向量机（SVM）详解（二）全文总17319字，详细推导了在非线性可分情况下，支持向量机寻找最优分类决策直线或线性超平面的过程。清晰地展现了支持向量机如何引入松弛变量，放松限制条件，改造目标函数使得在非线性可分情况下，优化问题仍然可解。同时详细推导了支持向量机如何将特征空间由低维映射到高维，将优化问题转化为对偶问题，使用核函数戏法判断测试样本类别的过程。
后续，我将向大家介绍支持向量机各种常用核函数，各种超参数的调整方法，支持向量机求解多分类问题的方法，以及使用支持向量机解决实际问题的经验。
后文：支持向量机（SVM）详解（三）

创作不易，期待点赞、评论、收藏、分享支持鸽鸽（作者）！
如果您觉得鸽鸽特别棒，也可以请鸽鸽喝咖啡 $\color{red}\Large\Downarrow$ ，谢谢~

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

数据库范式那些事

简单的说，bc范式是在第三范式的基础上的一种特殊情况，既每个表中只有一个候选键（在一个数据库中每行的值都不相同，则可称为候选键），在上面第三范式的noNf表中可以看出，每一个员工的email都是唯一的（难道两个人用同一个email?数据库范式在数据库设计中的地位一直很暧昧，教科书中对于数据库范式倒是都给出了学术性的定义，但实际应用中范式的应用却不甚乐观，这篇文章会用简单的语言和一个简单的数据库DE

2048 AI社区

基于SpringAI的在线考试系统-DDD业务领域模块设计思路

2048 AI社区

CSS AI 编程

AI 技术的飞速发展正在深刻改变开发者的工作方式。在 HTML 网页开发中，我们常常被大量细微却高频的重复操作降低效率。因此，AI 的出现可以改变我们的编程方式与提高效率。AI 对我们来说就是一个可靠的编程助手，给我们提供了实时的建议和解决方案，无论是根据图片生成前端页面、快速修复错误，或者查找关键文档和资源，AI 作为编程助手都能让你事半功倍。