机器学习-支持向量机的数学讨论

1 支持向量机的特点：

泛化错误率较低，计算开销不大，结果容易解释；
对于参数和核函数选择敏感
可以适用于标称型数据和数值型数据

2 SVM解释如下：

对于二分类问题，寻找其线性可分的可能性。如果能够实现分割，则称为分割超平面。具体的，对于N维数据，需要构建一个(N-1)维的超平面。
由于超平面的构建的多样性，可以引入支持向量的概念，来量化分割超平面的好坏，从而定义超平面两侧的点到超平面的最小垂直距离
将超平面两侧点到超频面的最小垂直距离称为间隔，希望间隔越小越好，这样能够实现较高的数据容差，保证了分类器的稳健。而支持向量就是离分隔超平面最近的点。

3 如何求解点到分割超平面的距离？

为了研究分割超平面，首先需要给出其数学形式，最简单的N维数据分割超平面形式为 ${\vec{w}}^{T} \vec{x} + b = 0$ ，其中 $\vec{w}$ 为
N*1向量， $\vec{x}$ 为N*1向量，而b为标量。
对于任意一点A，坐标记为 $(x_{1}, x_{2}, . . ., x_{N})$ ，距离上述分割超平面的距离为 $\frac{| {\vec{w}}^{T} \vec{A} + b |}{| | \vec{w} | |}$ 。数学证明可以采用向量方式，初等数学即可。

4 如何评价分类情况的好坏

对于计算得到的超平面方程，可以将测试点带入，这样可以得到一个数据，具体来说，代入点 $\vec{u}$ ，计算 $y = {\vec{w}}^{T} \vec{u} + b$ 。然后将结果输入到一个二分类的非线性函数中，得到映射后的分类情况。
支持向量机使用的非线性函数是采用label=+-1映射的情况，因此可以使用 $l a b e l ({\vec{w}}^{T} \vec{u} + b)$ ，这样当结果较大时，则表明点u在离超平面很远的地方，间距较大。当然，如果分类错误，则会产生一个负数，负数越大，证明分类的误差越大。

5 如何定义优化的目标函数

根据上述分析，可以定义出一个优化问题：存在参数(向量w和标量b)，需要步骤4的表达式，也就是 $l a b e l ({\vec{w}}^{T} \vec{u} + b)$ 尽量大。由于存在多个u，则可以定义评价函数。
问题表述为(较难求解)
$\arg max_{\vec{w}, b} {min (\frac{l a b e l * ({\vec{w}}^{T} \vec{u} + b)}{| | \vec{w} | |})}$

6 标准形式的推导

上式较难求解，可以采用等效变换的方式。首先，向量 $\vec{w}$ 和标量 $b$ 可以同时放大或者缩小k倍，这并不会影响上述求解值（向量平移性质有关）。因此，可以利用该条件，定义 $l a b e l ({\vec{w}}^{T} \vec{u} + b) >= 1$ ，其中支持向量能够使得等式成立。如果满足该条件，那么原问题也成立。当然，这是假设分类均正确
接下来，对于分数形式的优化，可以采用最小化分子项和最大化分母项来进行，分子项最小为1，因此该式可以转换为如下的优化问题：
$\arg min_{\vec{w}, b} \frac{1}{| | \vec{w} | |}$
为了能够求解上一个优化问题，结合二次规划算法，可以最终将等式转化如下：
$\arg min_{\vec{w}, b} \frac{1}{2} | | \vec{w} | |^{2}, s t . y_{i} ({\vec{w}}^{T} \vec{x_{i}} + b) >= 1$
对于上述问题，可以利用凸二次优化方法进行求解。QP方法 quadratic programming

7 对偶形式推导

7.1 拉格朗日乘子法：将带约束的情况转换为无约束情况。

对于等式约束的拉格朗日乘子法，其原理为（可能的一种理解方法）：
1. 对于 $min f (\vec{x}), s t . {\vec{w_{i}}}^{T} \vec{x} + b_{i} = 0, i = 1... N$ ，可以转换为无约束的等式 $L (\vec{x}, α_{i}) = f (\vec{x}) + \sum_{i = 1 t o N} α_{i} ({\vec{w_{i}}}^{T} \vec{x} + b_{i})$ ；
2. 对于上式L，求解对于x的偏导项，则可以得到x关于 $α_{i}$ 的表示，x项从 $\partial f / \partial x$ 产生，而 $α_{i}$ 从后面的项产生；
3. 将x关于 $α_{i}$ 的表示带入约束等式中，可以得到 $α_{i}$ 的值，该值能够保证约束等式成立，也就是说， $L (x, α_{i}) = L (α_{i}) = f (x)$ 。而对于 $L (x, α)$ 显然是通过进行偏微分求最小化的过程，这也意味着，得到的 $α$ 能够保证 $f (x)$ 得到最小化的结果；
4. 将 $α_{i}$ 带入x等式，得到满足条件的等式。
  综上，也就是说，如果能够找到一组 $α_{i}$ ，使得x能用 $α_{i}$ 表示，保证满足约束等式。那么，无约束问题等于有约束问题，而对于无约束问题的求导，则对应了有约束问题的导数值为0的情况。
一般的拉格朗日乘子法(KKT条件)，这里将非线性优化问题转换为固定的优化问题，可以尝试采取算法进行求解。
对于KTT条件的一种理解方法是，如果存在一个优化的x不满足该条件，如果h(x)!=0，那么可以取 $β$ 很大，则L趋于无穷大；如果g(x)>0，那么取 $α$ 很大，则L也趋于无穷大。这两种情况都不存在极值。
或者另外一种理解方法（不一定对），对于L进行 $α$ 偏导时，得到的是g(x)，该函数始终小于0，则导致无法得到有效极值。因此需要存在第四项条件。
第三项条件是由于g(x)<=0约束得到，当不满足 $α >= 0$ ，则 $α$ 可以取极小的负数，也不存在极值。

综上，得到了一个无约束条件的函数 $Θ_{p} (x) = max_{α, β; α >= 0} L (x, α, β)$ ,求解该问题时，如果x满足约束条件，则 $Θ_{p} (x) = f (x)$ ，否则将趋于无穷大。

7.2 对于SVM的等效变换

对于下列优化问题，
$\arg min_{\vec{w}, b} \frac{1}{2} | | \vec{w} | |^{2}, s t . y_{i} ({\vec{w}}^{T} \vec{x_{i}} + b) >= 1$
可以利用拉格朗日乘子法进行等效，
$\arg max_{\vec{w}, b} \frac{1}{2} | | \vec{w} | |^{2} + \sum_{i = 1}^{N} α_{i} (1 - y_{i} ({\vec{w}}^{T} \vec{x_{i}} + b))$
该广义变换需要满足如下条件：
$\partial L (\vec{w}, b, α_{i}) / \partial \vec{w} = 0$
$\partial L (\vec{w}, b, α_{i}) / \partial b = 0$
$\partial L (\vec{w}, b, α_{i}) / \partial α_{i} = 0$
$α_{i} >= 0$
$y_{i} ({\vec{w}}^{T} \vec{x_{i}} + b) >= 1$
$\sum_{i = 1}^{N} α_{i} (1 - y_{i} ({\vec{w}}^{T} \vec{x_{i}} + b) = 0$
该问题本质是求解一个 $min_{\vec{w}, b} Θ_{p} (x) = min_{\vec{w}, b} max_{α_{i}; α_{i} >= 0} L (\vec{w}, b, α_{i})$ ，这是一个极小极大值问题，内层带约束项，可以利用拉格朗日对偶原理转换为极大极小值问题，内层优化问题无约束。
由于内层优化无约束，则可以利用导数为零获得，获得的w和b为内层最优化的候选解。
$\partial L (\vec{w}, b, α_{i}) / \partial \vec{w} = 0$
$\partial L (\vec{w}, b, α_{i}) / \partial b = 0$
该等式的结果为：
$\vec{w} = \sum_{i = 1}^{N} α_{i} y_{i} \vec{x_{i}}$
$\sum_{i = 1}^{N} α_{i} y_{i} = 0$
将这两个等式带入，则得到只包含外层优化的情况，该优化问题是一个约束优化问题：
$max_{α_{i}; α_{i} >= 0} (\sum_{i = 1}^{N} α_{i} - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} {\vec{x_{i}}}^{T} \vec{x_{j}})$
$s t . α_{i} >= 0; \sum_{i = 1}^{N} α_{i} y_{i} = 0$

8 SVM的求解和最终形式确定

通过SMO等方法，可以求得上述优化问题的 $α_{i}$ ，然后 $\vec{w}$ 可以利用 $\vec{w} = \sum_{i = 1}^{N} α_{i} y_{i} \vec{x_{i}}$ 得到。
b的确定需要追溯到开始的简化条件，因为前面，我们假设了 $y_{i} ({\vec{w}}^{T} \vec{x_{i}} + b) >= 1$ ，并且对于支持向量等号成立。另外一方面，根据拉格朗日乘子法的一些性质，当 $α_{i} > 0$ ，则对应的输入 $x_{i}$ 即为支持向量。
具体的操作是，选取所有 $α_{i} > 0$ ，对于每一个 $α_{i}$ ，带入下面等式，其中下标为i代表支持向量。
$b^{*} = y_{i} - \sum_{j = 1}^{N} α_{j} y_{j} < \vec{x_{i}}, \vec{x_{j}} >$
为了进一步缩小误差，可以采用平均方法，将所有的 $α_{i} > 0$ 的情况得到的b进行平均
最终得到的分类器如下所示，因此对于SVM的结果存储，可以只存储求解得到的 $α_{i} > 0$ 和对应的支持向量 $\vec{x_{i}}$ ，以及求解得到的 $b^{*}$ 。预测过程中所需要的内存空间非常小。
$f (\vec{x}) = s i g n {\sum_{i = 1}^{N} (α_{i}^{*} y_{i} < \vec{x_{i}}, \vec{x} > + b^{*})}$
SVM没有假设数据的分布情况，其最优的思想来源于使得不同类别距离分类平面的间距尽量大。

9 允许分类错误的SVM推导

如下图所示，左侧为无分类错误的硬间隔SVM，右侧为存在分类错误的软间隔SVM。在右图中，存在训练错误的包括了 $ξ_{1}^{*}, ξ_{2}^{*}, ξ_{3}^{*}, ξ_{4}^{*}, ξ_{5}^{*}$ 。

因此对于软间隔SVM，存在以下五种分类情况：
- 在间隔以外的情况，这是分类正确的情况，并且这类数据不构成支持向量( $α_{i} = 0, y_{i} f (\vec{x_{i}}) - 1 > 0, ξ_{i} = 0$ )
- 在间隔线上，这也是分类正确的情况，这类数据构成支持向量( $C > α_{i} > 0, y_{i} f (\vec{x_{i}}) - 1 = 0, ξ_{i} = 0$ )
- 在间隔内部，但是未达到分类错误的地步，例如 $ξ_{1}^{*}, ξ_{2}^{*}, ξ_{4}^{*}$ ，此时对应了 $α_{i} = C, y_{i} f (\vec{x_{i}}) - 1 < 0, 0 < ξ_{i} < 1$
- 在分类超平面上，此时对应了 $α_{i} = C, y_{i} f (\vec{x_{i}}) - 1 < 0, ξ_{i} = 1$
- 跨过分类超平面，此时分类错误，对应了 $α_{i} = C, y_{i} f (\vec{x_{i}}) - 1 < 0, ξ_{i} > 1$
综合上述分析，可以得到下列的基于hinge-loss的SVM优化问题：

min_{\vec{w}, b, ξ_{i}} {\frac{1}{2} | | \vec{w} | |^{2} + C \sum_{i = 1}^{N} ξ_{i}}

s t . y_{i} ({\vec{w}}^{T} \vec{x_{i}} + b) >= 1 - ξ_{i}, ξ_{i} >= 0

- 同样利用拉格朗日乘子法进行优化，并结合拉格朗日对偶原理，得到的优化问题如下：

min_{\vec{w}, ξ_{i}} max_{α_{i}, μ_{i}; α_{i} >= 0, μ_{i} >= 0} {\frac{1}{2} | | \vec{w} | |^{2} + C \sum_{i = 1}^{N} ξ_{i} + \sum_{i = 1}^{N} α_{i} (1 - ξ_{i} - y_{i} ({\vec{w}}^{T} \vec{x_{i}} + b)) - \sum_{i = 1}^{N} μ_{i} ξ_{i}}

max_{α_{i}, μ_{i}; α_{i} >= 0, μ_{i} >= 0} min_{\vec{w}, ξ_{i}} {\frac{1}{2} | | \vec{w} | |^{2} + C \sum_{i = 1}^{N} ξ_{i} + \sum_{i = 1}^{N} α_{i} (1 - ξ_{i} - y_{i} ({\vec{w}}^{T} \vec{x_{i}} + b)) - \sum_{i = 1}^{N} μ_{i} ξ_{i}}

为了使得上述两式相等，需要满足KKT条件：

\partial L (\vec{w}, b, α_{i}, μ_{i}) / \partial \vec{w} = 0

\partial L (\vec{w}, b, α_{i}, μ_{i}) / \partial b = 0

\partial L (\vec{w}, b, α_{i}, μ_{i}) / \partial α_{i} = 0

\partial L (\vec{w}, b, α_{i}, μ_{i}) / \partial μ_{i} = 0

α_{i} >= 0, μ_{i} >= 0

y_{i} ({\vec{w}}^{T} \vec{x_{i}} + b) >= 1 - ξ_{i}, μ_{i} ξ_{i} = 0

\sum_{i = 1}^{N} α_{i} (1 - ξ_{i} - y_{i} ({\vec{w}}^{T} \vec{x_{i}} + b) = 0

对于上上式，内层求解为无约束情况，则可以通过求解偏导数为0得到候选等式，然后带入外层得到等效的问题，该问题得以极大简化，与硬间隔SVM相比，多了一个上约束，同样可以采用SMO进行求解。（多了一个等式约束

α_{i} + μ_{i} = C

）

max_{α_{i}; α_{i} >= 0} (\sum_{i = 1}^{N} α_{i} - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} {\vec{x_{i}}}^{T} \vec{x_{j}})

s t . C >= α_{i} >= 0; \sum_{i = 1}^{N} α_{i} y_{i} = 0

在获得可行的 $α_{i}$ 后，可以得到 $\vec{w} = \sum_{i = 1}^{N} α_{i} y_{i} \vec{x_{i}}$ ，然后选取 $C > α_{i} > 0$ 的情况，这对应了支持向量，求解得到 $b^{*} = y_{i} - \sum_{j = 1}^{N} α_{j} y_{j} < \vec{x_{i}}, \vec{x_{j}} >$ 。而上述分析中的C控制允许误差的大小， $ξ_{i}$ 对应了每一项的分类误差情况，输出为hinge-loss的大小。
总体总结如下：
- $α_{i} = 0$ ，此时分类正确，在间隔外部， $ξ_{i} = 0, μ_{i} = C$
- $C > α_{i} > 0$ ，此时为支持向量， $ξ_{i} = 0, 0 < μ_{i} < C$
- $α_{i} = C$ ，此时间隔内，误差由 $ξ_{i}$ 决定， $μ_{i} = 0$

10. 非线性SVM的推导

实际操作时，将上述的 ${\vec{x}}^{T} \vec{x}$ 换成核函数即可。
非线性SVM运用的原理是，有限维属性的数据可以通过高维映射转化为高维可分的情况。而映射问题会出现无法预估映射后线性可分的可行性，以及可能会带来的过拟合问题，因此可以使用核函数代替高维映射操作，简化了操作。
值得注意的时，高维映射操作和核函数操作无直接关联，高维映射操作是通过升维内积的方式，而核函数是通过内积变换的方式，二者不存在对应关系。
能够作为核函数需要满足核函数定理，即对于任意一个矩阵，其列向量的内积构成的矩阵元素通过核函数操作后得到的矩阵是半正定的，那么该对称函数可以作为核函数。对称半正定还带来其他性质，例如行列式非负、顺序主子式非负、特征值非负等，其定义来自于二次型非负。
常用的核函数包括线性、多项式、高斯核、拉普拉斯核、sigmoid核。
核函数的正数线性组合、核函数的积、核函数与任意函数的组合同样为核函数，可以参考西瓜书page128~129.

http://blog.****.net/daunxx/article/details/52079403