1、最优线性分类器

对于下图的二分类任务，我们想要得到一个分类平面将其分开：
SVM原理探究及其详细公式推导
显然图中的1、2、3、4、5号平面均能达成这个目的，这五个平面我们可以用下式来表示

\begin{matrix} (1) & w^{T} x + b = 0 \end{matrix}

对于任意的样本点 $(x_{i}, y_{i})$ 均满足

\begin{matrix} (2) & {\begin{cases} w^{T} x_{i} + b < 0, y_{i} = - 1 \\ w^{T} x_{i} + b > 0, y_{i} = + 1 \end{cases} \end{matrix}

记模型为：

\begin{matrix} (3) & f (x) = w^{T} x + b \end{matrix}

则当新的样本特征

x^{'}

到来时只需代入式(3)，观察输出

f (x^{'})

的正负即可判断。

五个平面的差别就在于 $w$ 和 $b$ 不同。图中1、2、4、5号平面虽然完成了分类任务，但是其抗扰动性不佳，在这些平面附近的样本点容易被错分类，相对来说3号平面因为距离两类样本点都足够“远”，因此其抗扰动性比较好，这样的平面我们称为最优线性分类器，支持向量机(SVM)就是要寻找这样的平面，为此要引入间隔的概念。

2、函数间隔和几何间隔

2.1 函数间隔

对于每一个样本点，我们可以定义这个样本点到超平面间隔，称为样本点的函数间隔：

\begin{matrix} (4) & γ_{i 函} = y_{i} * f (x_{i}) \end{matrix}

那么超平面的函数间隔可以从下式得到：

\begin{matrix} (5) & γ_{函} = min_{1 \leq i \leq n} γ_{i 函} \end{matrix}

我们的目标就是要找到一组

w

和

b

使得

γ_{函}

最大，形式化表示如下：

\begin{matrix} (6) & \begin{aligned} max_{w, b} γ_{函} & = max_{w, b} min_{1 \leq i \leq n} γ_{i 函} \\ = max_{w, b} min_{1 \leq i \leq n} y_{i} * (w^{T} x_{i} + b) \end{aligned} \end{matrix}

仔细分析式(6)我们可以发现，当

w

和

b

成倍数增长时，函数间隔会不断地增大，此时找不到目标函数的最优解，而此时超平面并没有改变（

2 w^{T} x + 2 b = 0

与式(1)并没有区别），所以函数间隔还不足以帮助我们寻找最优

w

和

b

，故需要进一步引入几何间隔

2.2 几何间隔

如下图所示：
SVM原理探究及其详细公式推导
图中 $x$ 表示样本点， $x_{0}$ 是 $x$ 垂直投影到超平面上对应的点， $w$ 是式(1)中的权重向量，该向量是超平面的法向量（详情见 2.4* 节介绍）， $γ$ 表示样本点 $x$ 到超平面的几何间隔

容易得到以下推导过程：

\begin{aligned} x = x_{0} + \frac{w}{‖ w ‖} γ \\ x_{0} = x - \frac{w}{‖ w ‖} γ \\ ∵ x_{0} 在 超 平 面 上 \\ ∴ f (x_{0}) = 0 \end{aligned}

即有

\begin{aligned} f (x - \frac{w}{‖ w ‖} γ) & = w^{T} (x - \frac{w}{‖ w ‖} γ) + b \\ (7) & = w^{T} x + b - \frac{w^{T} w}{‖ w ‖} γ \\ (8) & = f (x) - ‖ w ‖ γ \\ = 0 \end{aligned}

所以

\begin{matrix} (9) & γ = \frac{f (x)}{‖ w ‖} \end{matrix}

其中式(7)到式(8)这一步到转化，前一半无需赘述是很直观的，后一半主要依据向量内积与二范数的关系：

\begin{aligned} (10) & ‖ w ‖ & = \sqrt{w_{1}^{2} + w_{2}^{2} + w_{3}^{2} + \dots + w_{n}^{2}} \\ = \sqrt{< w, w >} \\ = \sqrt{w^{T} w} \end{aligned}

样本点 $x$ 可以分布在超平面两边，因此式(9)得到的集合间隔是带有方向的，我们考虑把方向的影响去除，则有

\begin{matrix} (11) & | γ | = \frac{| f (x) |}{‖ w ‖} = \frac{y * f (x)}{‖ w ‖} = \frac{γ_{函}}{‖ w ‖} \end{matrix}

2.3 另一个角度来看几何间隔

我们能够比较直观感受的是二维空间和三维空间，不妨就从这两个维度开始总结规律以推广到高维空间。

二维空间——直线
初等数学中的一般表达式： $A x + B y + C = 0$
转化为本文统一的表达式： $w_{1} x_{1} + w_{2} x_{2} + b = 0$
其中 $w = (w_{1}, w_{2})^{T}, x = (x_{1}, x_{2})^{T}$
二维空间中某一点 $(x_{0}, y_{0})$ 到该直线的距离可以表示为：
$\begin{aligned} (12) & d & = \frac{| A x_{0} + B y_{0} + C |}{\sqrt{A^{2} + B^{2}}} \\ (13) & = \frac{| w_{1} x_{1} + w_{2} x_{2} + b |}{\sqrt{w_{1}^{2} + w_{2}^{2}}} \\ (14) & = \frac{| w^{T} x + b |}{| | w | |} \end{aligned}$
三维空间——平面
初等数学中的一般表达式： $A x + B y + C z + D = 0$
转化为本文统一的表达式： $w_{1} x_{1} + w_{2} x_{2} + w_{3} x_{3} + b = 0$
其中 $w = (w_{1}, w_{2}, w_{3})^{T}, x = (x_{1}, x_{2}, x_{3})^{T}$
三维空间中某一点 $(x_{0}, y_{0}, z_{0})$ 到该平面的距离可以表示为：
$\begin{aligned} (15) & d & = \frac{| A x_{0} + B y_{0} + C z_{0} + D |}{\sqrt{A^{2} + B^{2} + C^{2}}} \\ (16) & = \frac{| w_{1} x_{1} + w_{2} x_{2} + w_{3} x_{3} + b |}{\sqrt{w_{1}^{2} + w_{2}^{2} + w_{3}^{2}}} \\ (17) & = \frac{| w^{T} x + b |}{| | w | |} \end{aligned}$

式(12)(15)是初等数学中的简单知识，式(13)(16)是前一步的简单替代，式(14)(17)是统一的向量表示，根据二维和三维空间的这一结论，我们推广到任意维， $n$ 维空间里的实例 $x$ 到该空间超平面的距离可以表示为：

\begin{matrix} (18) & | γ | = \frac{| w^{T} x + b |}{| | w | |} = \frac{| f (x) |}{‖ w ‖} \end{matrix}

与式(11)相同。

2.4* 为什么权重向量是超平面的法向量

为直观感受，我们假设式(1)表示的是二维空间上的超平面，此时超平面是一条直线，这条直线上有两个点 $x_{1}$ 和 $x_{2}$ ，那么 $x_{1} - x_{2}$ 表示的向量的方向也是沿着该直线方向的。

将 $x_{1}$ 和 $x_{2}$ 分别带入式(1)，会得到：

w^{T} x_{1} + b = 0 w^{T} x_{2} + b = 0

将以上两式整合，易得

w^{T} (x_{1} - x_{2}) = 0

说明

w^{T}

与

x_{1} - x_{2}

垂直，也就是说

w^{T}

是直线的法向量，那么其转置（列向量与行向量的区别而已）自然也是直线的法向量。简单的直线解析集合基础即可得证上述结论，从二维推广到任意维并不会改变这一结论。

3、形式化表示优化目标

式(11)和(18)所得到的几何间隔是超平面某一侧样本点到超平面的距离，因此两类样本点之间的最大间隔这一距离的两倍，此时我们找到了优化目标：

\begin{aligned} max_{w, b} & 2 \frac{γ_{函}}{| | w | |} \\ (19) & s . t . & y_{i} (w^{T} x_{i} + b) \geq γ_{函} i = 1, 2, \dots, n \end{aligned}

我们令目标函数和约束条件同时缩小

γ_{函}

倍，则此优化问题的最优解并未发生改变，记

w^{*} = \frac{w}{γ_{函}} ， b^{*} = \frac{b}{γ_{函}}

此时我们可以得到：

\begin{aligned} max_{w^{*}, b^{*}} & \frac{2}{| | w^{*} | |} \\ (20) & s . t . & y_{i} ({w^{*}}^{T} x_{i} + b^{*}) \geq 1 i = 1, 2, \dots, n \end{aligned}

由2.1节分析可知当

w

和

b

成比例放缩时，平面并未发生改变，所以(19)和(20)是等价的。
进一步，式(20)可以等价于下式

\begin{aligned} min_{w, b} & \frac{1}{2} | | w | |^{2} \\ (21) & s . t . & y_{i} (w^{T} x_{i} + b) \geq 1 i = 1, 2, \dots, n \end{aligned}

4、拉格朗日乘子法和对偶问题

4.1 从条件极值谈起

回顾高等数学中多元函数的条件极值求解问题：求 $f (x, y)$ 在不等式 $g (x, y) \leq 0$ 和 $h (x, y) \leq 0$ 约束下的极值，我们采用的方法是构造拉格朗日函数， $L (x, y, α, β) = f (x, y) + α g (x, y) + β h (x, y)$ 其中 $α \geq 0, β \geq 0$ ，然后分别求 $L (x, y, α, β)$ 对 $x$ 和 $y$ 的偏导，令其为0，满足这一条件的 $x^{'}, y^{'}$ 对应的 $f (x^{'}, y^{'})$ 即为所求。

4.2 凸优化问题标准形

将以上做法推广到既有等式约束又有不等式约束的情形：

原问题
$\begin{aligned} min_{x} & f (x) \\ s . t . & h_{i} (x) = 0 (i = 1, 2, \dots, m) \\ (22) & g_{j} (x) \leq 0 (j = 1, 2, \dots, n) \end{aligned}$

引入拉格朗日乘子（任意一个拉格朗日乘子均非负） $λ = (λ_{1}, λ_{2}, \dots, λ_{m})^{T}$ 和 $μ = (μ_{1}, μ_{2}, \dots, μ_{n})^{T}$ ，构造拉格朗日函数：

拉格朗日函数
$\begin{matrix} (23) & L (x, λ, μ) = f (x) + \sum_{i = 1}^{m} λ_{i} h_{i} (x) + \sum_{j = 1}^{n} μ_{j} g_{j} (x) \end{matrix}$

由不等式约束 $g_{j} (x) \leq 0 (j = 1, 2, \dots, n)$ 可以引入KKT条件：

KKT条件
$\begin{matrix} (24) & {\begin{cases} g_{j} (x) \leq 0 \\ μ_{j} \geq 0 \\ μ_{j} g_{j} (x) = 0 \end{cases} \end{matrix}$

4.3 SVM的对偶问题

依据4.2节的内容，我们对式(21)引入拉格朗日乘子 $α = (α_{1}, α_{2}, \dots, α_{n})$ ，可以得到：

\begin{matrix} (25) & L (w, b, α) = \frac{1}{2} | | w | |^{2} + \sum_{i = 1}^{n} α_{i} [1 - y_{i} (w^{T} x_{i} + b)] \end{matrix}

令

\begin{matrix} (26) & Θ (w) = max_{α_{i} \geq 0} L (w, b, α) \end{matrix}

仔细分析式(25)(26)，我们可以得出如下结论：

\begin{matrix} (27) & Θ (w) = max_{α_{i} \geq 0} L (w, b, α) = {\begin{cases} \frac{1}{2} | | w | |^{2} 满 足 原 始 约 束 \\ \infty 不 满 足 原 始 约 束 \end{cases} \end{matrix}

原始约束满足的情况下，

1 - y_{i} (w^{T} x_{i} + b) \leq 0

，拉格朗日乘子非负，所以

\sum_{i = 1}^{n} α_{i} [1 - y_{i} (w^{T} x_{i} + b)]

非正，因此式(25)最大值便是式(27)上式所示；反之，原始约束不满足的情况下，只需置对应项的拉格朗日乘子无限大，则无法找到

max_{α_{i} \geq 0} L (w, b, α)

，所以，我们可以把式(21)这一原始问题描述为：

\begin{matrix} (28) & min_{w, b} Θ (w) = min_{w, b} max_{α_{i} \geq 0} L (w, b, α) \end{matrix}

式(29)的对偶问题是：

\begin{matrix} (29) & max_{α_{i} \geq 0} min_{w, b} L (w, b, α) \end{matrix}

记式(28)和(29)的最优解分别为

p^{*}

和

d^{*}

，易证式(28)和(29)中

b l u e \leq L (w, b, α) \leq r e d

，那么显然

d^{*} \leq p^{*}

，在强对偶性得以满足的条件下，可以得到

d^{*} = p^{*}

式(24)提到的KKT条件就是强对偶的一种，所以原始问题可以通过满足KKT条件转化为对偶问题，求解对偶问题所得的结果就是原问题的解。

4.4 对偶问题的求解

对偶问题的求解可以分为两步，首先对式(29)中的 $b l u e$ 部分求解，求 $L (w, b, α)$ 对 $w$ 和 $b$ 的偏导：

\begin{aligned} (30) & \frac{\partial L}{\partial w} & = w - \sum_{i = 1}^{n} α_{i} y_{i} x_{i} \\ (31) & \frac{\partial L}{\partial b} & = \sum_{i = 1}^{n} α_{i} y_{i} \end{aligned}

L (w, b, α) = \frac{1}{2} | | w | |^{2} + \sum_{i = 1}^{n} α_{i} [1 - y_{i} (w^{T} x_{i} + b)]

分别令式(30)(31)的值为0，则可以得到

w = \sum_{i = 1}^{n} α_{i} y_{i} x_{i}

，

\sum_{i = 1}^{n} α_{i} y_{i} = 0

，将其代入式(25)得到：

\begin{aligned} L (w, b, α) & = \frac{1}{2} w^{T} w + \sum_{i = 1}^{n} α_{i} - w^{T} \sum_{i = 1}^{n} α_{i} y_{i} x_{i} - b \sum_{i = 1}^{n} α_{i} y_{i} \\ = \frac{1}{2} w^{T} \sum_{i = 1}^{n} α_{i} y_{i} x_{i} + \sum_{i = 1}^{n} α_{i} - w^{T} \sum_{i = 1}^{n} α_{i} y_{i} x_{i} \\ = \sum_{i = 1}^{n} α_{i} - \frac{1}{2} w^{T} \sum_{i = 1}^{n} α_{i} y_{i} x_{i} \\ = \sum_{i = 1}^{n} α_{i} - \frac{1}{2} (\sum_{i = 1}^{n} α_{i} y_{i} x_{i})^{T} \sum_{i = 1}^{n} α_{i} y_{i} x_{i} \\ = \sum_{i = 1}^{n} α_{i} - \frac{1}{2} \sum_{i = 1}^{n} α_{i} y_{i} x_{i}^{T} \sum_{i = 1}^{n} α_{i} y_{i} x_{i} \\ (32) & = \sum_{i = 1}^{n} α_{i} - \frac{1}{2} \sum_{i, j = 1}^{n} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j} \end{aligned}

可以发现此时式(32)表示的拉格朗日函数中的变量只有

α_{i}

，那么进一步把

α_{i}

求解出来便可以确定

w

和

b

，所以接下来便是对偶问题求解的第二步求解，经过第一步，问题式(29)已经转变成为：

\begin{aligned} max_{α} & \sum_{i = 1}^{n} α_{i} - \frac{1}{2} \sum_{i, j = 1}^{n} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j} \\ s . t . & α_{i} \geq 0 (i = 1, 2, \dots, m) \\ (33) & \sum_{i = 1}^{n} α_{i} y_{i} = 0 \end{aligned}

式(33)的求解可以通过SMO算法进行求解（笔者目前也还没有完全透彻这一算法，后续学习后将写出来与博友交流），最终得到结果：

\begin{aligned} w^{*} & = \sum_{i = 1}^{n} α_{i} y_{i} x_{i} \\ b^{*} & = \frac{max_{i : y_{i} = - 1} {w^{*}}^{T} x_{i} + min_{i : y_{i} = + 1} {w^{*}}^{T} x_{i}}{2} \end{aligned}

至此，已经求出了式(1)的两个重要参数。

5、SVM中一些其他问题

5.1 为什么只有支持向量影响解的结构？

SVM原理探究及其详细公式推导
我们一般把图中红色方框框出来的样本点称为支持向量，从图示的角度很容易理解，这些样本点的位置影响了整个“管道“的位置，那么“管道“正中间的分类平面的位置也会随着变动，这是从直观的角度来解释为什么只有支持向量会影响模型，其实我们也可以从理论角度来加以解释：

将式(21)中的约束条件转换成为式(22)中的标准形式，参照式(24)KKT条件的第三条，必有下式成立：

\begin{matrix} (34) & α_{i} [1 - y_{i} (w^{T} x_{i} + b)] = 0 \end{matrix}

图中红框框出的样本点满足

1 - y_{i} (w^{T} x_{i} + b) = 0

即只有支持向量对应的拉格朗日乘子才可能不为0，而4.4节已经提到我们是通过SMO算法求解关于

α

的优化问题，最终求得模型重要参数

w

和

b

的。

5.2 非线性问题怎么办？

前述内容都是关于线性可分的分类问题，那么对于线性不可分的呢？核方法是一个非常不错的选择，而SVM的强大一定程度上就是由于引入核方法将线性不可分问题从低维空间映射到高维空间变成线性可分，而且，核方法并非SVM专属方法，这是一套非常有效的技巧，以后会专门写一下这一块！

【参考文献】

周志华.机器学习[M].北京:清华大学出版社,2016.
李航.统计学习方法[M].北京:清华大学出版社,2012.
July.支持向量机通俗导论（理解SVM的三层境界）

SVM原理探究及其详细公式推导