原问题提出

给定一个二分类问题的训练样本集 $D = {(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{m}, y_{m})}, y_{i} \in {- 1, + 1}$ ，我们的目标是找到一条分界线/超平面来将两类区分开，如下图：
SVM理论基础——原问题及其对偶问题的推导
在样本空间中，超平面可以通过以下线性方程来描述：

w^{T} x + b = 0

其中，

w = (w_{1}, w_{2}, . . ., w_{d})

为法向量，决定了超平面的方向；

b

为位移项，决定了超平面与原点的距离。

如果一个超平面能够将训练样本正确分类，则我们希望这个超平面具有的性质是，对于 $(x_{i}, y_{i}) \in D$ ，有

w^{T} x + b {\begin{aligned} > 0, y_{i} = + 1 \\ < 0, y_{i} = - 1 \end{aligned}

这个式子也是我们在得到超平面之后预测一个新样本的判决条件。

显然，上图中 5 个超平面都满足要求。但是，哪一个是最好的呢？

直观上看，应该去找位于两类训练样本“正中间”的超平面，即上图中最粗的分界线。因为这条线能够在最大程度上容忍两类的数据波动和噪声。

因此，为了能够得到“正中间”位置的超平面，我们将上述条件变得更加严格：

w^{T} x + b {\begin{aligned} \geq + 1, y_{i} = + 1 \\ \leq - 1, y_{i} = - 1 \end{aligned} (1)

显然，条件严格后，靠近样本边缘的一些超平面可能会不符合要求，最后会剩下比较靠中间的几个超平面。
那么，如何选出最“正中间”的那个超平面呢？我们可以给一个具体的量化目标：让超平面与最近的样本的距离最大。

如下图所示，距离超平面最近的这几个样本点可以使得公式 (1) 的等号成立，它们被称为“支持向量”（Support Vector）。
SVM理论基础——原问题及其对偶问题的推导
样本空间中任意点 $x$ 到超平面的距离的计算公式为：

r = \frac{| w^{T} x + b |}{| | w | |}

因此，两类的支持向量到超平面的距离之和为

γ = \frac{2}{w},

它被称为“间隔”。

如果想找到具有“最大间隔”（maximum margin）的超平面，那么需要最大化 $γ$ ，也就是需要最小化 $| | w | |^{2}$ 。因此，最后需要求解的问题为：

\begin{aligned} max_{w, b} & \frac{1}{2} | | w | |^{2} \\ s . t . & y_{i} (w^{T} x + b) \geq 1, i = 1, 2, . . ., m \end{aligned} (2)

这就是支持向量机（Support Vector Machine,SVM）的基本型。

对偶问题推导

我们希望求解问题 (2) 来得到“正中间”的分界超平面：

f (x) = w^{T} x + b

其中，

w

和

b

是模型参数，正是问题 (2) 的最优解。问题 (2) 本身是一个凸二次规划问题，可以直接使用现成的优化计算包求解。但我们有更高效的办法，即转为求解其对偶问题，转换过程如下。

根据拉格朗日乘子法，对原问题的每条约束添加拉格朗日乘子 $α \geq 0$ ，则该问题的拉格朗日函数可写为：

L (w, b, α) = \frac{1}{2} | | w | |^{T} + \sum_{i = 1}^{m} α_{i} [1 - y_{i} (w^{T} x_{i} + b)] (3)

其中

α = (α_{1}, α_{2}, . . ., α_{m}) 。

可发现

α_{i} [1 - y_{i} (w^{T} x_{i} + b)] \leq 0

所以

L (w, b, α) \leq \frac{1}{2} | | w | |^{T}

，即拉格朗日函数是原问题的一个下界。我们要想找到最接近原问题最优值的一个下界，就需要求出下界的最大值。

根据拉格朗日对偶性，原始问题的对偶问题是最大化最小问题：

max_{α} min_{w, b} L (w, b, α)

首先，求 $min_{w, b} L (w, b, α)$ ，消除掉 $w, b$ ：分别令 $w, b$ 的偏导为0，可推出

\begin{aligned} \frac{\partial L}{\partial w} & = w + \sum_{i = 1}^{m} α_{i} (- y_{i} x_{i}) = 0 \Rightarrow w = \sum_{i = 1}^{m} α_{i} y_{i} x_{i} (4) \\ \frac{\partial L}{\partial w} & = - \sum_{i = 1}^{m} α_{i} y_{i} = 0 \Rightarrow \sum_{i = 1}^{m} α_{i} y_{i} = 0 (5) \end{aligned}

将公式（4）（5）带入到拉格朗日函数(3)，得到

\begin{aligned} L (w, b, α) & = \frac{1}{2} | | w | |^{T} + \sum_{i = 1}^{m} α_{i} [1 - y_{i} (w^{T} x_{i} + b)] \\ = \frac{1}{2} w^{T} w + \sum_{i = 1}^{m} α_{i} - \sum_{i = 1}^{m} α_{i} y_{i} x_{i}^{T} w - \sum_{i = 1}^{m} α_{i} y_{i} b \\ = \frac{1}{2} w^{T} w + \sum_{i = 1}^{m} α_{i} - w^{T} w - 0 \\ = \sum_{i = 1}^{m} α_{i} - \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{m} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j}^{T} \end{aligned}

因此，问题（2）的对偶问题是

\begin{aligned} max_{α} & \sum_{i = 1}^{m} α_{i} - \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{m} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j}^{T} (6) \\ s . t . & \sum_{i = 1}^{T} α_{i} y_{i} = 0 \\ α_{i} \geq 0, i = 1, 2, . . ., m . \end{aligned}

解出

α

后，求出

w

和

b

即可得到模型：

\begin{aligned} f (x) & = w^{T} x + b \\ = \sum_{i = 1}^{m} α_{i} y_{i} x_{i}^{T} x + b \end{aligned}

需要注意的是，问题（2）有不等式约束，因此对偶问题需要满足KKT条件：

{\begin{aligned} α_{i} \geq 0 \\ y_{i} f (x_{i}) - 1 \geq 0 \\ α_{i} (y_{i} f (x_{i}) - 1) = 0 \end{aligned}

因此，对于训练样本

(x_{i}, y_{i})

，总有

α_{i} = 0

或

y_{i} f (x_{i}) = 1

。若

α_{i} = 0

，则该样本不会对

f (x)

的值有任何影响；若

α_{i} > 0

，则必有

y_{i} f (x_{i}) = 1

，所对应的样本点位于最大间隔边界上，是一个支持向量。这显示出支持向量的一个重要性质：训练完成后，大部分的训练样本都不需要保留，最终模型仅与支持向量有关。

SVM理论基础——原问题及其对偶问题的推导

原问题提出

对偶问题推导

相关推荐