SVM支持向量机及SMO算法总结

之所以写这篇文章，主要是因为SVM和SMO的算法看了很多遍才看懂，现在网络上也有很多相关的资料，这篇文章主要是记录自己的学习过程，集中在后面的证明求解过程。初学者建议先看底下的参考资料，把相关概念弄清楚了之后，如果在看论文过程中有疑惑的，可以过来看没看有没有参考的地方。

首先对于SVM（support vector machine）的理解为：寻找一个超分类平面，把不同分类的数据分隔开，且两边的最小间距最大。
SVM支持向量机及SMO算法总结

函数间距与几何间距：

在Andrew Ng的材料中，涉及到两个间距的概念：函数间距与几何间距。

函数间距的定义： ${\hat{γ}}^{(i)} = y^{(i)} (w^{T} x + b)$ , 当 $w$ 和 $b$ 成比例变化，函数间距也成比例变化

几何间距的定义： $γ^{(i)} = \frac{y^{(i)} (w^{T} x + b)}{| | w | |}$ , 当 $w$ 和 $b$ 成比例变化，几何间距不变

最大化间距

SVM目标是最大化最小几何间距，故有：

最小几何间距： $γ = min_{i = 1, . ., m} γ^{(i)}$

$max_{γ, w, b} γ$

$s . t . y^{(i)} (w^{T} x + b) \geq γ, i = 1, . . ., m$

$| | w | | = 1$

第一个限制条件保证所有例子的函数间距大于我们的最小几何间距 $γ$ ， $| | w | | = 1$ 保证了函数间距和几何间距等价。

由于该式子比较难求解，故我们可以考虑转换一下上式为：

$max_{γ, w, b} \frac{\hat{γ}}{| | w | |}$

$s . t . y^{(i)} (w^{T} x + b) \geq \hat{γ}, i = 1, . . ., m$

考虑到函数间距与 $w$ 和 $b$ 成比例变化，故成比例变化 $w$ 和 $b$ 不影响该最大式子，故可以考虑令 $\hat{γ} = 1$

原式可变为：

$max_{w, b} \frac{1}{| | w | |}$

$s . t . y^{(i)} (w^{T} x + b) \geq 1, i = 1, . . ., m$

最后该式子等价为：

$min_{w, b} \frac{1}{2} | | w | |^{2}$

$s . t . y^{(i)} (w^{T} x + b) \geq 1, i = 1, . . ., m$

拉格朗日对偶

上面已经列出了我们需要求解 $w$ 和 $b$ 的式子，但是由于涉及到限制条件，很难直接求解。这时候就需要我们的朗格朗日乘子和朗格朗日对偶问题的知识了。

对于一般式子：

$m i n_{w} f (w)$

$s . t . g_{i} (w) \leq 0, i = 1, . . ., k$

$h_{i} (w) = 0, i = 1, . . ., k$

令 $L (w, α, β) = f (w) + \sum_{i = 1}^{k} α_{i} g_{i} (w) + \sum_{i = 1}^{l} β_{i} h_{i} (w)$ , 该式子称为拉格朗日函数

在满足原式子的限制条件下有： $max_{α, β : α \geq 0} L (w, α, β) = f (w)$

又有以下对偶式子：

$max_{α, β : α \geq 0} min_{w} L (w, α, β) \leq min_{w} max_{α, β : α \geq 0} L (w, α, β) = min_{w} f (w)$

当满足一定条件下时，我们有该等式成立。该条件称为KKT:

$\frac{\partial}{\partial w_{i}} L (w, α, β) = 0, i = 1, . . ., n$

$\frac{\partial}{\partial β_{i}} L (w, α, β) = 0, i = 1, . . ., l$

$α_{i} g_{i} (w) = 0, i = 1, . . . k$

$g_{i} (w) \leq 0, i = 1, . . . k$

$α_{i} \geq 0, i = 1, . . . k$

在满足以上KKT条件下，原来求 $f (w)$ 在限制条件下的最小值就可以等价转换为求 $max_{α, β : α \geq 0} min_{w} L (w, α, β)$

应用拉格朗日求解最小间隙最大值

构造朗格朗日函数：

$L (w, b, α) = \frac{1}{2} | | w | |^{2} + \sum_{i = 1}^{m} α_{i} (1 - y^{(i)} (w^{T} x^{(i)} + b))$

根据KKT条件有：

$\frac{\partial}{\partial w} L = 0$

$\frac{\partial}{\partial b} L = 0$

得到以下结果：

$w = \sum_{i = 1}^{m} α_{i} y^{(i)} x^{(i)}$

$\sum_{i = 1}^{m} α_{i} y^{(i)} = 0$

以上结果回代入拉格朗日函数得到：

$L (w, b, α) = \sum_{i = 1}^{m} α_{i} - \frac{1}{2} \sum_{i, j = 1}^{m} y^{(i)} y^{(j)} α_{i} α_{j} (x^{(i)})^{T} x^{(j)}$

故原式子可等价为：

$max_{α} W (α) = \sum_{i = 1}^{m} α_{i} - \frac{1}{2} \sum_{i, j = 1}^{m} y^{(i)} y^{(j)} α_{i} α_{j} < (x^{(i)}), x^{(j)} >$

$s . t . α_{i} \geq 0, i = 1, . . . m$

$\sum_{i = 1}^{m} α_{i} y^{(i)} = 0$

$< (x^{(i)}), x^{(j)} >$ 表示两个向量的内积. 实际上，可以用核函数来表示两个向量的相似度，这样，我们的SVM模型就可以应用在一些非线性可分的问题上。

正则化及不可分情形讨论

实际上的问题经常是，我们无法找到一个线性可分的超分类平面，这样，我们之前的限制条件是无法被满足的。那么前面做的这么多工作都只能应用于可分的情况吗？

之前我们的限制条件是非常严格的 $y^{(i)} (w^{T} x + b) \geq 1$ , 但是我们可以考虑加入一些松弛变量 $ζ$ 来打破这种情况，同时对于这种情况要加一些惩罚条件，故原先的式子可改写成：

$min_{w, b} \frac{1}{2} | | w | |^{2} + C \sum_{i = 1}^{m} ζ_{i}$

$s . t . y^{(i)} (w^{T} x + b) \geq 1 - ζ_{i}, i = 1, . . ., m$

$ζ_{i} \geq 0, i = 1, . . ., m$

还是构造拉格朗日函数:

$L (w, b, α) = \frac{1}{2} | | w | |^{2} + C \sum_{i = 1}^{m} ζ_{i} + \sum_{i = 1}^{m} α_{i} (1 - ζ_{i} - y^{(i)} (w^{T} x^{(i)} + b)) + \sum_{i = 1}^{m} r_{i} (- ζ_{i})$

$w$ , $b$ , $ζ$ 分别对 $L$ 偏导可以得到：

$w = \sum_{i = 1}^{m} α_{i} y^{(i)} x^{(i)}$

$b = - \sum_{i = 1}^{m} α_{i} y^{(i)} = 0$

$C - α_{i} - r_{i} = 0, i = 1, . ., m$

由于 $r_{i} \geq 0$ , $α_{i} \geq 0$

故由 $C - α_{i} - r_{i} = 0, i = 1, . ., m$ 可得 $0 \leq α_{i} \leq C, i = 1, . . ., m$

把 $w$ , $b$ 回代回去，原式子可以等价为:

$max_{α} W (α) = \sum_{i = 1}^{m} α_{i} - \frac{1}{2} \sum_{i, j = 1}^{m} y^{(i)} y^{(j)} α_{i} α_{j} < (x^{(i)}), x^{(j)} >$

$s . t . 0 \leq α_{i} \leq C, i = 1, . . . m$

$\sum_{i = 1}^{m} α_{i} y^{(i)} = 0$

且再次检查KKT条件，有：

$α_{i} (1 - ζ_{i} - y^{(i)} (w^{T} x^{(i)} + b)) = 0$

$1 - ζ_{i} - y^{(i)} (w^{T} x^{(i)} + b) \leq 0$

$r_{i} (- ζ_{i}) = 0$

$- ζ_{i} \leq 0$

$ζ_{i} \geq 0$

$α_{i} \geq 0$

对 $α_{i}$ 进行讨论(由KKT条件)有：

$α_{i} = 0 \Rightarrow y^{(i)} (w^{T} x^{(i)} + b) \geq 1$

$α_{i} = C \Rightarrow y^{(i)} (w^{T} x^{(i)} + b) \leq 1$

$0 \leq α_{i} \leq C \Rightarrow y^{(i)} (w^{T} x^{(i)} + b) = 1$

SMO优化

前面已经做了很多工作，现在目标函数已经有了. 接下来就是需要 $α$ 使得我们的目标函数取到最大值。参考资料中的SMO论文求目标函数的最小值:

$min_{α} Ψ (α) = min_{α} \frac{1}{2} \sum_{i, j = 1}^{m} y^{(i)} y^{(j)} α_{i} α_{j} K (x^{(i)}, x^{(j)}) - \sum_{i = 1}^{m} α_{i}$

$s . t . 0 \leq α_{i} \leq C, i = 1, . . . m$

$\sum_{i = 1}^{m} α_{i} y^{(i)} = 0$

取出一对 $α_{1}, α_{2}$ 我们有 $α_{1} y^{(1)} + α_{2} y^{(2)} = k = - \sum_{i = 3}^{m} α_{i} y^{(i)}$ 故有如下图关系

SVM支持向量机及SMO算法总结

分两种情况讨论： $y_{1}, y_{2}$ 不同号以及 $y_{1}, y_{2}$ 同号

其中对应的 $α_{2}$ 的边界为：

同号情况： $L = m a x (0, α_{2} - α_{1}), H = m i n (C, C + α_{2} - α_{1})$
异号： $L = m a x (0, α_{2} + α_{1} - C), H = m i n (C, α_{2} + α_{1})$

化简目标函数，把 $α_{1}, α_{2}$ 提取出来：

令 $s = y_{1} y_{2}, K_{i j} = K (x_{i}, x_{j})$

$Ψ (α) = \frac{1}{2} α_{1}^{2} K_{11} + \frac{1}{2} α_{2}^{2} K_{22} + s α_{1} α_{2} K_{12} - α_{1} - α_{2} + y_{1} α_{1} v_{1} + y_{2} α_{2} v_{2} + Ψ_{c o n s t}$

其中有：

$v_{i} = \sum_{j = 3}^{m} α_{j}^{*} y_{j} K_{i j} = u_{i} + b^{*} - y_{1} α_{1}^{*} K_{1 i} - y_{2} α_{2}^{*} K_{2 i}$ ( $α_{1}^{*}$ 表示旧的值)

则有 $α_{1} + s α_{2} = - y_{1} \sum_{i = 3}^{m} α_{i} y_{i} = α_{1}^{*} + s α_{2}^{*} = t$

把 $α_{1} = t - s α_{2}$ 代入目标函数有：

$Ψ (α) = \frac{1}{2} (t - s α_{2})^{2} K_{11} + \frac{1}{2} α_{2}^{2} K_{22} + s (t - s α_{2}) α_{2} K_{12} - (t - α_{2}) - α_{2} + y_{1} (t - s α_{2}) v_{1} + y_{2} α_{2} v_{2} + Ψ_{c o n s t}$

目标函数对 $α_{2}$ 求导并令其为0：

$\frac{\partial}{\partial α_{2}} Ψ (α) = α_{2} (K_{11} + K_{22} - 2 K_{12}) - s t (K_{11} - K 12) - y_{2} (v_{1} - v_{2}) + s - 1 = 0$

把 $t = α_{1}^{*} + s α_{2}^{*}, v_{i} = \sum_{j = 3}^{m} α_{j}^{*} y_{j} K_{i j} = u_{i} + b^{*} - y_{1} α_{1}^{*} K_{1 i} - y_{2} α_{2}^{*} K_{2 i}$ 代入上式得:

$α_{2} (K_{11} + K_{22} - 2 K_{12}) = α_{2}^{*} (K_{11} + K_{22} - 2 K_{12}) + y_{2} (u_{1} - u_{2} + y_{2} - y_{1})$

目标函数对 $α_{2}$ 进行二次求导有:

$\frac{\partial}{\partial^{2} α_{2}} Ψ (α) = η = K_{11} + K_{22} - 2 K_{12}$

当 $η > 0$ 有：

$α_{2}^{n e w} = α_{2}^{*} + \frac{y_{2} (E_{1} - E_{2})}{η}$

$α_{1}^{n e w} = α_{1} + s (α_{2} - α_{2}^{n e w, c l i p p e d})$
当 $η \leq 0$ 有，此时易知 $α_{2}$ 取到边界时，目标函数最小：

$f_{1} = y_{1} (E_{1} + b) - α_{1} K_{11} - s α_{2} K_{12},$

$f_{2} = y_{2} (E_{2} + b) - s α_{1} K_{12} - α_{2} K_{22},$

$L_{1} = α_{1} + s (α_{2} - L)$

$H_{1} = α_{1} + s (α_{2} - H)$

$Ψ_{L} = L_{1} f_{1} + L f_{2} + \frac{1}{2} L_{1}^{2} K_{11} + \frac{1}{2} L^{2} K_{22} + s L L_{1} K_{12}$

$Ψ_{H} = H_{1} f_{1} + H f_{2} + \frac{1}{2} H_{1}^{2} K_{11} + \frac{1}{2} H^{2} K_{22} + s H H_{1} K_{12}$

对比 $Ψ_{L}, Ψ_{H}$ , 取值较小的那个
每次更新完 $α$ 后都需要更新b值：

当 $α_{1}$ 不在界上时:

$b^{n e w} = b_{1} = E_{1} + y_{1} (α_{1}^{n e w} - α_{1}) K_{11} + y_{2} (α_{2}^{n e w, c l i p p e d} - α_{2}) K_{12} + b$

当 $α_{2}$ 不在界上时:

$b^{n e w} = b_{2} = E_{2} + y_{1} (α_{1}^{n e w} - α_{1}) K_{12} + y_{2} (α_{2}^{n e w, c l i p p e d} - α_{2}) K_{22} + b$

当双方都在界上时：

$b = \frac{b_{1} + b_{2}}{2}$

推荐相关参考资料：

Andrew Ng在网易公开课的课堂资料，其中part V涉及到SVM. http://cimg3.163.com/edu/open/ocw/jiqixuexikecheng.zip
John Platt的SMO论文. https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/smo-book.pdf
JerryLead的博客. http://www.cnblogs.com/jerrylead/archive/2011/03/18/1988415.html#undefined

SVM支持向量机及SMO算法总结

函数间距与几何间距：

最大化间距

拉格朗日对偶

应用拉格朗日求解最小间隙最大值

正则化及不可分情形讨论

SMO优化

相关推荐