从零开始学习SVM（三）---SMO算法原理

前两节我们一直在介绍svm的原理，优化目标函数，并且已经推导出了最后的目标函数，现在终于要求解这个问题了并得到模型，在上一节《从零开始学习SVM（二）—松弛变量》中我们介绍了松弛变量的的概念，推导出了加入松弛变量后的目标函数并且后面将会一直使用这个目标函数：

m a x α \sum i = 1 m α i - 12 \sum i = 1 m \sum j = 1 m α i α j y i y j x T i x j （ 1 ）

s . t . \sum i = 1 m α i y i = 0 (1.1)

C ⩾ α i ⩾ 0, i = 1, 2, \dots, m

KKT条件：

α i ⩾ 0

y i f (x i) - 1 + ζ i ⩾ 0

α i (y i f (x i) - 1 + ζ i) = 0

ζ i ⩾ 0, u i ζ i = 0

有了优化目标之后，我们终于到了介绍如何求出最优解的部分：SMO算法。当然解决办法有很多中，在笔者查看了众多资料后大多数就是推荐使用SMO（Sequential Minimal Optimization；序列最小优化）算法，这种算法高效，求解时间短。
还记得我们的模型公式吗？

f (x) = w T x + b

也就是说我们求解出来w与b这个模型就算得到了，还记得在第一节中我们在得到最初的目标函数的对偶函数时候，我们得到了w的另一种表示方式

⅁ L (w, b, a) ⅁ w = w - \sum i = 1 m α i y i x i = 0

代入模型函数

f (x) = \sum i, j m α i y i (x i) T x j + b （ 2 ）

也就是说我们只要求解出每个样本对应的拉格朗日乘子αi就能求出模型。可是这αi={α1,α2,…,αm}这参数也太多了，但是别忘了我们求出了优化目标函数的对偶函数函数（1），但是这仍然要求很多参数啊，别急我们先介绍一个优化目标的思路。就拿最近比较火的游戏《荒野求生》又叫吃鸡的游戏来说吧，在游戏过程中经常会在一段时间后刷圈，只有在圈内我们才能苟活，每刷一次我们就得往圈内跑，可是怎么跑呢？各路都有人，我们是直直的跑（一般这样会很快gg），还是绕开各路人马，让他们厮杀我们坐收渔翁之利？我们想要安全的到达圈内当然是绕着跑啦。这与我们的求解思路是不是很一直？我们想要求解出参数，想要直奔目标直接对目标函数求解肯定很费事，我敢说你很快就会gg,但是如果我们绕开这个目标函数最优解，而是通过先优化其中的两个，其他的不管，然后循环这样操作，直到所有的参数αi都满足KKT条件是不是也可以达到我们的目标呢？当然是啦，看下图，红线代表直奔目标，这样是很快，但是很容易gg啊，还是蓝线我们一点一点的达到目标，我们先达到一个方向的最优，先按照一个方向固定其他方式，当所有方向都达到最优我们也达到了我们目标
从零开始学习SVM（三）---SMO算法原理

同理，SMO算法就是让我们先固定其中的两个参数α1,α2其他的不管，然后依次随机的抽取两个α对，知道所有的α都满足KKT条件，那么不就得到了我们优化目标了吗？
为什么要固定两个呢？一个，两个，三个，四个不行吗？
还记得我们之前得到的一个kkt条件吗？就是上面的（1.1）约束条件:

\sum i = 1 m α i y i = 0

没错就是它，因为我们要满足这个条件，所以我们只改变其中的一个αi肯定不行啊，因为这样还会等于0吗？那么这么说3个4个也可以啊，是可以啊，但是2个不是简单嘛！！也就是说

α 1 y 1 + α 2 y 2 + \sum i = 3 m α i y i = 0

α 1 y 1 + α 2 y 2 = - \sum i = 3 m α i y i

令：

α 1 y 1 + α 2 y 2 = ϵ

无论你怎么改变α1,α2反正和为常量。设更新后的α分别为αnew1,αnew2,所以

α 1 y 1 + α 2 y 2 = α n e w 1 y 1 + α n e w 2 y 2 = ϵ (3)

可是哪些α需要被该变呢？有什么标准呢？当然是KKT条件啦，只要满足约束就是好的，不满足则需要改变进行优化。还记得这个约束条件吗？

s . t . y i (w T x i + b) ⩾ 1 ， i = 1, 2, 3 \dots, m .

也就是yif(xi)⩾1 与（1.1）约束，首先找到满足约束的α,我们可知：

α i = 0, y i f (x i) > 1 表 示 被 正 确 分 类 到 两 个 边 界 线 之 外

0 ⩽ α i ⩽ C, y i f (x i) = 1 表 示 在 两 个 边 界 之 上 ， 属 于 支 持 向 量

α i = C, y i f (x i) < 1 表 示 在 两 个 边 界 之 内

以上都是满足约束的，除了这些其他的都是不满足约束的，也就是需要优化的。
由公式（3），我们假设y1与y2异号，即α1−α2=ϵ 因为0<α1,α2<C;α2=α1−ϵ则：−ϵ<α2<C−ϵ因为0<α2<C这个条件，所以我们取两者的交集，即：

m a x (0, - ϵ) < α 2 < m i n (C, C - ϵ)

同理可得：

m a x (0, ϵ) < α 2 < m i n (C, C + ϵ)

黄色区域是满足约束的区域，不仅要在黄色区域内，并且还得在α1−α2=ϵ这条直线上。如果两者是同号的同理可得：从零开始学习SVM（三）---SMO算法原理

我为了简化公式，把α1用α2表示

α 1 y 1 + α 2 y 2 = - \sum i = 3 m α i y i = ϵ

两边同乘以y1

α 1 + y 1 y 2 α 2 = - y 1 \sum i = 3 m α i y i = - y 1 ϵ

α 1 = - y 1 \sum i = 3 m α i y i - y 1 y 2 α 2

我们把a1带入原目标函数使得原目标函数只带有α2(很多人到了这里就贴其他地方弄来的结果，也没有具体推到，直接看到结果我也很茫然，索性自己推导一遍)：

\sum i = 1 m α i - 12 \sum i = 1 m \sum j = 1 m α i α j y i y j x T i x j

可得：

α 1 + α 2 + \sum i = 3 m α i - 12 α 1 α 1 y 1 y 1 K (x 1, x 1) - 12 α 1 α 2 y 1 y 2 K (x 1, x 2) - 12 α 2 α 1 y 2 y 1 K (x 2, x 1) - 12 α 2 α 2 y 2 y 2 K (x 2, x 2)

- 12 α 1 y 1 \sum j = 3 m y j α j K (x 1, x j) - 12 α 2 y 2 \sum j = 3 m y j α j K (x 2, x j) - 12 α 1 y 1 \sum i = 3 m y i α j K (x i, x 1)

- 12 α 2 y 2 \sum i = 3 m y i α j K (x i, x 2) - 12 \sum i = 3 m \sum j = 3 m α i α j y i y j K (x i, x j)

令：

\sum i = 3 m α i - 12 \sum i = 3 m \sum j = 3 m α i α j y i y j K (x i, x j) = C o n s t (常 量)

Q = - y 1 \sum i = 3 m α i y i; y 1 y 2 α 2 = W α 2

α 1 = Q - W α 2

V 1 = \sum j = 3 m y j α j K (x 1, x j)

V 2 = \sum j = 3 m y j α j K (x 2, x j)

整理可得:

α 1 + α 2 - 12 α 1 α 1 K (x 1, x 1) - α 1 α 2 W K (x 1, x 2) - 12 α 2 α 2 K (x 2, x 2) -

α 1 y 1 V 1 - α 2 y 2 V 2 - C o n s t

带入a1可得：

(Q - W α 2) + α 2 - 12 (Q - W α 2) 2 K (x 1, x 1) - α 2 (Q - W α 2) W K (x 2, x 1) -

12 α 2 α 2 K (x 2, x 2) - (Q - W α 2) y 1 V 1 - α 2 y 2 V 2 - C o n s t

其中K(x,y)代表x与y的内积。对α2进行求导：

① 1 - W + (Q - W α 2) W k (x 1, x 1) -

(Q - 2 W α 2) W K (x 1, x 2) - α 2 K (x 2, x 2) + y 2 V 1 - y 2 V 2

② 1 - W + W Q (K (x 1, x 1) - K (x 1, x 2) ） - α 2 (2 K (x 1, x 2) - K (x 1, x 1) - K (x 2, x 2))) + y 2 (V 1 - V 2)

③ 1 - W + y 2 (V 1 - V 2) + W Q (K (x 1, x 1) - K (x 1, x 2) ） = α 2 (2 K (x 1, x 2) - K (x 1, x 1) - K (x 2, x 2)))

这时候我们就求到了一般形式，我们继续简化公式：

f (x i) = w T x i + b

把w换为之前对目标函数求偏导获取的值：

f (x i) = \sum j m α j y j K (x i, x j) + b

所以:

V i = \sum j = 3 m y j α j K (x i, x j) = f (x i) - \sum j = 1 2 y j α j K (x i, x j) - b

带入上式可得：

1 - W + y 2 (f (x 1) - f (x 2) - \sum j = 1 2 y j α j K (x 1, x j) + \sum j = 1 2 y j α j K (x 2, x j)) + W Q (K (x 1, x 1) - K (x 1, x 2) ）

= α 2 (2 K (x 1, x 2) - K (x 1, x 1) - K (x 2, x 2)))

这个整体为：

- \sum j = 1 2 y j α j K (x 1, x j) + \sum j = 1 2 y j α j K (x 2, x j) =

y 2 α 2 K (x 2, x 2) - y 1 α 1 K (x 1, x 1)

步步为营，接着我们替换Q：

α n e w 1 + W α n e w 2 = α 1 + W α 2 = - y 1 \sum i = 3 m α i y i = Q

心好累，终于到了更新αnew2的一步了

① α n e w 2 (2 K (x 1, x 2) - K (x 1, x 1) - K (x 2, x 2))) =

α 2 (2 K (x 1, x 2) - K (x 1, x 1) - K (x 2, x 2))) + y 2 (f (x 1) - f (x 2) + y 2 - y 1)

② α n e w 2 = α 2 + y 2 (f (x 1) - y 1 - f (x 2) + y 2) (2 K (x 1, x 2) - K (x 1, x 1) - K (x 2, x 2)))

③ α n e w 2 = α 2 + y 2 (E 1 - E 2) η

结合上面的α的取值范围：0<αnew2<C可得：
从零开始学习SVM（三）---SMO算法原理

那我们b如何更新呢?因为在更新α之后，那么标签yi应该与f(xi)值相等（x_i是支持向量）：

① y i = f (x i) = \sum j = 1 2 y j α j K (x i, x j) + b i

经过移项后得到：

② y i - \sum j = 3 2 y j α j K (x i, x j) - y 1 α n e w 1 K (x i, x 1) - y 2 α n e w 2 K (x i, x 2) = b n e w i

结合Ei：

E i = f (x i) - y i =

y 1 α 1 K (x i, x 1) + y 2 α 2 K (x i, x 2) + \sum j = 3 2 y j α j K (x i, x j) + b i - y i

猛然发现两个有共同项yi−∑2j=3yjαjK(xi,xj)啊！那我们联立两个方程好了：

b n e w i = - E i + b i + y 1 α 1 K (x i, x 1) + y 2 α 2 K (x i, x 2)

- y 1 α n e w 1 K (x i, x 1) - y 2 α n e w 2 K (x i, x 2)

但是我们取哪个b呢？当然是哪个αi在（0，C）区间内取哪个，因为符合这个要求的点才是“支持向量”啊，不符合我们当然就不要，但是如何碰巧都在区间内呢？那我们就折中取b1与b2的平均值。
亲爱的读者如果你能看到这，我真心的感谢你对我的支持与认可，如果有任何疑问欢迎交流提问。我真的很想把代码也写上去，这样更容易理解上述过程，当时篇幅过大，使用****的markdown编辑器很烦，每写一句话都会重新解析，偶尔会使得浏览器死掉难以继续写下去。到此我们的线性分类就结束了，后面会推出线性分类实例与线性不可分的介绍，欢迎关注我的微信公共号
从零开始学习SVM（三）---SMO算法原理

从零开始学习SVM（三）---SMO算法原理

相关推荐