周志华 机器学习 Day9

支持向量机

间隔与支持向量

给定训练样本集D,分类学习最基本想法就是基于训练集D在样本空间中找到一个划分超平面,将不用类别的样本分开。

在样本空间中,划分超平面可通过如下线性方程来描述:

周志华 机器学习 Day9

其中w为法向量,决定了超平面的方向;b为位移项,决定了超平面与原点之间的距离。

样本空间中任一点x到到超平面(w,b)的距离可写为

周志华 机器学习 Day9

假设超平面(w,b)能将训练样本正确分类,即对于(xi,yi)∈D,有

周志华 机器学习 Day9

如下图所示,距离超平面最近的这几个训练样本点使得上式等号成立,他们被称为“支持向量”,两个异类支持向量到超平面的距离之和为

周志华 机器学习 Day9

它被称为“间隔”。

周志华 机器学习 Day9

为了找到“最大间隔”,仅需最大化周志华 机器学习 Day9

可重写为

周志华 机器学习 Day9

这就是支持向量机(简称 SVM)的基本型。


对偶问题

我们希望求解上式来得到大间隔划分超平面所对应的模型

周志华 机器学习 Day9

通过拉格朗日乘数法可得到其“对偶问题”(ai是拉格朗日乘子),即

周志华 机器学习 Day9

周志华 机器学习 Day9

接触α后,求出w与b即可得到模型

周志华 机器学习 Day9

同时,也要满足KKT条件,即要求

周志华 机器学习 Day9


核函数

我们假设训练样本是线性可分的,即存在一个划分超平面能将驯良样本正确分类,然而在现实任务中,原始样本空间内也许并不存在一个能正确划分两类样本的超平面,如下图。

周志华 机器学习 Day9

对这样的问题,可将样本从原始射到个更高维的特,使得样本在这个特征空间内线性可分。如上图,若将原始的二维空间映射到一个合适的三维空间,就能找到一个合适的划分超平面。如果原始空间是有限维,即属性数有限,那么一定存在一个高维特征空间使样本可分。

以同样地方式可求得高维特征空间中超平面划分的模型是

周志华 机器学习 Day9 

其中,∮(x)指的是将x映射后的特征向量,周志华 机器学习 Day9就是“核函数”,模型最优解可通过训练样本的核函数展开,这一展式称为“支持向量展式”。
周志华 机器学习 Day9
上述定理表明,只要一个对称函数所对应的核矩阵半正定,它就能作为核函数使用。

周志华 机器学习 Day9