周志华 机器学习 Day9
支持向量机
间隔与支持向量
给定训练样本集D,分类学习最基本想法就是基于训练集D在样本空间中找到一个划分超平面,将不用类别的样本分开。
在样本空间中,划分超平面可通过如下线性方程来描述:
其中w为法向量,决定了超平面的方向;b为位移项,决定了超平面与原点之间的距离。
样本空间中任一点x到到超平面(w,b)的距离可写为
假设超平面(w,b)能将训练样本正确分类,即对于(xi,yi)∈D,有
如下图所示,距离超平面最近的这几个训练样本点使得上式等号成立,他们被称为“支持向量”,两个异类支持向量到超平面的距离之和为
它被称为“间隔”。
为了找到“最大间隔”,仅需最大化。
可重写为
这就是支持向量机(简称 SVM)的基本型。
对偶问题
我们希望求解上式来得到大间隔划分超平面所对应的模型
通过拉格朗日乘数法可得到其“对偶问题”(ai是拉格朗日乘子),即
接触α后,求出w与b即可得到模型
同时,也要满足KKT条件,即要求
核函数
我们假设训练样本是线性可分的,即存在一个划分超平面能将驯良样本正确分类,然而在现实任务中,原始样本空间内也许并不存在一个能正确划分两类样本的超平面,如下图。
对这样的问题,可将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。如上图,若将原始的二维空间映射到一个合适的三维空间,就能找到一个合适的划分超平面。如果原始空间是有限维,即属性数有限,那么一定存在一个高维特征空间使样本可分。
以同样地方式可求得高维特征空间中超平面划分的模型是
上述定理表明,只要一个对称函数所对应的核矩阵半正定,它就能作为核函数使用。