统计学习方法笔记(十一)支持向量机一

支持向量机

支持向量机(SVM)是一种二类分类模型,是定义在特征空间上的间隔最大的线性分类器;同时,支持向量机还包括核技巧,这使得支持向量机成为实质上的非线性分类器。
支持向量机分为线性可分支持向量机、线性支持向量机以及非线性支持向量机,当训练数据线性可分时,通过硬间隔最大化可学习出线性可分支持向量机,又称为硬间隔支持向量机;当训练数据近似线性可分时,通过软间隔最大化可以学习出线性支持向量机,又称为软间隔支持向量机;当训练数据线性不可分时,通过使用核技巧以及软间隔最大化可学习出非线性支持向量机。
下面介绍核函数的概念,当输入为欧式空间,特征空间为希尔伯特空间时,核函数就表示将输入映射到特征空间后特征向量之间的内积。通过核函数来学习非线性支持向量机,等价于隐式的在高维特征空间中学习线性支持向量机,这种方法称为核技巧。
PS:统计学习方法笔记(十一)支持向量机一

线性可分支持向量机与硬间隔最大化

一、 线性可分支持向量机
假设输入空间与特征空间是两个不同的空间,这两个空间上的元素一一对应。给定一个特征空间上的训练数据集,输出是类的标记,为+1称为正例,为-1称为负类。学习的目标同感知机一样,都是在特征空间中找到一个分离超平面,能将实例分到不同的类。分离超平面对应方程为:wx+b=0 ,其由法向量w 与截距b 来决定。与感知机不同的是,感知机通过误分类最小策略求的分离超平面,而支持向量机则通过间隔最大化来求得最优超平面。
线性可分支持向量机:给定线性可分训练数据集,通过间隔最大化或等价的求解相应的凸二次规划问题学习到的分离超平面为:
wx+b=0
相应的分类决策函数为:
f(x)=sign(wx+b)
二、 函数间隔与几何间隔
显然,在超平面给定的情况下,样本点对超平面的距离可以表示分类预测的确信程度,距离越远,分类准确性越高,距离越近,分类准确性越低,而y可以表示分类的正确性,所以,y(wx+b) 可以表示分类的正确性以及确信度,下面给出具体概念。
函数间隔:给定训练数据集T与超平面(w, b)定义超平面关于样本点(xi,yi)的函数间隔为:
γ^i=yi(wxi+b)
定义超平面关于训练数据集T的函数间隔为超平面对所有样本点函数间隔的最小值:
γ^=mini=1,,Nγ^i
现在考虑一种情况,当w与b等比例改变时,超平面不变,但函数距离却发生了改变,所以有必要对函数间隔施加一定的约束,如规范化,||w||=1 ,这时函数间隔变为几何间隔。
统计学习方法笔记(十一)支持向量机一
如图所示,当样本点被超平面正确分类时,其距离可以表示为:
γi=yi(w||w||xi+b||w||)
这就是几何间隔。
很显然,函数间隔与几何间隔有如下关系:
γ=γ^||w||
三、 间隔最大化
间隔最大化的解释:使每一个样本点都离分离超平面充分远,也就是说,不仅能将正负实例点分开,就连那些最难分的实例点也有足够大的确信度将其分开。
1、 最大间隔分离超平面的求法:
变换为约束最优化问题:
maxw,bγ
s.t.yi(w||w||xi+b||w||)γ^,i=1,2,,N
应用几何间隔与函数间隔的关系,改写为:
maxw,bγ^||w||
s.t.yi(wxi+b)γ^,i=1,2,,N
事实上,函数间隔的取值并不影响最优化问题的求解,这是因为函数间隔的变化本身就是由于w与b的等比例变化引起的。此时,取γ^=1 ,同时,最大化1||w|| 与最小化12||w||2 是等价的,所以最优化问题变为:
minw,b12||w||2
s.t.yi(wxi+b)10,i=1,2,,N
很显然,这是一个凸优化问题。所谓的最大间隔法,就是求上述优化问题的最优解,并得到分离超平面。
2、最大间隔分离超平面具有存在唯一性。
3、凸优化问题,一般是如下的形式:
minwf(w)
s.t.gi(w)0,i=1,2,,k hi(w)=0,i=1,2,,l
以上的函数分别是目标函数,约束函数以及仿射函数,目标函数以及约束函数都是实数集上连续可微的凸函数。
4、支持向量和间隔边界
线性可分条件下,训练数据集的样本点中与分离超平面距离最近的样本点的实例称为支持向量。
统计学习方法笔记(十一)支持向量机一
显然,H1与H2之间形成了一条隔离带,称之为间隔,间隔依赖于分离超平面的法向量w,等于2||w|| .决定分离超平面时,仅有支持向量起作用。
四、学习的对偶算法