关于SVM一篇比较全介绍的博文

                转自:http://blog.****.net/v_july_v/article/details/7624837


前言

    动笔写这个支持向量机(support vector machine)是费了不少劲和困难的,原因很简单,一者这个东西本身就并不好懂,要深入学习和研究下去需花费不少时间和精力,二者这个东西也不好讲清楚,尽管网上已经有朋友写得不错了(见文末参考链接),但在描述数学公式的时候还是显得不够。得益于同学白石的数学证明,我还是想尝试写一下,希望本文在兼顾通俗易懂的基础上,真真正正能足以成为一篇完整概括和介绍支持向量机的导论性的文章。

    本文在写的过程中,参考了不少资料,包括《支持向量机导论》、《统计学习方法》及网友pluskid的支持向量机系列等等,于此,还是一篇学习笔记,只是加入了自己的理解和总结,有任何不妥之处,还望海涵。全文宏观上整体认识支持向量机的概念和用处,微观上深究部分定理的来龙去脉,证明及原理细节,力保逻辑清晰 & 通俗易懂。


    同时,阅读本文时建议大家尽量使用chrome等浏览器,如此公式才能更好的显示,再者,阅读时可拿张纸和笔出来,把本文所有定理.公式都亲自推导一遍或者直接打印下来(可直接打印网页版或本文文末附的PDF,享受随时随地思考、演算的极致快感),在文稿上演算。

    Ok,还是那句原话,有任何问题,欢迎任何人随时不吝指正 & 赐教,感谢。



第一层、了解SVM

    支持向量机,因其英文名为support vector machine,故一般简称SVM,通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。

1.1、分类标准的起源:Logistic回归

    理解SVM,咱们必须先弄清楚一个概念:线性分类器。

    给定一些数据点,它们分别属于两个不同的类,现在要找到一个线性分类器把这些数据分成两类。如果用x表示数据点,用y表示类别(y可以取1或者-1,分别代表两个不同的类),一个线性分类器的学习目标便是要在n维的数据空间中找到一个超平面(hyper plane),这个超平面的方程可以表示为( wT中的T代表转置):

                                                           关于SVM一篇比较全介绍的博文

    可能有读者对类别取1或-1有疑问,事实上,这个1或-1的分类标准起源于logistic回归。

    Logistic回归目的是从特征学习出一个0/1分类模型,而这个模型是将特性的线性组合作为自变量,由于自变量的取值范围是负无穷到正无穷。因此,使用logistic函数(或称作sigmoid函数)将自变量映射到(0,1)上,映射后的值被认为是属于y=1的概率。

    假设函数

关于SVM一篇比较全介绍的博文
    其中x是n维特征向量,函数g就是logistic函数。
    而关于SVM一篇比较全介绍的博文的图像是


关于SVM一篇比较全介绍的博文



    可以看到,将无穷映射到了(0,1)。
    而假设函数就是特征属于y=1的概率。


关于SVM一篇比较全介绍的博文

    从而,当我们要判别一个新来的特征属于哪个类时,只需求关于SVM一篇比较全介绍的博文即可,若关于SVM一篇比较全介绍的博文大于0.5就是y=1的类,反之属于y=0类。

    此外,关于SVM一篇比较全介绍的博文只和关于SVM一篇比较全介绍的博文有关,关于SVM一篇比较全介绍的博文>0,那么关于SVM一篇比较全介绍的博文,而g(z)只是用来映射,真实的类别决定权还是在于关于SVM一篇比较全介绍的博文。再者,当关于SVM一篇比较全介绍的博文时,关于SVM一篇比较全介绍的博文=1,反之关于SVM一篇比较全介绍的博文=0。如果我们只从关于SVM一篇比较全介绍的博文出发,希望模型达到的目标就是让训练数据中y=1的特征关于SVM一篇比较全介绍的博文,而是y=0的特征关于SVM一篇比较全介绍的博文。Logistic回归就是要学习得到关于SVM一篇比较全介绍的博文,使得正例的特征远大于0,负例的特征远小于0,而且要在全部训练实例上达到这个目标。


    接下来,尝试把logistic回归做个变形。首先,将使用的结果标签y = 0和y = 1替换为y = -1,y = 1,然后将关于SVM一篇比较全介绍的博文关于SVM一篇比较全介绍的博文)中的关于SVM一篇比较全介绍的博文替换为b,最后将后面的关于SVM一篇比较全介绍的博文替换为关于SVM一篇比较全介绍的博文(即关于SVM一篇比较全介绍的博文)。如此,则有了关于SVM一篇比较全介绍的博文。也就是说除了y由y=0变为y=-1外,线性分类函数跟logistic回归的形式化表示关于SVM一篇比较全介绍的博文没区别。

    进一步,可以将假设函数关于SVM一篇比较全介绍的博文中的g(z)做一个简化,将其简单映射到y=-1和y=1上。映射关系如下:

关于SVM一篇比较全介绍的博文
1.2、线性分类的一个例子

    下面举个简单的例子,如下图所示,现在有一个二维平面,平面上有两种不同的数据,分别用圈和叉表示。由于这些数据是线性可分的,所以可以用一条直线将这两类数据分开,这条直线就相当于一个超平面,超平面一边的数据点所对应的y全是 -1 ,另一边所对应的y全是1。


关于SVM一篇比较全介绍的博文

    这个超平面可以用分类函数关于SVM一篇比较全介绍的博文表示,当f(x) 等于0的时候,x便是位于超平面上的点,而f(x)大于0的点对应 y=1 的数据点,f(x)小于0的点对应y=-1的点,如下图所示:

关于SVM一篇比较全介绍的博文

    注:有的资料上定义特征到结果的输出函数关于SVM一篇比较全介绍的博文,与这里定义的关于SVM一篇比较全介绍的博文实质是一样的。为什么?因为无论是关于SVM一篇比较全介绍的博文,还是关于SVM一篇比较全介绍的博文,不影响最终优化结果。下文你将看到,当我们转化到优化关于SVM一篇比较全介绍的博文的时候,为了求解方便,会把yf(x)令为1,即yf(x)是y(w^x + b),还是y(w^x - b),对我们要优化的式子max1/||w||已无影响。

    (有一朋友飞狗来自Mare_Desiderii,看了上面的定义之后,问道:请教一下SVM functional margin 为关于SVM一篇比较全介绍的博文=y(wTx+b)=yf(x)中的Y是只取1和-1 吗?y的唯一作用就是确保functional margin的非负性?真是这样的么?当然不是,详情请见本文评论下第43楼)

    当然,有些时候,或者说大部分时候数据并不是线性可分的,这个时候满足这样条件的超平面就根本不存在(不过关于如何处理这样的问题我们后面会讲),这里先从最简单的情形开始推导,就假设数据都是线性可分的,亦即这样的超平面是存在的。

    换言之,在进行分类的时候,遇到一个新的数据点x,将x代入f(x) 中,如果f(x)小于0则将x的类别赋为-1,如果f(x)大于0则将x的类别赋为1。

    接下来的问题是,如何确定这个超平面呢?从直观上而言,这个超平面应该是最适合分开两类数据的直线。而判定“最适合”的标准就是这条直线离直线两边的数据的间隔最大。所以,得寻找有着最大间隔的超平面。

1.3、函数间隔Functional margin与几何间隔Geometrical margin

    在超平面w*x+b=0确定的情况下,|w*x+b|能够表示点x到距离超平面的远近,而通过观察w*x+b的符号与类标记y的符号是否一致可判断分类是否正确,所以,可以用(y*(w*x+b))的正负性来判定或表示分类的正确性。于此,我们便引出了函数间隔(functional margin)的概念。

    定义函数间隔(用关于SVM一篇比较全介绍的博文表示)为:

                                                关于SVM一篇比较全介绍的博文


    而超平面(w,b)关于T中所有样本点(xi,yi)的函数间隔最小值(其中,x是特征,y是结果标签,i表示第i个样本),便为超平面(w, b)关于训练数据集T的函数间隔:

            关于SVM一篇比较全介绍的博文min关于SVM一篇比较全介绍的博文i  (i=1,...n)

    但这样定义的函数间隔有问题,即如果成比例的改变w和b(如将它们改成2w和2b),则函数间隔的值f(x)却变成了原来的2倍(虽然此时超平面没有改变),所以只有函数间隔还远远不够。

    事实上,我们可以对法向量w加些约束条件,从而引出真正定义点到超平面的距离--几何间隔(geometrical margin)的概念。

    假定对于一个点 x ,令其垂直投影到超平面上的对应点为 x0 ,w 是垂直于超平面的一个向量,关于SVM一篇比较全介绍的博文为样本x到分类间隔的距离,如下图所示:


关于SVM一篇比较全介绍的博文



    有关于SVM一篇比较全介绍的博文,其中||w||表示的是范数。

    又由于 x0 是超平面上的点,满足 f(x0)=0 ,代入超平面的方程关于SVM一篇比较全介绍的博文即可算出:

                                                        关于SVM一篇比较全介绍的博文
γ


    (有的书上会写成把||w|| 分开相除的形式,如本文参考文献及推荐阅读条目11,其中,||w||为w的二阶泛数)

    为了得到关于SVM一篇比较全介绍的博文的绝对值,令关于SVM一篇比较全介绍的博文乘上对应的类别 y,即可得出几何间隔(用关于SVM一篇比较全介绍的博文表示)的定义:

                                                        关于SVM一篇比较全介绍的博文


    从上述函数间隔和几何间隔的定义可以看出:几何间隔就是函数间隔除以||w||,而且函数间隔y*(wx+b) = y*f(x)实际上就是|f(x)|,只是人为定义的一个间隔度量,而几何间隔|f(x)|/||w||才是直观上的点到超平面的距离。


1.4、最大间隔分类器Maximum Margin Classifier的定义

    对一个数据点进行分类,当超平面离数据点的“间隔”越大,分类的确信度(confidence)也越大。所以,为了使得分类的确信度尽量高,需要让所选择的超平面能够最大化这个“间隔”值。这个间隔如下图中的gap / 2所示。

关于SVM一篇比较全介绍的博文


    通过由前面的分析可知:函数间隔不适合用来最大化间隔值,因为在超平面固定以后,可以等比例地缩放w的长度和b的值,这样可以使得关于SVM一篇比较全介绍的博文的值任意大,亦即函数间隔关于SVM一篇比较全介绍的博文可以在超平面保持不变的情况下被取得任意大。但几何间隔因为除上了关于SVM一篇比较全介绍的博文,使得在缩放w和b的时候几何间隔关于SVM一篇比较全介绍的博文的值是不会改变的,它只随着超平面的变动而变动,因此,这是更加合适的一个间隔。所以,这里要找的最大间隔分类超平面中的“间隔”指的是几何间隔。

   于是最大间隔分类器(maximum margin classifier)的目标函数可以定义为:


关于SVM一篇比较全介绍的博文

    同时需满足一些条件,根据间隔的定义,有

关于SVM一篇比较全介绍的博文


    其中,s.t.,即subject to的意思,它导出的是约束条件。

    回顾下几何间隔的定义关于SVM一篇比较全介绍的博文可知:如果令函数间隔关于SVM一篇比较全介绍的博文等于1(之所以令关于SVM一篇比较全介绍的博文等于1,是为了方便推导和优化,且这样做对目标函数的优化没有影响,至于为什么,请见本文评论下第42楼回复),则有关于SVM一篇比较全介绍的博文 = 1 / ||w||且关于SVM一篇比较全介绍的博文,从而上述目标函数转化成了


关于SVM一篇比较全介绍的博文

    这个目标函数便是在相应的约束条件关于SVM一篇比较全介绍的博文下,最大化这个1/||w||值,而1/||w||便是几何间隔关于SVM一篇比较全介绍的博文。   


    如下图所示,中间的实线便是寻找到的最优超平面(Optimal Hyper Plane),其到两条虚线的距离相等,这个距离便是几何间隔关于SVM一篇比较全介绍的博文,两条虚线之间的距离等于2关于SVM一篇比较全介绍的博文,而虚线上的点则是支持向量。由于这些支持向量刚好在边界上,所以它们满足关于SVM一篇比较全介绍的博文(还记得我们把 functional margin 定为 1 了吗?上节中:处于方便推导和优化的目的,我们可以令关于SVM一篇比较全介绍的博文=1),而对于所有不是支持向量的点,则显然有关于SVM一篇比较全介绍的博文


关于SVM一篇比较全介绍的博文

    OK,到此为止,算是了解到了SVM的第一层,对于那些只关心怎么用SVM的朋友便已足够,不必再更进一层深究其更深的原理。


第二层、深入SVM2.1、从线性可分到线性不可分2.1.1、从原始问题到对偶问题的求解

    接着考虑之前得到的目标函数:


关于SVM一篇比较全介绍的博文

     由于求[img]file:///D:/Users/FLOYD/AppData/Local/Temp/TempPic/7MC_V(1%7B(25]VM%7BNDBE2[Y5.tmp[/img]关于SVM一篇比较全介绍的博文的最大值相当于求file:///D:/Users/FLOYD/AppData/Local/Temp/TempPic/U8KNCTBNFLW~UQKHKF]P57C.tmp关于SVM一篇比较全介绍的博文的最小值,所以上述目标函数等价于(w由分母变成分子,从而也有原来的max问题变为min问题,很明显,两者问题等价):


关于SVM一篇比较全介绍的博文


    因为现在的目标函数是二次的,约束条件是线性的,所以它是一个凸二次规划问题。这个问题可以用现成的QP (Quadratic Programming) 优化包进行求解。一言以蔽之:在一定的约束条件下,目标最优,损失最小。

    此外,由于这个问题的特殊结构,还可以通过拉格朗日对偶性(Lagrange Duality)变换到对偶变量 (dual variable) 的优化问题,即通过求解与原问题等价的对偶问题(dual problem)得到原始问题的最优解,这就是线性可分条件下支持向量机的对偶算法,这样做的优点在于:一者对偶问题往往更容易求解;二者可以自然的引入核函数,进而推广到非线性分类问题。

     那什么是拉格朗日对偶性呢?简单来讲,通过给每一个约束条件加上一个拉格朗日乘子(Lagrange multiplier)关于SVM一篇比较全介绍的博文,定义拉格朗日函数(通过拉格朗日函数将约束条件融合到目标函数里去,从而只用一个函数表达式便能清楚的表达出我们的问题):

关于SVM一篇比较全介绍的博文


    然后令


关于SVM一篇比较全介绍的博文

    容易验证,当某个约束条件不满足时,例如关于SVM一篇比较全介绍的博文,那么显然有关于SVM一篇比较全介绍的博文(只要令关于SVM一篇比较全介绍的博文即可)。而当所有约束条件都满足时,则有关于SVM一篇比较全介绍的博文,亦即最初要最小化的量。

    因此,在要求约束条件得到满足的情况下最小化关于SVM一篇比较全介绍的博文,实际上等价于直接最小化关于SVM一篇比较全介绍的博文(当然,这里也有约束条件,就是关于SVM一篇比较全介绍的博文≥0,i=1,…,n)   ,因为如果约束条件没有得到满足,关于SVM一篇比较全介绍的博文会等于无穷大,自然不会是我们所要求的最小值。

    具体写出来,目标函数变成了:


关于SVM一篇比较全介绍的博文

    这里用关于SVM一篇比较全介绍的博文表示这个问题的最优值,且和最初的问题是等价的。如果直接求解,那么一上来便得面对w和b两个参数,而关于SVM一篇比较全介绍的博文又是不等式约束,这个求解过程不好做。不妨把最小和最大的位置交换一下,变成:


关于SVM一篇比较全介绍的博文

    交换以后的新问题是原始问题的对偶问题,这个新问题的最优值用关于SVM一篇比较全介绍的博文来表示。而且有关于SVM一篇比较全介绍的博文关于SVM一篇比较全介绍的博文,在满足某些条件的情况下,这两者相等,这个时候就可以通过求解对偶问题来间接地求解原始问题。


    换言之,之所以从minmax的原始问题关于SVM一篇比较全介绍的博文,转化为maxmin的对偶问题关于SVM一篇比较全介绍的博文,一者因为关于SVM一篇比较全介绍的博文关于SVM一篇比较全介绍的博文的近似解,二者,转化为对偶问题后,更容易求解。

    下面可以先求L 对w、b的极小,再求L 对关于SVM一篇比较全介绍的博文的极大。

2.1.2、KKT条件

    上文中提到“关于SVM一篇比较全介绍的博文关于SVM一篇比较全介绍的博文在满足某些条件的情况下,两者等价”,这所谓的“满足某些条件”就是要满足KKT条件。

    一般地,一个最优化数学模型能够表示成下列标准形式:


关于SVM一篇比较全介绍的博文


    其中,f(x)是需要最小化的函数,h(x)是等式约束,g(x)是不等式约束,p和q分别为等式约束和不等式约束的数量。

    同时,得明白以下两点:


  • 凸优化的概念:关于SVM一篇比较全介绍的博文 为一凸集, 关于SVM一篇比较全介绍的博文 为一凸函数。凸优化就是要找出一点 关于SVM一篇比较全介绍的博文,使得每一 关于SVM一篇比较全介绍的博文 满足 关于SVM一篇比较全介绍的博文 。
  • KKT条件的意义:它是一个非线性规划(Nonlinear Programming)问题能有最优化解法的必要和充分条件。

    而KKT条件就是指上面最优化数学模型的标准形式中的最小点 x* 必须满足下面的条件:


关于SVM一篇比较全介绍的博文

   

    经过论证,我们这里的问题是满足 KKT 条件的(首先已经满足Slater condition,再者f和gi也都是可微的,即L对w和b都可导),因此现在我们便转化为求解第二个问题。

    也就是说,原始问题通过满足KKT条件,已经转化成了对偶问题。而求解这个对偶学习问题,分为3个步骤:首先要让L(w,b,a) 关于 w 和 b 最小化,然后求对关于SVM一篇比较全介绍的博文的极大,最后利用SMO算法求解对偶问题中的拉格朗日乘子。

2.1.3、对偶问题求解的3个步骤

    (1)、首先固定关于SVM一篇比较全介绍的博文要让 L 关于 w 和 b 最小化,我们分别对w,b求偏导数,即令 ∂L/∂w 和 ∂L/∂b 等于零(对w求导结果的解释请看本文评论下第45楼回复):

                                                                关于SVM一篇比较全介绍的博文


    将以上结果代入之前的L,得到:


关于SVM一篇比较全介绍的博文


    从而有:



关于SVM一篇比较全介绍的博文

    提醒:有读者可能会问上述推导过程如何而来?说实话,其具体推导过程是比较复杂的,如下图所示:关于SVM一篇比较全介绍的博文

      最后,得到:


关于SVM一篇比较全介绍的博文


    如 jerrylead所说:“倒数第4步”推导到“倒数第3步”使用了线性代数的转置运算,由于ai和yi都是实数,因此转置后与自身一样。“倒数第3步”推导到“倒数第2步”使用了(a+b+c+…)(a+b+c+…)=aa+ab+ac+ba+bb+bc+…的乘法运算法则。最后一步是上一步的顺序调整。


L(

    从上面的最后一个式子,我们可以看出,此时的拉格朗日函数只包含了一个变量,那就是关于SVM一篇比较全介绍的博文(求出了关于SVM一篇比较全介绍的博文便能求出w,和b,由此可见,上文第1.2节提出来的核心问题:分类函数关于SVM一篇比较全介绍的博文也就可以轻而易举的求出来了)。

    (2)、求对关于SVM一篇比较全介绍的博文的极大,即是关于对偶问题的最优化问题。经过上面第一个步骤的求w和b,得到的拉格朗日函数式子已经没有了变量w,b,只有关于SVM一篇比较全介绍的博文。从上面的式子得到:

关于SVM一篇比较全介绍的博文
    这样,求出了关于SVM一篇比较全介绍的博文[img=0,20]file:///D:/Users/FLOYD/AppData/Local/Temp/TempPic/ISIS[%7D]AELU1H]9N1JXKYGT.tmp[/img],根据关于SVM一篇比较全介绍的博文file:///D:/Users/FLOYD/AppData/Local/Temp/TempPic/)[email protected]%7B(E](F44OFBE]@M.tmp即可求出w,然后通过关于SVM一篇比较全介绍的博文即可求出b,最终得出分离超平面和分类决策函数。

    (3)在求得L(w, b, a) 关于 w 和 b 最小化,以及对关于SVM一篇比较全介绍的博文的极大之后,最后一步便是利用SMO算法求解对偶问题中的拉格朗日乘子关于SVM一篇比较全介绍的博文


2.1.4、序列最小最优化SMO算法    关于关于SVM一篇比较全介绍的博文的求解可以用一种快速学习算法即SMO算法,这里先简要介绍下。当:

关于SVM一篇比较全介绍的博文
       上述式子要解决的是在参数关于SVM一篇比较全介绍的博文file:///C:/Users/ADMINI~1/AppData/Local/Temp/TempPic/E0TMRYVUZDXF%F%7D%7BOKK6FS2.tmp上求最大值W的问题,至于file:///C:/Users/ADMINI~1/AppData/Local/Temp/TempPic/]GR(Y%[email protected]%60HI))UUT.tmp关于SVM一篇比较全介绍的博文关于SVM一篇比较全介绍的博文file:///C:/Users/ADMINI~1/AppData/Local/Temp/TempPic/%[email protected]]D6CCL3I0~7EH.tmp都是已知数(其中 关于SVM一篇比较全介绍的博文 是一个参数,用于控制目标函数中两项(“寻找 margin 最大的超平面”和“保证数据点偏差量最小”)之间的权重。和上文最后的式子对比一下,可以看到唯一的区别就是现在 dual variable 关于SVM一篇比较全介绍的博文 多了一个上限 关于SVM一篇比较全介绍的博文 ,关于关于SVM一篇比较全介绍的博文的具体由来请查看下文第2.3节)。
    要了解这个SMO算法是如何推导的,请跳到下文第3.5节、SMO算法。
    到目前为止,我们的 SVM 还比较弱,只能处理线性的情况,下面我们将引入核函数,进而推广到非线性分类问题。
2.1.5、线性不可分的情况

    OK,为过渡到下节2.2节所介绍的核函数,让我们再来看看上述推导过程中得到的一些有趣的形式。首先就是关于我们的 hyper plane ,对于一个数据点 x 进行分类,实际上是通过把 x 带入到关于SVM一篇比较全介绍的博文算出结果然后根据其正负号来进行类别划分的。而前面的推导中我们得到


关于SVM一篇比较全介绍的博文

    因此分类函数为:

关于SVM一篇比较全介绍的博文

    这里的形式的有趣之处在于,对于新点 x的预测,只需要计算它与训练数据点的内积即可(关于SVM一篇比较全介绍的博文表示向量内积),这一点至关重要,是之后使用 Kernel 进行非线性推广的基本前提。此外,所谓 Supporting Vector 也在这里显示出来——事实上,所有非Supporting Vector 所对应的系数关于SVM一篇比较全介绍的博文都是等于零的,因此对于新点的内积计算实际上只要针对少量的“支持向量”而不是所有的训练数据即可。

    为什么非支持向量对应的关于SVM一篇比较全介绍的博文等于零呢?直观上来理解的话,就是这些“后方”的点——正如我们之前分析过的一样,对超平面是没有影响的,由于分类完全有超平面决定,所以这些无关的点并不会参与分类问题的计算,因而也就不会产生任何影响了。

    回忆一下我们2.1.1节中通过 Lagrange multiplier得到的目标函数:


关于SVM一篇比较全介绍的博文