从线性到非线性模型
1、线性回归,岭回归,Lasso回归,局部加权线性回归
2、logistic回归,softmax回归,最大熵模型
3、广义线性模型
4、Fisher线性判别和线性感知机
5、三层神经网络
6、支持向量机
六、支持向量机
在线性模型中,Fisher线性判别和线性感知机可以说是以上所有模型的分类依据,前者是映射到一维执其两端进行分类,后者是在高维空间找一个线性超平面将两类分开(两类可扩展到多类)。支持向量机属于后者,但主要有以下几点改进:
1)提出硬间隔线性可分,在感知机的基础上提出了线性可分假设(无损失),最大化最小间隔
2)提出软间隔线性可分,得到了hinge损失代替感知机的线性损失(后面补充一个线性模型损失对比图)
3)结合核函数将数据映射到高维空间,使得模型具有非线性能力
4)具有感知机的一切解释性,同时目标函数的对偶形式是凸二次规划问题

硬间隔(最大化最小间隔分类器):
线性感知机中由于没有线性可分假设,所以其目标函数定义为最小化错分样本的损失,而硬间隔SVM则提出了一个线性可分假设,即样本在高维空间中线性可分,那么使得两类分开的超平面一定有无限个。硬间隔SVM则在这些超平面中找出最优的(即所有样本到超平面距离加和最小化),所以有如下目标函数:
min∑i=1m1||w||2yi(w⋅xi+b)
其中
1||w||2yi(w⋅xi+b)为点到平面的几何间隔,去掉系数为函数间隔。最大化最小间隔分类器则采用等价形式—使得最难分的样本离超平面距离尽可能的大—最大化最小间隔分类器
maxw,bγs.t.1||w||2yi(w⋅xi+b)>γ,i∈1,2...m
maxw,bγ||w||2s.t.yi(w⋅xi+b)>γ,i∈1,2...m
令γ=1有:
minw,b12||w||2s.t.yi(w⋅xi+b)−1>0,i∈1,2...m
到此,上式为硬间隔分类器的原问题最终形式。上述问题可使用拉格朗日乘子法和对偶问题进行求解。
拉格朗日函数
minw,b12||w||2−∑i=1mαi(yi(w⋅xi+b)−1)s.t.▽L(w,b,αi)=0αi(yi(w⋅xi+b)−1)=0αi≥0yi(w⋅xi+b)−1>0,i∈1,2...m
其中
▽L(w,b,αi)=0由Fritz John条件得出,
αi(yi(w⋅xi+b)−1)=0为互补松弛条件,互补松弛条件与支持向量有密切关系。由上述约束条件有:
▽L(w,b,αi)w=w−∑i=1mαiyixi=0▽L(w,b,αi)b=∑i=1mαiyi=0b=yj−∑i=1mαiyixi⋅xj
将上式带入到拉格朗日函数,得到关于
α表示的函数:
L(w,b,α)=−12∑i=1m∑j=1mαiαjyjyjxixj+∑i=1mαi
最大化关于
α的函数即为原问题的对偶问题,如下:
maxL(w,b,α)=−12∑i=1m∑j=1mαiαjyjyjxixj+∑i=1mαi⇔min12∑i=1m∑j=1mαiαjyjyjxixj−∑i=1mαis.t.∑i=1mαiyi=0αi≥0
解出上式目标函数
α后,有
w,b w=∑i=1mαiyixib=yj−∑i=1mαiyixi⋅xj
其中可以看出,w和b有样本点与
α內积确定。
但是回过头来想,线性可分假设是不现实,所以SVM在硬间隔线性可分的基础上提出软间隔线性可分。即允许线性不可分,但是需要进行一定的惩罚。如下图为软间隔线性可分,其中在支持向量里面的点和错分的样本为线性不可分的点,虚线上的点为支持向量。

软间隔SVM:
线性不可分意味着某些样本不满足函数间隔大于1的约束条件,为了解决这个问题,可以对每个样本引入一个松弛变量ξi≥0,使得函数间隔加上松弛变量大于等于1,这样约束条件变为:
yi(w⋅xi+b)>1−ξi,i∈1,2..m
同时对于线性不可分的样本进行惩罚,因此目标函数变为:
minw,b12||w||+C∑i=1mξi
因此最终的线性不可分SVM的目标函数如下:
minw,b12||w||+C∑i=1mξis.t.yi(w⋅xi+b)>1−ξi,i∈1,2..mξi≥0,i∈1,2..m
拉格朗日函数
minw,b12||w||2+C∑i=1mξi−∑i=1mαi(yi(w⋅xi+b)−1+ξi)−∑i=1mβiξis.t.▽L(w,b,ξi,αi,βi)=0αi(yi(w⋅xi+b)−1+ξi)=0βiξi=0αi≥0βi≥0yi(w⋅xi+b)−1≥0,i∈1,2...mξi≥0,i∈1,2..m
由上述约束条件有:
▽L(w,b,αi)w=w−∑i=1mαiyixi=0▽L(w,b,αi)b=∑i=1mαiyi=0▽L(w,b,αi)ξi=C−αi−βi=0b=yj−∑i=1mαiyixi⋅xj
将上式带入到拉格朗日函数,得到目标函数关于
α,β表示的函数,同硬间隔的对偶函数一致:
L(w,b,α)=−12∑i=1m∑j=1mαiαjyjyjxixj+∑i=1mαi
最大化关于
α的函数即为原问题的对偶问题,而对偶问题为原问题提供一个下界,即原问题的对偶问题如下:
maxL(w,b,α)=−12∑i=1m∑j=1mαiαjyjyjxixj+∑i=1mαi⇔min12∑i=1m∑j=1mαiαjyjyjxixj−∑i=1mαis.t.∑i=1mαiyi=0C−αi−βi=0αi≥0βi≥0⇔min12∑i=1m∑j=1mαiαjyjyjxixj−∑i=1mαis.t.∑i=1mαiyi=00≤αi≤C
解出上式目标函数
α,β后,有
w,b w=∑i=1mαiyixib=yj−∑i=1mαiyixi⋅xj
可以看出,w和b由样本点与
α內积确定,当
αi=0表示 第i个样本点满足
yi(w⋅xi+b)−1≥0条件,该点不在支持向量内部,w与该点无关,支持向量机的参数
w只与支持向量以内的点有关。
对比硬间隔和软间隔SVM发现两者的对偶问题非常相似,唯一不同的在于0≤α,0≤α≤C,也就是说在约束条件上不能让α值太大。而α不为0的意义就是该点线性不可分—在支持向量以内,不能让α太大的意义就是尽可能的不要让样本在支持向量太里面。这也就是惩罚项引入后的结果。
下面根据α,β的取值来分析样本点的一个位置,以及样本点对SVM参数的影响:
当αi=0,则βi=C,ξi=0,表示样本点在支持向量上或者以外的,以外的点对参数w无价值
当0<αi<C,则0<βi<C,ξi=0,表示样本点在支持向量上
当αi=C,则0=βi,如果0<ξi<1,表示样本在支持向量内部,但分类正确
当αi=C,则0=βi,如果ξi=1,表示样本在超平面上
当αi=C,则0=βi,如果ξi>1,表示样本分类错误
核函数:
核函数的应用主要是解决线性不可分问题,通过选择合适的核函数将样本从低维线性不可分映射到高维之后容易线性可分,本质上是一次空间上的非线性变换(特征映射),核函数可以嫁接到很多线性模型上,使其具有非线性能力,只是核函数的选择是一件难定的事。
而SVM与核函数有着天然的契合度,因为在SVM的对偶问题中,需要计算样本之间的內积,而核函数的引入则可以使得內积操作直接在核函数中隐式完成。
L(w,b,α)=−12∑i=1m∑j=1mαiαjyjyjxi⋅xj+∑i=1mαi
在上式中有
xi⋅xj內积操作,当我们使用核技巧时,往往需要定义一个核函数
ϕ(x)进行特征空间变换,然后在新的特征空间中进行
ϕ(xi)⋅ϕ(xj)內积操作,这使得计算过程分两步完成。如果我们隐式的定义核函数如下:
K(xi,xj)=ϕ(xi)⋅ϕ(xj)
L(w,b,α)=−12∑i=1m∑j=1mαiαjyjyjK(xi,xj)+∑i=1mαi
直接定义K(xi,xj)作为核函数,而不管实际的核函数ϕ(x)是如何将x映射到ϕ(x)空间,然后在新的特征空间计算內积。这样,我们就隐式完成了內积操作,将核函数与內积操作一步完成为K(xi,xj)。当然,核函数必须满足核函数的性质。
一般常采用的核函数有:
线性核 K(xi,xj)=xTixj
多项式核 K(xi,xj)=(xTixj)d
高斯核K(xi,xj)=exp(−(xi−xj)22σ2)
拉普拉斯核K(xi,xj)=exp(−||xi−xj||2σ2)
sigmoid核K(xi,xj)=tanh(βxTixj+θ)
然而核技巧中,最盲目的是如何选择合适核函数,或者多核。
这里需要解释的是,SVM对核函数有一个自身的要求,核的大小一定是m2。因为SVM在做內积时是所有点彼此做內积,所以复杂度是m2。这也是SVM难以适应大规模数据的场景,SVM的复杂度m2d体现在內积上,带核的SVM的复杂度体现在核函数的计算上。而这不是核函数的特点,核函数中核的大小是自定义的。
SMO优化算法
min12∑i=1m∑j=1mαiαjyjyjxixj−∑i=1mαis.t.∑i=1mαiyi=00≤αi≤C
SVM优化问题是一个典型的带约束凸二次规划,传统的梯度方法不能直接应用于带约束优化问题,下面先介绍一种坐标上升优化算法,算法的思想是对于多个参数的优化求解问题,可以每次只考虑一个变量,而固定其他所有变量,对一个变量进行目标优化,内循环每一个变量进行优化,外循环直到迭代到收敛。其收敛性类似于EM算法。

因为内层循环每次只改变一个变量,所以坐标上升算法的搜索路径与坐标轴平行

然而,如果每次只改变一个变量来优化SVM,那么必然不满足∑mi=1αiyi=0约束。所以SMO算法在坐标上升算法基础上又以下两点改进:
1)为了满足∑mi=1αiyi=0约束,每次迭代优化选择两个变量,其中一个主动变量,另一个被动变量
2)在选择两个变量进行优化时,采用启发式搜索策略,主动变量选择违反KKT条件最严重的一个变量α1,在选定α1后,被动变量α2选择变化范围最大的,在优化α1和α2时使用上下剪辑来使得α1和α2满足0≤αi≤C约束
现在来看SMO算法,固定m-2个变量不变,将目标函数转化为关于α1和α2的函数:
min12∑i=1m∑j=1mαiαjyjyjK(xi,xj)−∑i=1mαiminW(α1,α2)=12α21K11+12α22K22+y1y2α1α2K12+y1α1∑i=3myiαiKi1+y2α2∑i=3myiαiKi2−(α1+α2)s.t.α1y1+α2y2=−∑i=3mαiyi=ς0≤αi≤C
其中
Kij=K(xi,xj)。
为了求解两个变量的二次规划问题,首先我们分析约束条件,可以看出α1和α2的可行域是盒子内的一条对角线上,其中盒子由不等式确定,对角线由等式确定,而且由于y1和y2的不确定性导致存在两种情况:

至于对角线的位置取决于当前α1和α2的值。由于优化过程中,我们首先优化的是α2,而后由等式约束确定α1,所以我们分析α2的变化范围:
当y1≠y2时: L=max(0,α2−α1),H=min(C,C+α2−α1)
当y1=y2时: L=max(0,α2+α1−C),H=min(C,α2+α1)
其中L是为了保证α2的变化不会让α1<0,H是为了保证α2的变化不会让α1>C。
同样,由于我们首先优化的是α2,所以我们采用α2来表示α1:
α1=(ς−α2y2)y1,代入minW(α1,α2)有(省略了推导步骤):
W(α2)=aα22+bα2+c
求导后得到:
▽W(α2)α2=y2(((g(x2)−y2)−(g(x1)−y1)))(K11+K22−2K12)
记
Ei=g(xi)−yi,
η=(K11+K22−2K12)有:
▽W(α2)α2=y2(E2−E1)η
所以:
αunew2=αold2+y2(E1−E2)η
回到上下剪辑,最终
α2的更新值为:
αnew2=⎧⎩⎨⎪⎪H,αunew2>Hαunew2,L≤αunew2≤HL,αunew2<L
再由
∑mi=1αiyi=0得:
αnew1=αold1+y1y2(αold2−αnew2)
最后更新b,由KKT条件当
0≤αj≤C时,有
b=yj−∑mi=1αiyiKij
当0≤α1≤C时:
bnew=y1−∑i=1mαiyiKi1+αold1y1K11+αold2y2K21−αnew1y1K11−αnew2y2K21=−E1−y1K11(αnew1−αold1)−y2K21(αnew2−αold2)+bold
同样,当
0≤α2≤C时:
b由
α2来确定。
如果两者同时满足条件时,那么两者确定的b是一致的,如果等式取到的话,说明点在支持向量上或者以内,此时b取两者之间。
下面来看SMO的启发式搜索策略:
1)主动变量选择违反KKT条件最严重的点,即优先判断支持向量上的点是否满足KKT条件,其次检验整个训练样本是否满足KKT条件
由上面对α与样本点位置的分析可得到如下关系:
αi=0⇔yigi≥10≤αi≤C⇔yigi=1αi=C⇔yigi≤1
由上面关系,可以知道哪些点在支持向量上,哪些点在支持向量外,哪些点在支持向量内,优先选择支持向量上的点来判断是否违反KKT条件,因为这些点是违反KKT条件最严重的点,也是对超平面最有价值的点。
2)被动变量选择在给定主动变量后,被动变量随之变化范围最大的点,由于前面导出αunew2=αold2+y2(E1−E2)η所以被动变量选择依赖于 |E1−E2|的大小,选择最大的,加速计算速度。
3)值得注意的是,每次迭代更新αnew1和αnew2之后,需要更新Enew1和Enew2。
支持向量机回归
支持向量机回归利用的就是Hinge损失来定义目标函数,同样是线性模型hθ(x)=θTx,由Hinge损失定义如下目标函数:
minθC∑i=1mLϵ(hθ(xi)−yi)+λ||w||2
其中
Lϵ(z)={0,|z|≤ϵ|z|−ϵ,other,可以看出支持向量机回归其实就是借用Hinge损失,而其理论解释值得思考。
损失函数加正则项的一般理解
机器学习模型中,绝大多数的模型可以理解损失函数加正则项的形式,本文从线性到非线模型中提到的所有模型都可以理解为损失函数加正则项:
argminwL(w)+λΩ(w)s.t.
其中正则项主要包括 0范数 1范数 2范数,损失函数主要包括以下
平方损失 L(z)=(y−θTx)2 线性回归
线性损失 L(z)=y−θTx 线性感知机
对数损失 L(z)=log(1+exp(−z)) Logistic回归,softmax回归,
Hinge损失L(z)=max(0,1−z),支持向量机
指数损失L(z)=exp(−z),Adaboost

红:0-1损失,蓝:线性损失,绿:Hinge损失,紫虚:对数损失,青虚:指数损失
如何选择合适的损失函数加正则项是模型选择的一个依据,损失函数的选择依赖于数据的分布,而且不同的模型都有各自的特点,在选择模型时很难说那个模型优于其他模型,需要综合各方面因素选择。
总结:
矩阵运算补充
正则项-范数
拉格让日乘子法与对偶问题补充
拉格朗日乘子法通过引入松弛变量得到目标函数局部最优解的必要条件
拉格朗日乘子法的一般形式:
minxf(x)s.t.gi(x)≥0hj(x)=0
引入松弛变量
w,v也称拉格朗日乘子,朗格朗日函数如下:
minL(x,w,v)=f(x)−wigi(x)−vjhj(x)
如果
x¯是目标函数的局部最优解,那么
x¯的一阶必要条件如下:
▽L(x,w,v)=0wigi(x)=0wi≥0gi(x)≥0hj(x)=0
其中
wigi(x)=0为互补松弛条件,梯度为0条件由Frizt John条件得到。
一般来讲,到拉格朗日乘子法之后我们还不能解出目标函数的局部最优解,因为目标函数还是一个引入松弛变量的带约束优化问题。不过我们可以通过分析拉格朗日函数的局部最优解来得到其对偶问题。
在给定x时,对L(x,w,v)求极大值时,当x不满足所有必要条件时,那么必然导致L(x,w,v)无最大值,当且仅当x满足所有必要条件时L(x,w,v)有极大值,且极大值为f(x)
L={f(x),x满足必要条件−∞,否则
所以,所有约束条件的等价条件是
L(x,w,v)存在极大值,所以原问题就变成了一个极小极大问题
minxL(x,w,v)(s.t.)=minxmaxw,vL(x,w,v)
定义一个对偶问题,即定义一个用
w,v变量来表示的目标函数:
θD(w,v)=minxL(x,w,v)
最大化
θD(w,v)即为原问题的对偶问题,下面证明对偶问题为原问题提供下界:
maxx,v,wi>0θD(w,v)=maxw,v,wi>0minxL(x,w,v)
又因为:
maxx,v,wi>0minxL(x,w,v)≤minxmaxw,vL(x,w,v)
所以对偶问题为原问题提供下界。