统计学习方法——第二章:感知机
感知机
属于二分类问题, 即输入向量n维向量x,输出y={-1,1}
可以理解为wx+b即一个超平面,将空间分成两个子空间,如果能够将实例点正确划分为两个子空间,我们就说这个感知机是优秀的
对于点x:
在超平面上wx+b=0
正面:wx+b>0 背面:wx+b<0
数据集可分:存在某个超平面能够将正实例点和负实例点划分到超平面的两侧,则称数据集合可分
否则不可分
损失函数:
我们利用误分类集合的点到超平面的距离作为损失函数的参考量
可以看到,总距离是非负的,如果总距离=0,说明没有误分点
梯度下降优化
利用梯度下降的方法进行学习,从而优化损失函数
注意,不是一次使所有误分类点梯度下降,而是一个点,所以是随机选取一个误分类点
直观上解释,当一个实例点被分离到超平面错误一侧时,则每一次梯度下降就让超平面更加靠近实例点,以减少实例点到超平面的距离,当实例点越过超平面时,则被正确分类
例子:
又因为选取的点不同,所以注意,不同的点顺序,使得感知机得到的超平面不同
感知机的对偶形式
其中αi=ni学习率β,表示的是点i被误分类ni次,进行ni次梯度下降
所以我们得到对偶形式:
其中gram矩阵为内积矩阵,举个例子及
x1(3,3)t x2(4,3)t x3(1,1)t
gram=
对偶形式的存在意义:加快运算,因为只要提前算好gram矩阵,则在尽行带入xi求y时会很快计算y值
因为原始方法有一个wx的n维向量乘法,而对偶形式中也有xi*xj,但是可以通过查表获得
本质:其实因为αi=ni学习率β,表示的是点i被误分类ni次,进行ni次梯度下降。所以每一次点xi如果被误分类,相当于αi=niβ中的ni+1