统计学习方法——第二章:感知机

感知机

属于二分类问题, 即输入向量n维向量x,输出y={-1,1}
统计学习方法——第二章:感知机
可以理解为wx+b即一个超平面,将空间分成两个子空间,如果能够将实例点正确划分为两个子空间,我们就说这个感知机是优秀的
对于点x:
在超平面上w
x+b=0
正面:wx+b>0 背面:wx+b<0
统计学习方法——第二章:感知机
数据集可分:存在某个超平面能够将正实例点和负实例点划分到超平面的两侧,则称数据集合可分
否则不可分

损失函数:

我们利用误分类集合的点到超平面的距离作为损失函数的参考量
统计学习方法——第二章:感知机
可以看到,总距离是非负的,如果总距离=0,说明没有误分点

梯度下降优化

利用梯度下降的方法进行学习,从而优化损失函数
注意,不是一次使所有误分类点梯度下降,而是一个点,所以是随机选取一个误分类点
统计学习方法——第二章:感知机
直观上解释,当一个实例点被分离到超平面错误一侧时,则每一次梯度下降就让超平面更加靠近实例点,以减少实例点到超平面的距离,当实例点越过超平面时,则被正确分类

例子:

又因为选取的点不同,所以注意,不同的点顺序,使得感知机得到的超平面不同
统计学习方法——第二章:感知机
统计学习方法——第二章:感知机

感知机的对偶形式

统计学习方法——第二章:感知机
其中αi=ni学习率β,表示的是点i被误分类ni次,进行ni次梯度下降
所以我们得到对偶形式:
统计学习方法——第二章:感知机
其中gram矩阵为内积矩阵,举个例子及
x1(3,3)t x2(4,3)t x3(1,1)t
gram=统计学习方法——第二章:感知机
对偶形式的存在意义:加快运算,因为只要提前算好gram矩阵,则在尽行带入xi求y时会很快计算y值
因为原始方法有一个w
x的n维向量乘法,而对偶形式中也有xi*xj,但是可以通过查表获得

本质:其实因为αi=ni学习率β,表示的是点i被误分类ni次,进行ni次梯度下降。所以每一次点xi如果被误分类,相当于αi=niβ中的ni+1
统计学习方法——第二章:感知机