感知机

属于二分类问题，即输入向量n维向量x，输出y={-1,1}
统计学习方法——第二章：感知机
可以理解为wx+b即一个超平面，将空间分成两个子空间，如果能够将实例点正确划分为两个子空间，我们就说这个感知机是优秀的
对于点x：
在超平面上wx+b=0
正面：wx+b>0 背面：wx+b<0

数据集可分：存在某个超平面能够将正实例点和负实例点划分到超平面的两侧，则称数据集合可分
否则不可分

损失函数：

我们利用误分类集合的点到超平面的距离作为损失函数的参考量
统计学习方法——第二章：感知机
可以看到，总距离是非负的，如果总距离=0，说明没有误分点

梯度下降优化

利用梯度下降的方法进行学习，从而优化损失函数
注意，不是一次使所有误分类点梯度下降，而是一个点，所以是随机选取一个误分类点
统计学习方法——第二章：感知机
直观上解释，当一个实例点被分离到超平面错误一侧时，则每一次梯度下降就让超平面更加靠近实例点，以减少实例点到超平面的距离，当实例点越过超平面时，则被正确分类

例子：

又因为选取的点不同，所以注意，不同的点顺序，使得感知机得到的超平面不同
统计学习方法——第二章：感知机

感知机的对偶形式

统计学习方法——第二章：感知机
其中αi=ni学习率β，表示的是点i被误分类ni次，进行ni次梯度下降
所以我们得到对偶形式：

其中gram矩阵为内积矩阵，举个例子及
x1(3,3)t x2(4,3)t x3(1,1)t
gram=
对偶形式的存在意义：加快运算，因为只要提前算好gram矩阵，则在尽行带入xi求y时会很快计算y值
因为原始方法有一个wx的n维向量乘法，而对偶形式中也有xi*xj，但是可以通过查表获得

本质：其实因为αi=ni学习率β，表示的是点i被误分类ni次，进行ni次梯度下降。所以每一次点xi如果被误分类，相当于αi=niβ中的ni+1
统计学习方法——第二章：感知机

统计学习方法——第二章：感知机

感知机

损失函数：

梯度下降优化

例子：

感知机的对偶形式

相关推荐