04 SVM - 感知器模型
高中距离知识回顾
点到直线/平面的距离公式:
1、假定点p(x0,y0),平面方程为f(x,y)=Ax+By+C,那么点p到平面f(x)的距离为:
2、从三维空间扩展到多维空间中,如果存在一个超平面f(X)=θX+b; 那么某一个点X0到这个超平面的距离为:
二范数: ||θ||2 = √ (θ12 + θ22 + ... + θn2)
参考文献:https://wenku.baidu.com/view/d26d2ba39e31433239689374.html
感知器模型
感知器算法是最古老的分类算法之一,原理比较简单,不过模型的分类泛化能力比较弱,不过感知器模型是SVM、神经网络、深度学习等算法的基础。
感知器的思想很简单:比如有很多的学员,分为男学员和女学员,感知器模型就是试图找到一条直线,能够把所有的男学员和女学员分隔开,如果是高维空间中,感知器模型寻找的就是一个超平面,能够把所有的二元类别分割开。感知器模型的前提是:__数据是线性可分的__。
解区 和 余量 的概念:
对于m个样本,每个样本n维特征以及一个二元类别输出y,如下:
目标是找到一个超平面,即:
让一个类别的样本满足: θX>0 ;另外一个类别的满足: θX<0;__感知器模型__为:
正确分类:yθx>0,错误分类:yθx<0;所以我们可以定义我们的损害函数为:
期望使分类错误的所有样本(m条样本)到超平面的距离之和最小。
因为此时分子和分母中都包含了θ值,当分子扩大N倍的时候,分母也会随之扩大,也就是说分子和分母之间存在倍数关系,所以可以固定分子或者分母为1,然后求另一个即分子或者分母的倒数的最小化作为损失函数,简化后的损失函数为(分母为1):

分析公式的推导:
使用__梯度下降法对损失函数求解__,不过由于这里的m是分类错误的样本点集合,不是固定的,所以我们不能使用批量梯度下降法(BGD)求解,只能使用随机梯度下降(SGD)或者小批量梯度下降(MBGD);一般在感知器模型中使用SGD来求解。
分析SGD求解感知器的步骤: