04 SVM - 感知器模型

高中距离知识回顾

点到直线/平面的距离公式：

1、假定点p(x0,y0)，平面方程为f(x,y)=Ax+By+C，那么点p到平面f(x)的距离为：

04 SVM - 感知器模型

2、从三维空间扩展到多维空间中，如果存在一个超平面f(X)=θX+b; 那么某一个点X0到这个超平面的距离为:

04 SVM - 感知器模型

二范数： ||θ||₂ = √ (θ₁² + θ₂² + ... + θ_n²)

感知器算法是最古老的分类算法之一，原理比较简单，不过模型的分类泛化能力比较弱，不过感知器模型是SVM、神经网络、深度学习等算法的基础。

感知器的思想很简单：比如有很多的学员，分为男学员和女学员，感知器模型就是试图找到一条直线，能够把所有的男学员和女学员分隔开，如果是高维空间中，感知器模型寻找的就是一个超平面，能够把所有的二元类别分割开。感知器模型的前提是：__数据是线性可分的__。

04 SVM - 感知器模型

解区和余量的概念：

04 SVM - 感知器模型

对于m个样本，每个样本n维特征以及一个二元类别输出y，如下：

04 SVM - 感知器模型

目标是找到一个超平面，即：

04 SVM - 感知器模型

让一个类别的样本满足: θX>0 ；另外一个类别的满足: θX<0；__感知器模型__为：

04 SVM - 感知器模型

正确分类：yθx>0，错误分类：yθx<0；所以我们可以定义我们的损害函数为：
期望使分类错误的所有样本(m条样本)到超平面的距离之和最小。

04 SVM - 感知器模型

因为此时分子和分母中都包含了θ值，当分子扩大N倍的时候，分母也会随之扩大，也就是说分子和分母之间存在倍数关系，所以可以固定分子或者分母为1，然后求另一个即分子或者分母的倒数的最小化作为损失函数，简化后的损失函数为（分母为1）:

![文献中意思是找到一条θ的平方和=1的函数。
而我的理解是最后θ的平方和是一个定值，所以在计算损失函数的时候可以忽略不计。](https://upload-images.jianshu.io/upload_images/3153092-ca06a3a8e1955b01.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

分析公式的推导：

04 SVM - 感知器模型

使用__梯度下降法对损失函数求解__，不过由于这里的m是分类错误的样本点集合，不是固定的，所以我们不能使用批量梯度下降法(BGD)求解，只能使用随机梯度下降(SGD)或者小批量梯度下降(MBGD)；一般在感知器模型中使用SGD来求解。

04 SVM - 感知器模型

分析SGD求解感知器的步骤:

04 SVM - 感知器模型