秦刚刚的机器学习成长之路之感知机VS支持向量机

写作背景：前段时间看了李航的《统计学习与分析》这本书，受益良多。刚开始一味地以手写的形式记录下来，但是后来觉得这样既不环保也不利于随时查看，因此觉得有必要写成博客与大家分享与讨论。

1.感知机

感知机是二类分类的线性模型，其目标是求得一个能够将训练数据集正实例点和负实例点完全正确分开的分离超平面，如下图所示（L1，L2和L3都可以作为分离超平面）：

感知器模型为：
$f(x) = sign(w\cdot x + b)$

其中， $w$ 和 $b$ 为感知机模型参数， $w\in R^n$ 叫作权值或权值向量， $b\in R$ 叫作偏置， $w\cdot x$ 表示 $w$ 和 $x$ 的内积， $sign$ 是符号函数。

损失函数
基于误分类点到超平面S的总距离
$L(w,b)= -\sum_{x_i\in M} y_i(w\cdot x_i+b)$
其中， $M$ 是误分类点集合。

目标函数
$min_{w,b}\ L(w,b)= -\sum_{x_i\in M} y_i(w\cdot x_i+b)$
其中， $M$ 是误分类点集合。

学习策略（随机梯度下降法）
首先，任意选取一个超平面；然后，用梯度下降法不断极小化目标函数，在这个过程中一次随机选择一个误分类点使其梯度下降。

假设误分类点的集合 $M$ 是固定的，那么损失函数 $L(w,b)$ 的梯度由下面的式子给出：
$\ \ \ \frac{\partial L(w,b)}{\partial w} =-\sum_{x_i\in M}y_ix_i \\ \frac{\partial L(w,b)}{\partial b} =-\sum_{x_i\in M}y_i$
随机选取一个误分类点 $(x_i,y_i)$ ，对 $w,b$ 进行更新：
$\ \ \ \ \ w\leftarrow w+\eta y_ix_i\\b\leftarrow b+\eta y_i$

算法描述
输入：训练数据集 $T={\{ (x_1,y_1),(x_2,y_2),\cdots ,(x_N,y_N)\}}$ ，其中 $x_i\in\chi=R^n$ ， $y_i\in Y={\{ -1,+1\}}$ ， $i=1,2,\cdots,N$ ;学习率 $\eta(0 < \eta \leq 1)$ ;
输出： $w,b$ ；感知机模型 $f(x)=sign(w\cdot x+b)$ .
(1)选取初值 $w_0,b_0$
(2)在训练集中选取数据 $(x_i,y_i)$
(3)如果 $y_i(w\cdot x+b)\leq0$
$\ \ \ \ \ w\leftarrow w+\eta y_ix_i\\b\leftarrow b+\eta y_i$
(4)转至(2)，直至训练集中没有误分类点。