线性可分支持向量机学习笔记

假设一个特征空间上的训练数据集T=(x1,y1),(x2,y2),,(xN,yN)T={(x_1, y_1), (x_2, y_2), …, (x_N, y_N)},其中xiRn,yi{+1,1},i=1,2,,Nx_i∈\R^n, y_i∈\{+1, -1\}, i = 1,2,…, Nxix_i为第ii个特征向量,也称为实例,yiy_ixix_i的类标记。学习目标是在特征空间中赵找到一个分离超平面,能将实例分到不同的类。

线性可分支持向量机的定义:

给定线性可分训练数据集,通过间隔最大化或等价地求解相应的凸二次规划问题学习得到的分离超平面为wx+b=0w^*·x + b^* =0以及相应的分类决策函数f(x)=sign(wx+b)f(x)=sign(w^*·x + b^*)称为线性可分支持向量机

函数间隔定义如下:
对于给定的训练数据集T和超平面(w,b)(w, b),定义超平面(w,b)(w, b)关于样本点(xi,yi)(x_i, y_i)的函数间隔为γ^i=yi(wxi+b)\hat\gamma_i = y_i(w·x_i + b) 定义超平面(w,b)(w, b)关于训练数据集T的函数间隔为超平面(w,b)(w, b)关于TT中所有样本点(xi,yi)(x_i, y_i)的函数间隔最小值,即γ^=mini=1,,Nγ^i\hat\gamma = \min_{i=1,…, N} \hat\gamma_i

几何间隔定义

对于给定的训练数据集T和超平面(w,b)(w, b),定义超平面(w,b)(w, b)关于样本点(xi,yi)(x_i, y_i)的几何间隔为γ^i=yi(wwxi+bw)\hat\gamma_i = y_i(\frac{w}{||w||}·x_i + \frac{b}{||w||}) ,定义超平面(w,b)(w, b)关于训练数据集T的几何间隔为超平面(w,b)(w, b)关于TT中所有样本点(xi,yi)(x_i, y_i)的函数间隔最小值,即γ^=mini=1,,Nγ^i\hat\gamma = \min_{i=1,…, N} \hat\gamma_i
w=1||w||=1,函数间隔和几何间隔相等。

间隔最大化

输入:线性可分训练数据集T=(x1,y1),(x2,y2),,(xN,yN)T={(x_1, y_1), (x_2, y_2), …, (x_N, y_N)},其中xiRn,yi{+1,1},i=1,2,,Nx_i∈\R^n, y_i∈\{+1, -1\}, i = 1,2,…, N
输出:最大间隔分离超平面和分类决策函数

  • 构造并求解约束最优化问题:minw,b   12w2                                                   \min_{w,b} \ \ \ \frac{1}{2}||w||^2\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ s.t.   yi(wxi+b)10, i=1,2,,Ns.t. \ \ \ y_i(w`x_i+b)-1≥0, \ i=1,2,…,N
  • 得到分离超平面:wx+b=0w^*·x + b^* =0分类决策函数f(x)=sign(wx+b)f(x)=sign(w^*·x + b^*)

最大间隔分离超平面的存在唯一性

训练数据集线性可分,这是有许多的分离超平面能将数据正确划分,但是最大间隔分离超平面则是唯一的
线性可分支持向量机学习笔记

待补充

……

参考文献

李航 统计学习方法
Sebastian Raschka,Python Machine Learning Second Edition