数据挖掘面试题之SVM(粗略的笔记)

SVM引入

 
SVMSupportVectorMachine称,它的中文名支持向量机,属于一种有督的机器
算法,可用于离散因量的分连续量的预测。通常情况下,算法相于其他
一的分算法(如Logistic、决策、朴素叶斯、KNN等)会有更好的预测准确率,主要是
它可以将低维线性不可分的空间转换为线性可分空。由于算法具有高的
准确率,所以其受企界的迎,如利用算法实现疗诊断、识别、文本分、市
场营销等。
 
算法的思想就是利用某些支持向量所构成的超平面,将不同类别本点行划
分。不管本点是线性可分的、近似线性可分的是非线性可分的,都可以利用超平面
本点以高的准确度切割开来。需要注意的是,如果本点线性可分,就要借助于核函数
实现样本在核空下完成线性可分的操作。关超平面如何构造,在本章的内
容中会有所介
运用SVM模型行分预测时具有几个著的点:例如,由于SVM模型最
所形成的分于一些支持向量,致模型具有很好的棒性(增加或除非支
持向量的本点,并不会改器的效果)以及避免度灾生(模型并不会随数据
度的提升而提高算的复度);模型具有很好的泛化能力,一定程度上可以避免模型的
合;也可以避免模型在运算程中出的局部最。当然,算法的缺点也是明的,例如
模型不适合大本的分预测,因它会消耗大量的源和时间;模型缺失本非常
敏感,就需要建模前清洗好每一个观测样本;然可以通核函数解决非线性可分问题,但
是模型核函数的选择也同很敏感;SVM黑盒模型(相比于回或决策等算法),对计
算得到的果无法解
 
支持向量的概念:
训练数据集的样本点中与分离超平面距离最近的样本点的实例称为支持向量,支持向量是使约束条件使wxi+b=+-1的点。
 

函数间隔

数据挖掘面试题之SVM(粗略的笔记)

几何间隔:

将函数隔做位化理后,得到的γi就是点xi到分割面w'x+b=0的距
离,所以γi被称几何隔。

 

数据挖掘面试题之SVM(粗略的笔记)

 svm原理

求解能够正确划分训练数据集并且几何间隔最大的分离超平面。

 

1、对于线性可分数据时,通过硬间隔最大化,学习一个线性的分类器;

目标函数:

数据挖掘面试题之SVM(粗略的笔记)

 

2、对于近似线性可分数据时,通过软间隔最大化,学习一个线性的分类器,通过加松弛因子;

数据挖掘面试题之SVM(粗略的笔记)

3、对于线性不可分数据时,通过核技巧使软间隔最大化,学习一个非线性的分类器。

 

优缺点

优点:

  1. 由于SVM模型最终所形成的分于一些支持向量,致模型具有很好的棒性(增加或除非支持向量的本点,并不会改器的效果);
  2. 避免度灾生(模型并不会随数据维度的提升而提高算的复度);
  3. 模型具有很好的泛化能力,一定程度上可以避免模型的过拟合;
  4. 也可以避免模型在运算程中出的局部最
 

缺点:

  1. 计算成本高,计算速度慢,内存消耗大,
  2. 模型过程及结果难以解释,
  3. 对缺失数据敏感