机器学习第十三章——支持向量机

优化目标

在逻辑回归中，我们的预测函数为：

机器学习第十三章——支持向量机

对于每一个样本 (x,y) 而言（注意是每一个），其代价函数为：

机器学习第十三章——支持向量机

那么当 y=1 的时候，机器学习第十三章——支持向量机，其代价函数的图像入左下图所示。

当 y=0 的时候，机器学习第十三章——支持向量机，其代价函数的图像入右下图所示。

机器学习第十三章——支持向量机

其中机器学习第十三章——支持向量机是一个常数可以去掉，因为对于代价函数求最小值，然后去参数没有影响，然后我们将带入cost（）；

对于支持向量机而言，

机器学习第十三章——支持向量机的时候：

机器学习第十三章——支持向量机

机器学习第十三章——支持向量机的时候：

机器学习第十三章——支持向量机

当 y=1 时，随着 z 取值变大，预测代价变小，因此，逻辑回归想要在面对正样本 y=1 时，获得足够高的预测精度，就希望机器学习第十三章——支持向量机。而 SVM 则将上图的曲线拉直为下图中的折线，构成了 y=1 时的代价函数曲线：

机器学习第十三章——支持向量机

当 y=1 时，为了预测精度足够高，SVM 希望机器学习第十三章——支持向量机。

同样，在 y=0 时，SVM 定义了代价函数机器学习第十三章——支持向量机，为了预测精度足够高，SVM 希望：

机器学习第十三章——支持向量机

在逻辑回归中，其代价函数是：

机器学习第十三章——支持向量机

对于逻辑回归而言，其代价函数是有两项决定的，第一项是来自训练样本的代价函数，第二项是正则化项，这就相当于我们用最小化 A 加上正则化参数机器学习第十三章——支持向量机乘以参数平方项 B，其形式大概是：。这里我们是通过设置不同的正则参数来达到优化的目的。但是在支持向量机这里，把参数提到前面，用参数 C 作为 A 的参数，以 A 作为权重。所以其形式是这样的：机器学习第十三章——支持向量机。

在逻辑回归中，我们通过正规化参数机器学习第十三章——支持向量机调节 A、B 所占的权重，且 A 的权重与取值成反比。而在 SVM 中，则通过参数 C 调节 A、B 所占的权重，且 A 的权重与 C 的取值成反比。亦即，参数 C 可以被认为是扮演了的角色。

所以机器学习第十三章——支持向量机这一项仅仅是相当于一个常量，对于最小化参数是没有完全任何影响的，所以这里我们将其去掉。

支持向量机的代价函数为：

机器学习第十三章——支持向量机

有别于逻辑回归假设函数输出的是概率，支持向量机它是直接预测 y 的值是0还是1。也就是说其假设函数是这样子的：

机器学习第十三章——支持向量机

大间距分类器

支持向量机是最后一个监督学习算法，与前面我们所学的逻辑回归和神经网络相比，支持向量机在学习复杂的非线性方程时，提供了一种更为清晰、更加强大的方式。

支持向量机也叫做大间距分类器(large margin classifiers)。

机器学习第十三章——支持向量机

假如我们有一个数据集是这样的，可以看出，这是线性可分的。但是有时候我们的决策边界就好像图中两条竖着的线一样，这样的决策边界看起来都不是特别好的选择。支持向量机就会选择斜着的那一条决策边界。这条边界相比之前跟正负样本有更大的距离，而这个距离就叫做间距（margin）。这也是为什么我们将支持向量机叫做大间距分类器的原因。

支持向量机模型的做法是，即努力将正样本和负样本用最大的间距分开，我们的目的就是要让边界线离他最近样本点的距离，也就是支持向量机的间距尽可能的大。

机器学习第十三章——支持向量机

当 y=1 时，SVM 希望机器学习第十三章——支持向量机。在 y=0 时，SVM 希望，对于前面的那一项 A 最小化代价函数，那么最理想当然是为0。所以这就变成了：

机器学习第十三章——支持向量机

参数 C 其实是支持向量机对异常点的敏感程度，C 越大就越敏感，任何异常点都会影响最终结果。 C 越小，对异常点就越不敏感，普通的一两个异常点都会被忽略。

，为正则化的参数。

↑，C↓,会受到异常数据的影响较小。

↓，C↑,会受到异常数据的影响较大。

大间隔分类器的数学原理

机器学习第十三章——支持向量机

以两个二维向量为例，我们把向量 v 投影到向量 u 上，其投影的长度为 p，机器学习第十三章——支持向量机为向量 u 的模，那么向量的内积就等于。在代数定义向量内积可表示为：，根据此定义可以得出：。

机器学习第十三章——支持向量机为的范数，也就是向量的欧几里得长度。

最小化函数为：机器学习第十三章——支持向量机

这里以简单的二维为例(也就是机器学习第十三章——支持向量机 =0，n=2)：

机器学习第十三章——支持向量机

毕达哥拉斯定理：

机器学习第十三章——支持向量机

只要能最小，最小化函数就能取到最小。

机器学习第十三章——支持向量机

当垂直的时候机器学习第十三章——支持向量机取最小值(垂直的时候，两个向量的夹角 cos 最小)。这就解释了为什么支持向量机的决策边界不会选择左图绿色那条。因为方便理解所以，这就意味着决策边界要经过原点。然后我们可以看到在垂直于决策边界的机器学习第十三章——支持向量机和的关系（红色投影和粉红色投影），可以看到其投影的值都比较小，这也就意味着要的值很大。这显然是与最小化公式矛盾的。所以支持向量机的决策边界会使在的投影尽量大。