斯坦福机器学习笔记六

支持向量机

与逻辑回归和神经网络相比，支持向量机（SVM）在学习复杂的非线性方程时会提供一种更为清晰、更为强大的方式。

1、支持向量机的代价函数

从逻辑回归的代价函数来推导支持向量机的代价函数，已知逻辑回归的代价函数如下：

J( θ )=−1m∑mi=1[y(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i)))]

由于参数 1/m 不影响代价函数大小的比较，这里只看 Cost 函数：

Cost = −(y logh θ (x)+(1−y)log(1−h θ (x)))

=−y log11+e− θ TX−(1−y)log(1−11+e− θ TX)

当y=1时，这时需要 θ TX≫0 ，Cost 函数中的第二项为 0，Cost=− log11+e− θ TX ；

当y=0时，这时需要 θ TX≪0，Cost 函数中的第一项为 0，Cost=− log(1−11+e− θ TX) 。

z= θ TX 和 Cost 函数的曲线如下：

斯坦福机器学习笔记六

图中的黑线是逻辑回归 Cost 函数的曲线，在此基础上修改曲线得到支持向量机的 Cost 函数。

如左图所示，使用两条直线来近似黑线，两条直线的拐点是z=1这一点，标记为 Cost1(z)；右图也是使用两条直线来近似黑线，两条直线的拐点是z=-1这一点,标记为 Cost0(z)，由此得到粉线是支持向量机的 Cost 函数的曲线。可以看出粉色的线与黑色的线非常类似，却更简洁，所以它可以做和逻辑回归中类似的事情，也能在计算上有很大的优势。不需要考虑粉色线函数表达形式，这里只是讲解它近似的思想。

因此我们得到支持向量机的代价函数：

minθC∑mi=1[y(i)cost1(θTx(i))+(1−y(i))cost0(θTx(i))]+12∑nj=1θ2j

这里的参数 C 没有明确的定义，可以把它考虑成 1⁄λ ，它和 1⁄λ 扮演相同的角色。因此，它的选择也和 1⁄λ 类似。当 C 值过大时，会导致过拟合的问题，使支持向量机达不到更好的效果。当 C 选值比较合适时，它可以忽略掉一些异常点的影响得到更好的决策界。甚至当数据不是线性可分的时候，支持向量机也可以给出好的结果。

和逻辑回归的输出概率不同，当最小化代价函数得到参数θ 时，支持向量机是使用θ 来直接预测y的值是1还是0。当θ^T X 大于等于0时，假设函数会预测y=1。

斯坦福机器学习笔记六