Coursea-吴恩达-machine learning学习笔记（十二）【week 7之Support Vector Machines】

逻辑回归的代价函数如下：
$J (θ) = min_{θ} \frac{1}{m} [\sum_{i = 1}^{m} y^{(i)} (- l o g (h_{θ} (x^{(i)}))) + (1 - y^{(i)}) (- l o g (1 - h_{θ} (x^{(i)})))] + \frac{λ}{2 m} \sum_{j = 1}^{n} θ_{j}^{2}$

对于支持向量机来说：
将 $- l o g (h_{θ} (x^{(i)}))$ 替换为 $c o s t_{1} (θ^{T} x^{(i)})$ ，如下图：
Coursea-吴恩达-machine learning学习笔记（十二）【week 7之Support Vector Machines】
将 $- l o g (1 - h_{θ} (x^{(i)}))$ 替换为 $c o s t_{0} (θ^{T} x^{(i)})$ ，如下图：

去掉 $\frac{1}{m}$ 常量以及正则项的 $λ$ 参数，转而在第一项前加上 $C$ 系数，则得到支持向量机的代价函数：
$J (θ) = min_{θ} C [\sum_{i = 1}^{m} y^{(i)} c o s t_{1} (θ^{T} x^{(i)}) + (1 - y^{(i)}) c o s t_{0} (θ^{T} x^{(i)})] + \frac{1}{2} \sum_{j = 1}^{n} θ_{j}^{2}$

假设函数：

h_{θ} (x) = {\begin{cases} 1, & i f θ^{T} x ⩾ 0 \\ 0, & o t h e r w i s e \end{cases}

不同于逻辑回归输出概率，支持向量机的假设函数直接预测

y

的取值。

根据 $c o s t_{1} (θ^{T} x^{(i)})$ 及 $c o s t_{0} (θ^{T} x^{(i)})$ 的坐标图，为了最小化支持向量机(SVM)的代价函数，需满足以下条件：

{\begin{cases} i f y = 1, & t h e n w e w a n t θ^{T} x ⩾ 1 \\ i f y = 0, & t h e n w e w a n t θ^{T} x ⩽ - 1 \end{cases}

支持向量机不仅正确地区分输入的正负样本，还加入了一个安全的间距因子，因此具有鲁棒性，也称其为大间距分类器。

在支持向量机的代价函数中：

$C$ 值如果设置很大，支持向量机易受到异常点的影响；
$C$ 值如果设置很小，支持向量机会忽略异常点的影响。

设存在两个二维向量：

u = [\begin{matrix} u_{1} \\ u_{2} \end{matrix}] v = [\begin{matrix} v_{1} \\ v_{2} \end{matrix}]

则向量的内积： $u \cdot v = u^{T} * v = p * ‖ u ‖ = u_{1} * v_{1} + u_{2} * v_{2}$
$p$ 是向量 $v$ 投射到 $u$ 上的长度， $‖ u ‖$ 是向量 $u$ 的长度 $= \sqrt{u_{1}^{2} + u_{2}^{2}}$
$p$ 是带符号的，若 $u$ 与 $v$ 在坐标系内的夹角为 $θ (0 ⩽ θ ⩽ π)$ ，则 $u \cdot v = ‖ u ‖ * ‖ v ‖ * c o s θ$

当支持向量机的代价函数中， $C$ 取值较大时，为了最小化代价函数，我们会找到令 $\sum_{i = 1}^{m} y^{(i)} c o s t_{1} (θ^{T} x^{(i)}) + (1 - y^{(i)}) c o s t_{0} (θ^{T} x^{(i)})$ 为 $0$ 的最优解，则目标函数变为

min_{θ} \frac{1}{2} \sum_{j = 1}^{n} θ_{j}^{2} {\begin{cases} θ^{T} x^{(i)} ⩾ 1 & i f y = 1 \\ θ^{T} x^{(i)} ⩽ - 1 & i f y = 0 \end{cases}

进行如下简化：特征数 $n$ 设为2，令 $θ_{0} = 0$
目标函数可写作： $\frac{1}{2} (θ_{1}^{2} + θ_{2}^{2}) = \frac{1}{2} (\sqrt{θ_{1}^{2} + θ_{2}^{2}})^{2} = \frac{1}{2} ‖ θ ‖^{2}$
$θ^{T} x^{(i)} = p^{(i)} \cdot ‖ θ ‖ = θ_{1} x_{1}^{(i)} + θ_{2} x_{2}^{(i)}$
则条件变为：

{\begin{cases} p^{(i)} \cdot ‖ θ ‖ ⩾ 1 & i f y^{(i)} = 1 \\ p^{(i)} \cdot ‖ θ ‖ ⩽ - 1 & i f y^{(i)} = 0 \end{cases}

$p^{(i)}$ 为 $x^{(i)}$ 投射到 $θ$ 的长度， $θ$ 向量与分界线垂直。
由于目标函数是令 $\frac{1}{2} ‖ θ ‖^{2}$ 尽可能小，同时要满足条件

{\begin{cases} p^{(i)} \cdot ‖ θ ‖ ⩾ 1 & i f y^{(i)} = 1 \\ p^{(i)} \cdot ‖ θ ‖ ⩽ - 1 & i f y^{(i)} = 0 \end{cases}

所以 $p^{(i)}$ 应尽可能大。
这就是支持向量机(SVM)能有效产生大间距分类的原因。

$K e r n e l$ (核函数)：
Coursea-吴恩达-machine learning学习笔记（十二）【week 7之Support Vector Machines】
如上图所述，如果想拟合一条非线性的判别边界来区分正负样本，有两种方法：

方法1：
构造多项式特征变量，如果 $θ_{0} + θ_{1} x_{1} + θ_{2} x_{2} + θ_{3} x_{1} x_{2} + θ_{4} x_{1}^{2} + θ_{5} x_{2}^{2} + \dots > 0$ ，则预测 $y = 1$ 。

方法2：
只定义三个特征变量 $x_{0}, x_{1}, x_{2}$ ，其中 $x_{0} = 1$ ，可忽略，如下图所示，用 $x_{1}, x_{2}$ 作为坐标轴，手动选取三个点作为 $l^{(1)}, l^{(2)}, l^{(3)}$ ：
Coursea-吴恩达-machine learning学习笔记（十二）【week 7之Support Vector Machines】
给出样本 $x$ ，新的特征变量定义如下：

f_{1} = s i m i l a r i t y (x, l^{(1)}) = e x p (- \frac{‖ x - l^{(1)} ‖^{2}}{2 σ^{2}}) f_{2} = s i m i l a r i t y (x, l^{(2)}) = e x p (- \frac{‖ x - l^{(2)} ‖^{2}}{2 σ^{2}}) f_{3} = s i m i l a r i t y (x, l^{(3)}) = e x p (- \frac{‖ x - l^{(3)} ‖^{2}}{2 σ^{2}})

$s i m i l a r i t y$ 函数即为 $K e r n e l$ 函数，此处为高斯核函数，可用 $k (x, l^{(i)})$ 表示。
以 $f_{1}$ 为例：
$f_{1} = s i m i l a r i t y (x, l^{(1)}) = e x p (- \frac{‖ x - l^{(1)} ‖^{2}}{2 σ^{2}}) = e x p (- \frac{\sum_{j = 1}^{n} (x_{j} - l_{j}^{(1)})^{2}}{2 σ^{2}})$ ，忽略 $x_{0}$
如果 $x \approx l^{(1)}$ (即 $x$ 离 $l^{(1)}$ 很近)： $f_{1} \approx e x p (- \frac{0^{2}}{2 σ^{2}}) \approx 1$
如果 $x$ 离 $l^{(1)}$ 很远： $f_{1} \approx e x p (- \frac{(l a r g e N u m b e r)^{2}}{2 σ^{2}}) \approx 0$
之前画的每一个点对应一个新的特征变量。

本例中，假设函数为：当 $θ_{0} + θ_{1} f_{1} + θ_{2} f_{2} + θ_{3} f_{3} ⩾ 0$ 时，预测 $y = 1$
假设已得到 $θ_{0} = - 0.5, θ_{1} = 1, θ_{2} = 1, θ_{3} = 0$ ，可以发现，样本离 $l^{(1)}$ 或 $l^{(2)}$ 很近时，即 $f_{1} = 0$ 或 $f_{2} = 0$ 时， $y = 1$

如何选择 $l^{(1)}, l^{(2)}, l^{(3)} \dots$ ？
设给定 $m$ 个训练样本 $(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), \dots, (x^{(m)}, y^{(m)})$
选择 $l^{(1)} = x^{(1)}, l^{(2)} = x^{(2)}, \dots, l^{(m)} = x^{(m)}$
$f_{1} = s i m i l a r i t y (x, l^{(1)}) f_{2} = s i m i l a r i t y (x, l^{(2)}) \dots$
则特征向量 $f = [\begin{matrix} f_{1} \\ f_{2} \\ \dots \\ f_{m} \end{matrix}]$ ，可添加 $f_{0} = 1$
对于支持向量机：给定样本集 $x$ ，计算特征向量 $f \in R^{m + 1}$
如果 $θ^{T} f ⩾ 0$ ，预测 $y = 1$

如何得到 $θ$ ？
$min_{θ} C [\sum_{i = 1}^{m} y^{(i)} c o s t_{1} (θ^{T} f^{(i)}) + (1 - y^{(i)}) c o s t_{0} (θ^{T} f^{(i)})] + \frac{1}{2} \sum_{j = 1}^{n} θ_{j}^{2}$
此处 $n = m$
$\sum_{j = 1}^{n} θ_{j}^{2}$ 也可写作 $θ^{T} θ$ (忽略 $θ_{0}$ )，为了提升计算效率，改写成 $θ^{T} m θ$ ， $m$ 为样本数。
不建议自己写最小化代价函数的代码，应使用成熟软件包。

高斯核函数中 $σ$ 参数的影响：
例： $l^{(1)} = [\begin{matrix} 3 \\ 5 \end{matrix}]$ ， $f_{1} = e x p (- \frac{‖ x - l^{(1)} ‖^{2}}{2 σ^{2}})$
当 $σ^{2} = 1$ 时：
Coursea-吴恩达-machine learning学习笔记（十二）【week 7之Support Vector Machines】
$x = [\begin{matrix} 3 \\ 5 \end{matrix}]$ 时，为最高点 $f_{1} = 1$ ， $x$ 取值离该点越远， $f_{1}$ 越趋近于 $0$ 。

当 $σ^{2} = 0.5$ 时：
Coursea-吴恩达-machine learning学习笔记（十二）【week 7之Support Vector Machines】
随着 $x$ 取值远离 $l^{(1)}$ ， $f_{1}$ 取值的下降趋势加快。

当 $σ^{2} = 3$ 时：
Coursea-吴恩达-machine learning学习笔记（十二）【week 7之Support Vector Machines】
随着 $x$ 取值远离 $l^{(1)}$ ， $f_{1}$ 取值的下降趋势减缓。

使用支持向量机时，参数 $C$ 的影响：

$C$ 取值较大，低偏差，高方差。(对应 $λ$ 取值小)
$C$ 取值较小，高偏差，低方差。(对应 $λ$ 取值大)

使用支持向量机时，参数 $σ^{2}$ 的影响：

$σ^{2}$ 取值较大，特征向量 $f_{i}$ 越平滑，高偏差，低方差
$σ^{2}$ 取值较小，特征向量 $f_{i}$ 越陡峭，低偏差，高方差

使用SVM软件包求解参数 $θ$ (如： $l i b l i n e a r, l i b s v m$ )：
步骤一：选择参数 $C$
步骤二：选择核函数：

选择 $N o k e r n e l$ (也叫线性核函数)
如果 $θ^{T} x ⩾ 0$ ，预测 $y = 1$
当存在 $n$ 个特征值， $m$ 个样本， $n$ 很大， $m$ 很小，此时，适合使用线性核函数。
高斯核函数， $f_{i} = e x p (- \frac{‖ x - l^{(i)} ‖^{2}}{2 σ^{2}}), l^{(i)} = x^{(i)}$
需选择参数 $σ^{2}$
当存在 $n$ 个特征值， $m$ 个样本， $n$ 很小， $m$ 很大时，适合用高斯核函数。
如果选择高斯核函数，需要实现一个核函数：
$f u n c t i o n f = k e r n e l (x_{1}, x_{2})$
$f = e x p (- \frac{‖ x_{1} - x_{2} ‖^{2}}{2 σ^{2}})$
$r e t u r n$
其中， $f$ 代表 $f^{(i)}$ ， $x_{1}$ 代表 $x^{(i)}$ ， $x_{2}$ 代表 $l^{(j)} = x^{(j)}$
在使用高斯函数前，需要做特征归一化，避免单一特征值对 $f$ 的影响过大。
注意：不是所有的相似度函数 $s i m i l a r i t y (x, l)$ 都是有效的核函数，需要满足默塞尔定理，确保软件包可以使用大量优化方法并快速得到参数 $θ$ 。
可能会遇到的其他核函数：
1)多项式核函数： $k (x, l) = (x^{T} l + c o n s t a n t)^{d e g r e e}$ ，当 $x, l$ 都是严格非负数时使用；
2)字符串核函数：当输入为文本或其他类型字符串时使用；
3)卡方核函数；
4)直方图交叉核函数。

如果有 $k$ 个类别的话，一般使用内置函数，否则，训练 $k$ 个SVM，每个SVM将 $1$ 类与其他类区分开。

逻辑回归与SVM对比：
$n$ 为特征值数量， $m$ 为训练样本数

如果相对于 $m$ ， $n$ 很大(如 $n = 10000, m = 10 \sim 1000$ )
使用逻辑回归，或SVM使用线性核函数；
如果 $n$ 很小， $m$ 中等大小(如 $n = 1 \sim 1000, m = 10 \sim 10000$ )
选择SVM使用高斯核函数；
如果 $n$ 很小， $m$ 很大(如 $n = 1 \sim 1000, m = 50000 +$ )
增加更多特征值，使用逻辑回归或SVM不带核函数。

对于所有情况，一个设计的很好的神经网络可能会非常有效，但训练起来很慢。

SVM优化函数是凸函数，总能找到全局最小值，或接近它的值。

Coursea-吴恩达-machine learning学习笔记（十二）【week 7之Support Vector Machines】

相关推荐