机器学习笔记-Nonlinear Transformation

0 - 写在前面

本系列共四篇，为林轩田机器学习基础篇学习笔记。主要内容可以总结概括为：线性模型通过非线性的变换可以得到非线性的模型，增强了模型对数据的拟合能力，但这样导致了在机器学习领域中一个很常见的问题，过拟合。为了解决这个问题引入了正则化因子(规则化因子)。而为了解决正则化因子的选择，模型的选择以及超参数的选择等问题引入了 $v a l i d a t i o n$ 的相关方法。

1 - Quadratic Hypothesis

之前介绍的模型是线性的，将所有的特征做一个加权和。现在我们要将这些 $m o d e l$ 延伸成更复杂的方法，使用非线性的方式来做数据的分类。

线性分类器：模型是参数的线性函数，并且存在线性分类面，那么就是线性分类器。
$l o g i s t i c r e g r e s s i o n$ 属于线性模型还是非线性模型？
属于线性模型，因为 $l o g i s t i c r e g r e s s i o n$ 的决策边界是线性的。证明如下：

\begin{matrix} (22) & P (Y = 1 | x, w) = P (Y = 0 | x, w) \frac{1}{1 + e x p (- w^{T} x)} = \frac{e x p (- w^{T} x)}{1 + e x p (- w^{T} x)} 1 = e x p (- w^{T} x) w^{T} x = 0 \end{matrix}

–知乎
或者可以简单的理解为逻辑斯蒂回归是将普通的线性模型的结果映射到一个(0， 1)的区间，然后划分一个界限(0.5)。
–知乎

线性模型的复杂度是受到控制的，这是线性模型的好处之一，因为这样可以确保 $E_{i n}$ (训练集误差)和 $E_{o u t}$ (测试集误差)不会相差太远。但是缺点就是对于如下左图中的样本点，任一个线性分类器都无法完美的划分 $\times$ 和 $◯$ 。怎么突破线性模型的这个限制呢？也就是说，我们不再限制在使用“线”的方式，而是拓展一下使用其他的方式来解决这个二分类问题？

直观上来看，如下的数据虽然不是线性可分的，但是是“圆圈”可分的。也就是说当使用函数： $h_{s e p} (x) = s i g n (- x_{1}^{2} - x_{2}^{2} + 0.6)$ 时可以正确的划分 $\times$ 和 $◯$ 。这个函数是一个以原点为中心 $r^{2} = 0.6$ 的圆。

本节的目的是探讨如何系统化的设计算法使得原来的线性模型可以用于非线性可分的数据的分类。因为我们之前已经学到了一些针对分类的方法，例如 $P L A$ 算法， $p o c k e t$ 算法， $l i n e a r r e g r e s s i o n$ 算法， $l o g i s t i c r e g r e s s i o n$ 算法，如何可以不更改这些算法本身而能应用于非线性可分的数据是我们关心的问题。

面对上图这样的数据，我们怎么可以得到一个“圆”形，而不再是一条线状的分类器呢？

对上面我们得到的分类函数 $h_{s e p} (x)$ 进行一些变量的重新定义和命名：

\begin{aligned} (23) & h (x) & = s i g n (\underset{\tilde{w_{0}}}{\underset{⏟}{0.6}} \cdot \underset{z_{0}}{\underset{⏟}{1}} + \underset{\tilde{w_{1}}}{\underset{⏟}{(- 1)}} \cdot \underset{z_{1}}{\underset{⏟}{x_{1}^{2}}} + \underset{\tilde{w_{2}}}{\underset{⏟}{(- 1)}} \cdot \underset{z_{2}}{\underset{⏟}{x_{2}^{2}}}) \\ (1) & = s i g n ({\tilde{w}}^{T} z) \end{aligned}

经过这样简单的重新命名我们发现线性的模型的形式又出现了，这样的“重命名”的过程其实是我们将所有的 $X$ 空间中的点通过多项式转换 $Φ$ 映射到了一个新的空间中，我们称之为 $Z$ 空间。其中 $Φ$

Φ = {\begin{cases} z_{0} & = 1 \\ z_{1} & = x_{1}^{2} \\ z_{2} & = x_{2}^{2} \end{cases}

而式子（1）告诉我们在 $Z$ 空间中可以通过线性的模型 $s i g n (w^{T} x)$ 正确的划分 $\times$ 和 $◯$ 。线性模型我们在之前学过，这样我们面对的问题就变成了 $Z$ 空间中可用线性模型解决的问题，只不过变量多了一点而已。
在得到了和 $\tilde{w}$ 相关的一个线性分类器之后，再对应到 $X$ 空间，就得到了一个可以正确的划分 $\times$ 和 $◯$ 的圆形的分类边界。这样我们就可以使用一个“圆”而不再是一条“线”对数据分类，并且这个“圆”是使用线性模型做到的。

上述的那个重命名的过程，即数据从 $X$ 空间到 $Z$ 空间的过程称为特征转换( $f e a t u r e t r a n s f o r m$ )。所以当经过这样的转换之后我们就可以在 $Z$ 空间中使用我们熟悉的线性模型 $P L A$ ， $p o c k e t$ ， $l i n e a r r e g r e s s i o n$ ， $l o g i s t i c r e g r e s s i o n$ 来对数据进行分类。

$(z_{0}, z_{1}, z_{2}) = z = Φ (x) = (1, x_{1}^{2}, x_{2}^{2})$
$h (x) = \tilde{h} (z) = s i g n ({\tilde{w}}^{T} Φ (x)) = s i g n (\tilde{w_{0}} + \tilde{w_{1}} x_{1}^{2} + \tilde{w_{0}} x_{2}^{2})$

如果在 $X$ 空间中可以使用“圆圈”划分数据，在经过了转换之后，在 $Z$ 空间中就线性划分。这是（1）式告诉我我们的。反过来呢？如果新的资料可以使用一条线划分开，那么原来的资料一定可以使用圆划分开吗？通过下表可以看出，在 $Z$ 空间中的不同的线，对应回 $Z$ 空间可能是各式各样不同的曲线，所以把这些线对应回来之后我们就知道在 $X$ 空间可以用哪些曲线来做不同的分类器，有可能是正圆，椭圆，双曲线等等：

(0.6, - 1, - 1) : c i r c l e (◯ i n s i d e) (- 0.6, + 1, + 1) : c i r c l e (◯ o u t s i d e) (0.6, - 1, - 2) : e l l i p s e (0.6, - 1, + 2) : h y p e r b o l a (0.6, + 1, + 2) : a l w a y s ◯

可以看到使用上面的特征转换得到了 $X$ 空间中的二次曲线分类器是有限制的，圆心是原点 $(0, 0)$ 。进一步如果想要得到 $X$ 空间中所有的二次曲线分类器，那就需要重新定义上面更复杂一点的特征转换： $Φ_{2} (x) = (1, x_{1}, x_{2}, x_{1} x_{2}, x_{1}^{2}, x_{2}^{2})$ ，得到新的 $Z$ 空间（6维）， $Z$ 空间中的每一条直线，对应原来空间中的一个二次的曲线；原来 $X$ 空间中的任意二次曲线，也对应到 $Z$ 空间中的一条直线。

所以我们现在有了对数据进行分类的新的思路或者是新的假设集：先把原始的数据（例如是二维的）通过某个特征转换（例如 $Φ_{2} (x)$ ，其中 $2$ 表示二次转换）映射到 $Z$ 空间，在 $Z$ 空间中使用某个线性的模型得到线性的分类器 $\tilde{h}$ ，这样就可以得到在 $X$ 空间中任意形状的二次分类器。

H_{Φ_{2}} = {h (x) : h (x) = \tilde{h} (Φ_{2} (x)) f o r s o m e l i n e a r \tilde{h} o n s p a c e Z}

举个例子：

例如在 $X$ 空间中需要一个如下的“斜椭圆”才能正确的划分数据：
$2 (x_{1} + x_{2} - 3)^{2} + (x_{1} - x_{2} - 4)^{2} = 1$ 。
现在看看是不是可以使用 $6$ 维的 $Z$ 空间 $(1, x_{1}, x_{2}, x_{1} x_{2}, x_{1}^{2}, x_{2}^{2})$ 中的一条直线做到。经过配参数可以得到相对应的 $Z$ 空间中的直线的参数为 $w = [33, - 20, - 4, 3, 2, 3]$ 。所以 $Z$ 空间中的每一条线，可以帮助我们实现某一个在 $X$ 空间中对应的分类方式。

这一小节的思想其实不难，不知道为什么我想说清楚却觉得很难。总结下：为了得到更复杂的分类器，不单单只是线性的，我们要做的就是进行特征转换，想要得到更复杂的分类器就进行更复杂的特征转换。在转换后的高维空间中使用线性模型对转换后的特征进行分类，就可以得到对应于原始的空间中任意形状的分类器。

2 - Nonlinear Transform

现在我们已经得到，在上节中建立的6维的特征转化下， $Z$ 空间（ $6$ 维）中的所有的直线可以对应到 $X$ 空间（ $2$ 维）中的所有的二次曲线。（这里的X是二维空间， Z是六维的空间）。所以如果在 $Z$ 空间中可以找到一个好的分隔线，那么就对应到在 $X$ 空间中的一个好的二次曲线。所谓好的分割线就是指能够正确划分 $\times$ 和 $◯$ 的线。
所以我们现在的任务是在 $Z$ 空间中找到一条好的“线”。目前我们会的是如何在 $X$ 空间中使用已知的数据 ${(x_{n}, y_{n})}$ 得到一个好的分割线，所以我们只要将 $X$ 空间中的数据通过某个特征转换，例如， $Φ_{2} (x_{1}, x_{2}) = (1, x_{1}, x_{2}, x_{1} x_{2}, x_{1}^{2}, x_{2}^{2})$ 映射到 $Z$ 空间，这样就可以使用任何的线性的二元分类方法在 $Z$ 空间使用数据 ${(z_{n} = Φ_{2} (x_{n}), y_{n})}$ 来找一个好的分割线。

2.1 - 非线性转换的基本步骤

将 $X$ 空间中的资料通过某一个转换 $Φ$ 映射到 $Z 空间$ （高维空间），（左上图 $⟶$ 右上图）
在 $Z$ 空间中利用数据 ${(z_{n}, y_{n})}$ 使用任何线性分类的算法 $A$ 得到一个好的分类器 $\tilde{w}$ 。（右上图 $⟶$ 右下图）
得到分类器 $g (x) = s i g n ({\tilde{w}}^{T} Φ (x))$ 。当一个 $X$ 空间中的新的数据点要确定类别的时候，同样先对该数据点使用变换 $Φ$ 映射至 $Z$ 空间，在 $Z$ 空间中得到分类的结果。（左下图 $⟶$ 右下图）

2.2 - 非线性模型

非线性的转换 + 线性的模型 = 非线性的模型。

非线性的模型需要考虑的两个问题：

使用什么样的特征转换，或者说转换到什么样的 $Z$ 空间中；
使用什么样的线性模型，或者说是使用什么算法。

所以当 $P L A$ 算法， $p o c k e t$ 算法， $l i n e a r r e g r e s s i o n$ 或者是 $l o g i s t i c r e g r e s s i o n$ 算法配合一个二次的特征转换，就可以得到二次的 $P L A$ 算法，二次的 $p o c k e t$ 算法，二次的 $l i n e a r r e g r e s s i o n$ 或者是二次的 $l o g i s t i c r e g r e s s i o n$ 算法；当配合三次的特征转换就有了三次的 $P L A$ 算法， $\dots$ 。也就是说只是换一个空间做 $l i n e a r l e a r n i n g$ 。

2.3 - 一个非线性模型的实例

在机器学习里面有一个很著名也是很基础的应用就是手写数字的识别。在这里我们考虑一种比较原始的方法来区分数字 $1$ ，即做一个二分类的问题：给定一个数字，判定是 $1$ 或者不是 $1$ 。
机器学习的 $f e a t u r e$ 分为两种，一种是 $c o n c r e t e$ 的，即有很丰富的物理意义；一种是 $r a w$ ，即原始收集来的数据。对于 $r a w$ 类型的资料，可以使用专业的知识变为 $c o n c r e t e$ 。例如对于以上的问题，我们收集到的资料是像素级别的，即每一个手写数字使用一个32 $\times$ 32的像素矩阵表示（是 $r a w$ 类型的）。我们可以通过对问题的认识（ $d o m a i n k n o w l e d g e$ ）从中提取特征。例如对于上述问题我们可以考虑对称性和密度：因为数字 $1$ 是比较对称的，数字 $1$ 的像素密度是比较低的。所以我们就将原来的32 $\times$ 32维的特征转换为了2维的特征： $（对称性，密度）$ ，这就对应于一个特征转化 $Φ$ 。从左上图 $⟶$ 右上图描述了这个过程, 每一张图片变为了二维空间中的一个点。此时的特征就是 $c o n c r e t e$ 类型的。原来的32 $\times$ 32维的特征现在通过转换 $Φ$ 变为2维的，所以可以使用线性的算法进行分类。（右上图 $⟶$ 右下图）。那么对于测试集中的数据（左下图），同样我们先提取它们的两个特征， $密度和对称性$ ，在这两个维度的空间中进行分类。

2.4 - A question

现在假设X空间中特征的维度不再是 $2$ ，而是 $d$ ，现在在X空间中做二次转换 $Φ_{2}$ ，那么转换后的Z空间的维度是多少？

二次项的个数： $C_{2}^{d} + d$
一次项的个数： $d$
常数项的个数： $1$

$Z$ 空间的维度是： $\frac{d^{2}}{2} + \frac{3 d}{2} + 1$ 。

3 - Price of Nonlinear Transform

3.1 - Computation or Storage Price

接着上面提到的问题，原始的 $X$ 空间中特征的维度是 $d$ ，如果现在要做 $Q$ -次的多项式转换 $Φ_{Q} (x)$ ，那么转换之后的空间的维度可以表示如下：

\begin{aligned} (3) & Φ_{Q} (x) = ( & 1 & ⟶ 常 数 项 \\ (4) & x_{1}, x_{2}, \dots, x_{d} & ⟶ 一 次 项 \\ (5) & x_{1}^{2}, x_{1} x_{2}, x_{1} x_{3} \dots, x_{d}^{2} & ⟶ 二 次 项 \\ (6) & \dots \\ (7) & x_{1}^{Q}, x_{1}^{Q - 1} x_{2}, \dots, x_{d}^{Q} & ⟶ Q 次 项) \end{aligned}

\begin{aligned} (8) & Z 空 间 的 维 度 \\ (9) & = & 1 + \tilde{d} \\ (10) & = & d 项 能 够 构 成 的 Q 次 或 者 小 于 Q 次 的 组 合 有 多 少 种 \\ (11) & = & C_{Q + d}^{Q} \\ (12) & = & O (Q^{d}) \end{aligned}

从 $d$ 个特征中找出所有低于 $Q$ 次的组合，允许重复。所以 $Z$ 空间的维度是 $O (Q^{d})$ 。例如原始的 $X$ 空间中的维度为2，特征转换为 $Φ_{50}$ ，即经过一个 $50$ 次多项式的特征转换，那么经过计算可以得到新的 $Z$ 空间的大小是1325维的。这其中就带来了一个重要的问题，你的数据量够不够支撑这个1000多维的空间，在2维的空间中，可能20个样本就够了，但是在一个1000维的空间中，20个样本是肯定不够的。

这需要付出很大的代价 $p r i c e$ ：

进行特征转换的计算量是非常庞大的。每一个样本都要从 $d$ 维转换为 $O (Q^{d})$ 维。
在使用线性的模型求解 $w$ 的时候， $w$ 不再是 $d$ 个，而是 $O (Q^{d})$ 量级个。例如， $l i n e a r r e g r e s s i o n$ 中的解析解需要求解 $(1 + \tilde{d}) \times (1 + \tilde{d})$ 维的矩阵的伪逆矩阵。
储蓄上需要 $1 + \tilde{d}$ 的空间而不再是 $d$ 。

3.2 - Overfitting

如上图分别是使用原始的数据（经过 $Φ_{1}$ 转换）和经过特征转换（使用 $Φ_{4}$ 转换成四次多项式）的数据来进行分类的结果。虽然右图的 $E_{i n} (g) = 0$ ，即在训练集上的误差为0，但是我们认为左边的划分是更好的。

机器学习关心的两个核心问题：

能不能确保 $E_{o u t} (g)$ 和 $E_{i n} (g)$ 足够的接近（要求模型足够简单）
能不能做到使得 $E_{i n} (g)$ 足够小（要求模型足够复杂）

当使用不同的假设函数–是2次的，还是4次的，对这两个核心问题的侧重是不一样的。当进行特征转换的时候，如果 $Q$ 很大，即使用非常复杂的特征转换，此时问题2能够很好的解决，但是问题1不能得到保证；如果 $Q$ 很小，即使用很简单的特征转换或者直接使用原始的数据来进行 $l e a r n i n g$ ，此时问题1能够很好的解决，但是问题2不能得到保证。这是 $m a c h i n e l e a r n i n g$ 中最重要的一个 $t r a d e o f f$ 。

所以问题来了，如何选择合适的特征转换 $Φ$ ？

4 - Structured Hypothesis Sets

4.1 - Polynomial Transform

对多项式特征变换给一个“递归”的定义：
以下分别给出的是 $0$ 维的变换， $1$ 维的变换…

\begin{aligned} (33) & Φ_{0} (x) & = (1), \\ (34) & Φ_{1} (x) & = (Φ_{0} (x), x_{1}, x_{2}, \dots, x_{d}), \\ (35) & Φ_{2} (x) & = (Φ_{1} (x), x_{1}^{2}, x_{1} x_{2}, \dots, x_{d}^{2}), \\ (36) & Φ_{3} (x) & = (Φ_{2} (x), x_{1}^{3}, x_{1}^{2} x_{2}, \dots, x_{d}^{3}), \\ (37) & \dots \\ (38) & Φ_{Q} (x) & = (Φ_{Q - 1} (x), x_{1}^{Q}, x_{1}^{Q - 1} x_{2}, \dots, x_{d}^{Q}), \end{aligned}

即：

Q

次多项式变换 = （

Q - 1

次多项式变换 + 所有的

Q

次式）。

所以可以得到如下的关系，其中 $H$ 表示的是 $H y p o t h e s i s s e t$ （可以简单的理解为可用的模型），后一个变换的假设集包含前一个变换的假设集（新添加的项的系数设置为0即可）。

H_{Φ_{0}} \subset H_{Φ_{1}} \subset H_{Φ_{2}} \subset \dots, H_{Φ_{Q}}

可以得到如下的

H y p o t h e s i s s e t s t r u c t u r e

进一步的分析可以得到：

\begin{aligned} (39) & H_{0} \subset H_{1} \subset H_{2} \subset H_{3} \subset \dots \\ (40) & d_{v c} (H_{0}) \leq d_{v c} (H_{1}) \leq d_{v c} (H_{2}) \leq d_{v c} (H_{3}) \leq \dots \\ (41) & E_{i n} (g_{0}) \geq E_{i n} (g_{1}) \geq E_{i n} (g_{2}) \geq E_{i n} (g_{3}) \geq \dots \end{aligned}

当 $h y p o t h e s i s$ 变多的时候，选择变多了，在这些增加的选择中，可能会找到一个 $h y p o t h e s i s$ 有更小的 $E_{i n}$ ，所以 $E_{i n}$ 就会下降，但是如果没有找到更好的，但是起码会和原来的是一样的。所以 $E_{i n}$ 应该是会一直下降的。
根据最后的两个不等式得到机器学习中一个很重要的图：

从上面的图可以看到： $E_{i n}$ 随着 $H y p o t h e s i s S e t$ 的复杂度的提高而下降；但是模型的复杂度会随之上升。我们最关心的 $E_{o u t}$ 先下降后上升。所以使用一个高维度的变换很容易使得 $E_{i n}$ 很小，但是 $E_{o u t}$ 却会很高，因为模型的复杂度太大了。最佳的做法是先试用简单的模型，如果这个时候 $E_{i n}$ 已经很小了，那么就可以将这个模型作为最终的模型；否则的话，逐步试用较为复杂的特征转换。

5 - Summary

本篇讲述了非线性变换的流程，使得原来针对的线性的算法可以应用到非线性可分的情形。需要做的事情仅仅是通过一个特征转换 $Φ$ 将低维空间（原来的 $X$ 空间）中的特征转化到高维空间 $Z$ 中，在 $Z$ 空间中使用线性的分类算法即可。虽然这看起来非常的 $p o w e r f u l$ ，但是实际上是要付出模型复杂度的代价的。所以我们最安全的做法就是：先使用简单的模型。