第12章：降维

12.1 主成分分析（PCA）

数据的特征数量，又称为向量的维度。降维（dimensionality reduction）是通过一些方法，减少数据的特征数量，以降低维度，通常采用主成分分析PCA（Principal Component Analysis）。降维的作用有：

数据压缩，减小占用的存储空间
加快算法的计算速度
低维平面可以可视化数据

例如，将数据从二维降至一维就是把二维的点都映射到一条直线，用一个实数z就可以表示；三维降到二维就是把三维的点都映射到一个平面，用两个实数z1和z2就可以表示，如下图所示。
【机器学习笔记】第12章：降维
主成分分析PCA是寻找一个低维平面，使得各个数据点到平面的投影距离最小。换句话说，就是寻找 k 个向量，作为子空间，将数据映射到这个子空间上，则数据的维度转换为 k 。
如下图所示，三维空间的数据几乎可看作分布在一个斜面上，则可在这个斜面上建立一个二维的平面，将数据映射上去，转换为二维空间。
【机器学习笔记】第12章：降维
PCA与线性回归的区别：

如上图所示，
①左图线性回归是要通过所有的x对变量y进行预测，而PCA的变量都是平等的，没有要预测的y。
②左图线性回归的最小距离是垂直于横轴，而右图的PCA是点到直线的正交距离。

12.2 主成分分析的算法

主成分分析PCA的算法主要由三部分组成：

数据预处理（均值归一化和特征规范化）
计算协方差矩阵 $\Sigma$
计算协方差矩阵 $\Sigma$ 的特征向量（奇异值分解）

数据预处理主要是进行均值归一化，对每个特征值进行如下变化： $\mu_j=\frac{1}{m}\sum_{i=1}^mx_j^{(i)}$ $x_j^{(i)}:=\frac{x_j^{(i)}-\mu_j}{s_j}$ 均值归一化可使得特征的均值为 0 ，其中 $s_{j}$ 为特征缩放（取值范围的最大值减去最小值，使之取值范围接近 [-1,1] ）。
计算数据的协方差矩阵，采用如下公式，注意 $(x^{(i)})(x^{(i)})^{T}$ 是一个矩阵： $\Sigma=\frac{1}{m}\sum_{i=1}^m(x^{(i)})(x^{(i)})^{T}$ 进行奇异值分解，在matlab中，可有如下公式： $[U,S,V]=svd(\Sigma)$ 其中， $U=\begin{bmatrix} \vdots & \vdots & & \vdots \\ u^{(1)} & u^{(2)} & \cdots & u^{(n)} \\ \vdots & \vdots & & \vdots \end{bmatrix}$ ， $U$ 是一个 $n*n$ 的矩阵，取前 $k$ 列，得到 $U_{reduce}=\begin{bmatrix} \vdots & \vdots & & \vdots \\ u^{(1)} & u^{(2)} & \cdots & u^{(k)} \\ \vdots & \vdots & & \vdots \end{bmatrix}$ ， $U_{reduce}$ 是一个 $n*k$ 的矩阵，接下来： $z=(U_{reduce})^{T}\cdot x$ 将每一个向量 $x$ 转换为 $z$ ， $z$ 为 $k*1$ 的向量，达到了降维的目的。

注：最后一步转换的 $x$ 是没有偏置 $x_{0}$ 的。

12.3 低维空间维度的选择

我们已知主成分分析是要寻找一个低维平面，使得各个数据点到这个平面的距离最小，这个距离可采用平均投影误差的平方（average squared projection error）量化，定义如下： $\frac{1}{m}\sum_{i=1}^m\Vert x^{(i)}-x_{approx}^{(i)}\Vert^2$ 其中， $x_{approx}$ 是在高维空间中映射到低维平面上的近似点（维度仍然是高维，与 $z$ 不同， $z$ 的维度是低维）， $x_{approx}=U_{reduce}\cdot z$ 。

我们需寻找满足下式的最小的 $k$ ： $\frac{\frac{1}{m}\sum_{i=1}^m\Vert x^{(i)}-x_{approx}^{(i)}\Vert^2}{\frac{1}{m}\sum_{i=1}^m\Vert x^{(i)}\Vert^2}\leq0.01$ 其中，右侧的数值可根据实际情况调整，0.01为保证了 99% 的方差。
此外，还有一种计算方法，在奇异值分解 $[U,S,V]=svd(\Sigma)$ 中， $S=\begin{bmatrix} s_{11} & & 0 \\ & \ddots & \\ 0 & & s_{nn} \end{bmatrix}$ ，满足下式： $\frac{\frac{1}{m}\sum_{i=1}^m\Vert x^{(i)}-x_{approx}^{(i)}\Vert^2}{\frac{1}{m}\sum_{i=1}^m\Vert x^{(i)}\Vert^2}=1-\frac{\sum_{i=1}^ks_{ii}}{\sum_{i=1}^ns_{nn}}$ 只需求解最小的 $k$ ，满足下式即可： $1-\frac{\sum_{i=1}^ks_{ii}}{\sum_{i=1}^ns_{nn}}\leq0.01$

12.4 应用PCA的建议

使用PCA去防止过拟合是对PCA算法的误用，正则化才是解决过拟合的正确方法。
在用PCA之前，应该先考虑用原始数据进行训练，如果达不到目的（如速度太慢、内存不够时）再考虑PCA，不要一上来就直接用PCA。

【机器学习笔记】第12章：降维

文章目录

第12章：降维

12.1 主成分分析（PCA）

12.2 主成分分析的算法

12.3 低维空间维度的选择

12.4 应用PCA的建议

相关推荐