第十五章降维dimensionality reduction

课时115 目标I：数据压缩
第十五章降维dimensionality reduction 建立新的特征z1,只需要一个数就能确定z1所在的位置。通过投影到绿色的线上，只需要一个数字就可以表示每个训练样本的位置。这样就可以把内存减半，后面会讲到这也可以让某些算法运行得更快。
第十五章降维dimensionality reduction
3D降维到2D：把像一团云一样，但近似在一个平面的点们投影到一个平面上。

课时116 目标II：可视化
降维也有利于数据的可视化。eg.每个国家有50个特征，可以大致用两个特征表示，国家/经济/健康总大小和人均国土/经济/健康大小。第十五章降维dimensionality reduction

课时117 主成分分析问题规划1 principal component analysis problem formulation
PCA是最流行的降维算法。
找的投影的直线应该使得蓝色线段的长度最短，即投影误差最小。
n维降到k维：找到k个向量使得投影误差最小。第十五章降维dimensionality reduction
图与线性回归有点像，实际上是完全不一样的算法，最小化的目标不一样,而且降维也没有要预测的y:

课时118 主成分分析问题规划2
pca之前要做数据预处理：先做均值归一化，即让每个x减去均值,使x的均值为0，再做feature scaling. 第十五章降维dimensionality reduction
pca算法做的：需要计算上图向量u和z:
N维降到K维，先计算协方差covariance matrix（大写的sigma）(像求和符号，是nn的向量)，再求特征向量eigenvector，得出的U矩阵也是nn的矩阵，要提取前k个向量(前k列)u⁽¹⁾到u^(k)，得到Ureduce,再乘以X。第十五章降维dimensionality reduction

总结一下PCA算法：（计算Siama的式子和老师写的用蓝色框起来的式子数学上是一样的）

课时119 主成分数量选择choosing the number of principal components
如何选择K：
第十五章降维dimensionality reduction

课时120 压缩重现
回到未压缩的数据表示，恢复到N维，即reconstruction：Xapprox=Ureduce·z.
第十五章降维dimensionality reduction

课时121 应用PCA的建议
PCA学习只能用在训练集上来拟合参数，而不是交叉验证集或测试集。定义了x到z的映射后，可以应用这个映射到交叉验证集和测试集。第十五章降维dimensionality reduction
不要把PCA当成防止过拟合的方法，还是使用正则化的方法来防止过拟合，因为PCA不使用标签，会丢失一些有价值的信息。
用PCA之前首先尝试使用x⁽ⁱ⁾,只有在学习算法运行太慢，或者需要的内存或硬盘空间太大因此需要去压缩数据表示时，再用PCA。

第十五章 降维dimensionality reduction

相关推荐

第十五章降维dimensionality reduction