第十五章 降维dimensionality reduction
课时115 目标I:数据压缩建立新的特征z1,只需要一个数就能确定z1所在的位置。通过投影到绿色的线上,只需要一个数字就可以表示每个训练样本的位置。这样就可以把内存减半,后面会讲到这也可以让某些算法运行得更快。
3D降维到2D:把像一团云一样,但近似在一个平面的点们投影到一个平面上。
课时116 目标II:可视化
降维也有利于数据的可视化。eg.每个国家有50个特征,可以大致用两个特征表示,国家/经济/健康总大小和人均国土/经济/健康大小。
课时117 主成分分析问题规划1 principal component analysis problem formulation
PCA是最流行的降维算法。
找的投影的直线应该使得蓝色线段的长度最短,即投影误差最小。
n维降到k维:找到k个向量使得投影误差最小。
图与线性回归有点像,实际上是完全不一样的算法,最小化的目标不一样,而且降维也没有要预测的y:
课时118 主成分分析问题规划2
pca之前要做数据预处理:先做均值归一化,即让每个x减去均值,使x的均值为0,再做feature scaling.
pca算法做的:需要计算上图向量u和z:
N维降到K维,先计算协方差covariance matrix(大写的sigma)(像求和符号,是nn的向量),再求特征向量eigenvector,得出的U矩阵也是nn的矩阵,要提取前k个向量(前k列)u(1)到u(k),得到Ureduce,再乘以X。
总结一下PCA算法:(计算Siama的式子和老师写的用蓝色框起来的式子数学上是一样的)
课时119 主成分数量选择choosing the number of principal components
如何选择K:
课时120 压缩重现
回到未压缩的数据表示,恢复到N维,即reconstruction:Xapprox=Ureduce·z.
课时121 应用PCA的建议
PCA学习只能用在训练集上来拟合参数,而不是交叉验证集或测试集。定义了x到z的映射后,可以应用这个映射到交叉验证集和测试集。
不要把PCA当成防止过拟合的方法,还是使用正则化的方法来防止过拟合,因为PCA不使用标签,会丢失一些有价值的信息。
用PCA之前首先尝试使用x(i),只有在学习算法运行太慢,或者需要的内存或硬盘空间太大因此需要去压缩数据表示时,再用PCA。