PCA主元分析方法描述
主元分析也就是PCA,主要用于数据降维。
通过去中心化和线性变换,将多维度的特征转换通过投影(坐标转换)成几个主成分特征,这个主成分特征是原来特征的线性变换。
主成分称为 它们称作“主元1”、“主元2”。
多维度特征直接有一定相关性!! 主成分分析法就是将多个(比如20个)特征的有用信息提取出来, 综合成1个到3个指标,这个1到3个指标可以反映20个指标的绝大部分信息。
缺点: 3个指标无法完全替代20个指标所有信息,而且指标没有单位量, 只能做综合评分
线性变换是最小二乘法。两个坐标轴,减少一个坐标轴的信息 ,多分配x轴信息,减少y轴信息
具体变换是通过协方差计算
这个矩阵是求解主元1、主元2的关键。协方差矩阵如上
5 实战去中心化后的房价和面积数据
求协方差矩阵
奇异值分解
如下算出新坐标,比如对于[公式] :
主元2整体来看,数值很小,丢掉损失的信息也非常少,这样就实现了非理想情况下的降维。
知乎上面一个pca帖子不错。
https://www.zhihu.com/question/41120789/answer/481966094s