08 主成分分析(进阶版)
标签:机器学习与数据挖掘
1.主成分定义
设随机向量XT=[X1,X2,...,XP] 有协方差矩阵乏,其特征值$\lambda _1\geqslant \lambda _2\geqslant …\geqslant \lambda _p\geqslant 0 $。
考虑线性组合:
Y1=a1′X=a11X1+a12X2+...+a1pXpY2=a2′X=a21X1+a22X2+...+a2pXp...Yp=ap′X=ap1X1+ap2X2+...+appXp
则,我们可以得到:
Var(Yi)=ai′Σaii=1,2,...,pCov(Yi,Yk)=ai′Σaki,k=1,2,...,p
上式的那些Y1,Y2,…,Yp,它们使得方差尽可能的大
第一主成分是最大方差的显著性组合,即使得$Var\left( Y_i \right) 最大化。显然,Var\left( Y_i \right) 会因为\boldsymbol{a_1}$乘以某一个常数而增大。为消除这种不确定性,一个方便的方法是值关注有单位长度的系数向量。我们因此定义:
第一主成分 = 线性组合a1′X,在a1′a1=1时,它使Var(a1′X)=0最大。
第二主成分 = 线性组合a2′X,在a2′a2=1和Cov(ai′X,ak′X)=0时,它使Var(a2′X)最大。
…
第i主成分=线性组合ai′X,和ai′ai=1和Cov(ai′X,ak′X)=0(k<i)时,它使Var(ai′X)最大。
2.重要结论:


用语言来描述结论8.2:
总体总方差=σ11+σ22+...+σpp=λ1+λ2+...+λp

推导:
ρYi,Xi=Var(Yi)Var(Xk)Cov(Yi,Xk)=λiσkkλieik=σkkeikλi
理解:这其实是按照相关系数的算法,算出的东西叫做信息量。

6.解释
首先,我们知道对一个矩阵的谱分解意味着对这个所在的n维图形找出它的特征。若是2维的一个椭圆,即是找出它的长短轴,而实际上,主成分同样。考虑一个二元正态随机向量:

我们可以看到,对于此图形,我们对其做主成分分析(也是谱分解)实际的操作就是找出其长短轴,也就是它的特征,并以此为基础进行变换。对于p维而已,减少其轴的数量也就是减少其维度。
当然,我们现在针对一下这个2维数据,可以发现其长轴方向就是其方差最大化的地方。
7.代码实现
R的话,参考本博客 R语言 里面 第四站的内容。