Python3入门机器学习之5.1什么是PCA

Python3入门机器学习

5.1 什么是PCA

主成分分析(Principal Component Analysis)

  • 一个非监督的机器学习算法
  • 主要用于数据的降维
  • 通过降维,可以发现更便于人类理解的特征
  • 其他应用:可视化;去躁

Python3入门机器学习之5.1什么是PCA
Python3入门机器学习之5.1什么是PCA
Python3入门机器学习之5.1什么是PCA
Python3入门机器学习之5.1什么是PCA
Python3入门机器学习之5.1什么是PCA
所谓的均值归零(demean)就是所有的样本都减去这批样本整体的均值,变成如下的样子,样本的分布没有改变,只是坐标轴进行了移动,使得样本在每一个维度均值都是零:
Python3入门机器学习之5.1什么是PCA
此时方差的公式:
Python3入门机器学习之5.1什么是PCA
注意此时的xi是所有的样本点已经映射在了新的坐标轴上得到的新的样本。

总结主成分分析法的过程:
①.对所有的样本进行demean处理。
②.我们想要求一个轴的方向 w = (w1, w2),使得我们所有的样本映射到w以后有:
Python3入门机器学习之5.1什么是PCA
最大。
③.此时对于X来说它可能有n个维度,在本例里有两个维度,它就是一个包含有两个数的向量,所以上式应写成:
Python3入门机器学习之5.1什么是PCA
④.由于对所有样本进行了demean处理,所以最终求得是:
Python3入门机器学习之5.1什么是PCA
Python3入门机器学习之5.1什么是PCA
经过以上推导,可变为:
Python3入门机器学习之5.1什么是PCA
Python3入门机器学习之5.1什么是PCA