机器学习小组-主成分分析
基本概念
PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。
二维映射为一维:
三维映射为二维:
当数据集不同维度上的方差分布不均匀的时候,PCA最有用。
降维后,整体和原样本的分布并没有多大的差距,点和点之间的距离更大了,区分度也更加明显。一般会使用方差(Variance)来定义样本之间的间距:
基本步骤
对于如何找到一个轴,使得样本空间的所有点映射到这个轴的方差最大。
第一步:样本归0
第二步:找到样本点映射后方差最大的单位向量
求一个轴的方向w=(w1,w2)需要定义一个轴的方向w=(w1, w2),使得我们的样本,映射到w以后,使得X映射到w之后的方差最大:
把一个向量映射到另一个向量上,对应的映射长度是多少。实际上这种映射就是点乘:
梯度上升实现PCA
要求极大值,则使用梯度上升法。梯度的方向就是函数值在该点上升最快的方向,顺着这个梯度方向轴,就可以找到极大值。即将负号变为正号:
协方差实现PCA
https://mp.weixin.qq.com/s/Z-6N7irghpI_Ju1KL1sV_w
高维数据向低维数据映射
n维数据经过主成分分析之后,求出了前k个主成分,即有k个主成分向量。