PCA

Principal Component Analysis

主成分分析


非监督学习算法

作用主要用于数据降维

通过降维,可以发现更便于人类理解的特征

也可以进行:可视化,去燥

PCA

二维平面特征1和特征2

我们怎么降到1维?

我们两个特征选一个吧另一个给扔了就可以了 

PCA

同理对于y也一样

PCA

我们已经有了两张降维方案

PCA

哪个方案是更好的降维方案?

右边的更好,点和点之间的距离更大,拥有更高的可区分度

同时他们的距离比较大也更好的保持了原来的点和点的距离

我们选择的话我们显然选择右侧

PCA

我们也可以映射到这个直线上

我们发现和原来的样本并没有太大差距,同时在一个直线上,可以理解一个维度

用这种方式,所有的点更加趋向原来的点的情况

点和点的距离更加大,区分度更加明显


如何长到让样本间距最大的轴?

我们定义样本间距


我们是用方差(Variance)

PCA

我们知道方差就是描述样本疏密指标

我们需要找到样本映射到直线,方差达到最大值


1 我们要对所有样本均值归为0 

所谓均值归零就是所有样本减去样本均值

 PCA

样本分布没有改变,我们只是移动坐标轴,

是的我们样本在每一个维度均值都是0

PCA

这就是我们的样本方差PCA

我们这样式子可以化简,更加方便

我们管这个轴w1,w2)

首先对所有样本进行demean处理

之后我们想要求一个轴的方向w=(w1,w2)

使得我们所有样本都映射到w之后

PCA

我们要使他的方差值最大

PCA

其实是一个向量减去另一个向量的模的平方

我们通过了减去平均值所以是

PCA

我们怎么用Xi表示Xproject(i)

我们来看映射过程

PCA

我们要求的是这个蓝色的轴的长度对应的平方

PCA

我们用w为方向向量来定义化简

PCA

PCA

PCA

式子转换为如上

取模不合理因为两个向量点乘是一个数

我们现在的目标

PCA

n维向量展开以后是这样的

PCA

PCA

这三个表达式都可以

化简为求目标函数最优化问题,使用梯度上升法解决


PCA

但看这个图和线性回归很相似

这个式子本身是有差别的,与次同时这个是两个轴都是特征

线性回归是一个是特征,一个是标记

PCA

二维的平面,这些线垂直我们的X轴

而不是垂直于我们这根线的