PCA
Principal Component Analysis
主成分分析
非监督学习算法
作用主要用于数据降维
通过降维,可以发现更便于人类理解的特征
也可以进行:可视化,去燥
二维平面特征1和特征2
我们怎么降到1维?
我们两个特征选一个吧另一个给扔了就可以了
同理对于y也一样
我们已经有了两张降维方案
哪个方案是更好的降维方案?
右边的更好,点和点之间的距离更大,拥有更高的可区分度
同时他们的距离比较大也更好的保持了原来的点和点的距离
我们选择的话我们显然选择右侧
我们也可以映射到这个直线上
我们发现和原来的样本并没有太大差距,同时在一个直线上,可以理解一个维度
用这种方式,所有的点更加趋向原来的点的情况
点和点的距离更加大,区分度更加明显
如何长到让样本间距最大的轴?
我们定义样本间距
我们是用方差(Variance)
我们知道方差就是描述样本疏密指标
我们需要找到样本映射到直线,方差达到最大值
1 我们要对所有样本均值归为0
所谓均值归零就是所有样本减去样本均值
样本分布没有改变,我们只是移动坐标轴,
是的我们样本在每一个维度均值都是0
这就是我们的样本方差
我们这样式子可以化简,更加方便
我们管这个轴w1,w2)
首先对所有样本进行demean处理
之后我们想要求一个轴的方向w=(w1,w2)
使得我们所有样本都映射到w之后
我们要使他的方差值最大
其实是一个向量减去另一个向量的模的平方
我们通过了减去平均值所以是
我们怎么用Xi表示Xproject(i)
我们来看映射过程
我们要求的是这个蓝色的轴的长度对应的平方
我们用w为方向向量来定义化简
式子转换为如上
取模不合理因为两个向量点乘是一个数
我们现在的目标
n维向量展开以后是这样的
这三个表达式都可以
化简为求目标函数最优化问题,使用梯度上升法解决
但看这个图和线性回归很相似
这个式子本身是有差别的,与次同时这个是两个轴都是特征
线性回归是一个是特征,一个是标记
二维的平面,这些线垂直我们的X轴
而不是垂直于我们这根线的