正交变换之PCA原理
正交变换的牛逼的之处
能量和关系不变(长度和角度)
嗯哼哼 所以正交变换能用来做什么呢
降维
what
怎么降维
嗯哼哼
先来看看其对角化后组成的方阵由特征值构成的
而特征值是代表其只是进行伸缩变换
因此我们可以将特征值进行排序 而忽略小的特征值对其伸缩的影响
就是我们说的降维
嗯哼 这是损失了一定数据 称为有损压缩
第二种是无损压缩
我们知道空间变换就是选择不同的基而在新基下,数据有新的坐标表示
而我们可以通过将一些矩阵乘法的物理意义
嗯哼 形成新的坐标 而变换的实际意义就是在旧坐标在新坐标下的投影(内积)
个也就是说我们 可以变换到比较少的基 即比较少维数的空间去
其中行的个数表示基的个数 也就是我们从n个维数变成m个维数
接下来就是如何选择新基的问题
我们的目的 数据变换到新空间间后 还是可以区分 也就是还是可以转换的到原来的空间 也就是可逆
而新空间的坐标就是在梅每个基方向上的投影 我们的目的是使其不同的点投影的坐标也不一样
从而引入方差使得其投影够尽可能的分散
如果我们还是单纯只选择方差最大的方向,很明显,这个方向与第一个方向应该是“几乎重合在一起”,显然这样的维度是没有用的,因此,应该有其他约束条件。因此我们引入协方差
嗯哼 显示其他基的和第一个基的线性相关性,嗯哼 当协方差等于0的时候就是说可逆的
其中a表示其均值,b表示其均值,而分母是n-1是因为最大似然估计的结果
我们要做的在此之前将数据均值化为0
当我们不是样本的时候
假设我们的原来数据的坐标由两个字段
嗯哼 我们要对其进行降维
我们要写出其协方差矩阵会发现一个amazing的事
其与其转置相乘就是我们的协方差矩阵
我们要使协方差为0 也就是对角化
也就是说 我们要使其可逆
嗯哼 我们说的矩阵对角化
而方差就是对应我们的特征值
嗯哼
首先明确目标 是新基的坐标协方差矩阵对角化
我们通过原始数据可以得出原始数据的协方差矩阵设为C
而Y = PA 其中A是原始数据组成的矩阵
P是新基坐标组成变换矩阵
我们求新坐标的协方差矩阵D
嗯哼
协方差矩阵C是一个是对称矩阵
哈哈
发现什么没
也就是说要对角化 P一定是正交矩阵 可以看我前两篇的内容
令
我们可以得到
也就是说我们求出了P矩阵
而方差对应这我们的特征值
嗯哼 方差特别小 说明啥 说明区分度太小可以去除 损失一些数据
所以可以设定一个阈值使其降维更大
排序后去前K列 而K通过阈值来选择
这就是PCA
嗯哼哼
PCA致命弱点 样本数据要全面
一旦样本数据片面 就无法降维 也就是说比较适合进行图片的压缩 而数据的挖掘中 数据压缩降维中有很大 的局限性
参考知乎大神
https://www.zhihu.com/collection/230485656