12.主成分分析(PCA)
PCA主要是去除相关联特征中的噪声,从而使得关联特征数量转化为同一平面(直线),从而达到降纬的目的。也就是寻找数据变更主轴。
应用:
- 可视化
- 压缩数据
- 提高机器学习速度
- 减少过拟合
- 异常检测
- 距离计算
例如我们有一个关于飞行员水平数据集,其中一个特征代表飞行员对飞行的热情,另一个特征代表飞行员飞行水平。这两个特征很可能是线性相关的,但是由于数据中存在噪声的影响导致这两个特征的关联性看起来不强。如下图所示。
在u1方向代表数据的主方向,在u2方向代表数据的噪声。我们需要的就是将数据映射到主方向u1上,这样便将二维数据转化为一维上的数据,从而达到了降维的目的。
在运行PCA之前我们还需要对数据进行一些处理:如下所示:
- 设μ=m1∑i=1mx(i)
- 将每个 x(i) 替换成 x(i)−μ
- 设σj2=m1∑i(xj(i))2
- 将每个 xj(i) 替换成 xj(i)/σj.
第(1−2)步把数据的平均值清零,然后可以省略掉所有有零均值的数据(例如,对应语音或者其他声学信号的时间序列)。第(3−4)步将每个坐标缩放,使之具有单位方差,这确保了不同的属性都在同样的“尺度”上来进行处理。例如,如果 x1 是汽车的最大速度(以 mph 为单位,精确到十位),然后 x2 是汽车的座位数量(取值一般在 2-4),这样这个重新正则化就把不同的属性进行了缩放,然后这些不同属性就更具有对比性。如果我们事先已经知道不同的属性在同一尺度上,就可以省略第(3−4)步。例如,如果每个数据点表示灰度图像中的每个数据点,而每个 xj(i) 就从 {0,1,...,255} 中取值,对应的也就是在图像 i 中像素 j 位置的灰度值。
下面我们开始寻找方向u1,我们如何去寻找呢?在信息论中,信号和噪声的方差是不同的,噪声的方差偏小,信号之间的方差偏大。所以我们应该尽可能的去保证数据在投影之后的方差尽可能的大,从而保证了信息的完整性。我们知道:
假设样本为向量x,方向单位向量为u,两向量之间的夹角为θ,所以将x投影到u上的向量u′为u⋅cosθ,则u′的模长为∣u′∣=x⋅u.由于之前样本数据都减去了均值,所以投影后的均值依旧为0。于是我们可以得出方差为:
m1i=1∑m(x(i)Tu)2=m1i=1∑muTx(i)x(i)Tu=uT(m1i=1∑mx(i)x(i)T)u
也就是我们要将以上的式子最大化。需要注意的是:需要满足约束∣∣u∣∣2=1等价于uTu=1.所以这是一个规划问题,我们可以用拉个朗日乘数法求解这个最大值。
同时如果我们将上式子写作如下形式:uTΣu=λ,因为uTu=1 ,所以转化为Σu=λu(两边同乘uT).也就是说向量 u 是 Σ 的特征向量,特征值为 λ。
如果假设求出的特征向量(单位向量、正交基)是u1,...,uk,则x(i)可映射为:
y(i)=⎣⎢⎢⎢⎡u1Tx(i)u2Tx(i)⋮ukTx(i)⎦⎥⎥⎥⎤∈Rk
因此,x(i)∈Rn,向量 y(i)就是对 x(i) 的近似表示。
SVD(奇异值分解)
通过上面的说明我们可以知道,Σ=m1∑i=1mx(i)x(i)T,所以我们不妨改写为:
首先令X:
X=⎣⎢⎢⎢⎢⎡———x(1)Tx(2)T⋮x(m)T———⎦⎥⎥⎥⎥⎤
则Σ:
Σ=⎣⎡∣x(1)∣∣x(2)∣⋯∣x(m)∣⎦⎤⎣⎢⎢⎢⎢⎡———x(1)Tx(2)T⋮x(m)T———⎦⎥⎥⎥⎥⎤=XTX
SVD
假设有矩阵X∈Rm×n(m是样本数,n是特征数),则矩阵可以写成
X=UΣVT
其中U∈Rm×m,Σ∈Rm×n,V∈Rm×n(注意这里的Σ和上面的不相关)。U和V都是正交基方阵,即满足UTU=I,VTV=I,Σ是除了主对角线上的元素以外全为0,主对角线上的每个元素都称为奇异值。
我们可以发现:
XTX=VΣTUTUΣVT=VΣ2VT
可以看出XTX的特征向量组成矩阵V,同理XXT的特征向量组成了矩阵U。
一般我们将右侧V的特征向量称为右奇异向量,左侧U的特征向量称为左奇异向量。
我们可以得到:
(ATA)vi=λivi(AAT)ui=λiui
所以可以推出:
AAVAVAvi=UΣVT=UΣVTV=UΣ=σiui
得到σiui=Avi之后便可求出σi(等式的左右都是成比例的列向量)
由于
XTX=VΣ2VT
所以可以知道
σi=λi
所以我们可以通过求奇异值的方法来求PCA中矩阵的特征,降低计算量。
小结:
|
概率估计算法 |
非概率算法 |
子空间 |
因子分析法 |
PCA降维 |
数据在团块中 |
混合高斯 |
K-means |