主成分分析(PCA降维)与最小二乘-原理以及详细推导

重新整理了PCA相关的原理和推导

从最小二乘出发, 其原理可以描述为: 在数据空间χ中寻找一个超平面, 让数据样本到该超平面的距离平方之和最小.

数据点到超平面距离的计算试为该点向量减该点在超平面上的投影所得向量的长度, 即

d i s t (x i, p l a n e) = | | x i - x^i | | 2

下标2表示L2范数, 几何解释如图
主成分分析(PCA降维)与最小二乘-原理以及详细推导
假设该超平面由d′个标准正交向量张成, 即

p l a n e = s p a n {w 1, w 2, w 3, . . ., w d'}, s . t . w i \cdot w j = δ i j

令W=[w1,w2,w3,...,wd′],则 PCA的优化目标可表示为

a r g min W \sum i | | x i - x^i | | 22 s . t . W T W = I (1)

由线性代数知识可知, 数据点xi在超平面上的投影可表示为

x^i = \sum j = 1 d' (w T j x i) w j

于是优化目标可写为

a r g min W \sum i | | \sum j = 1 d' (w T j x i) w j - x i | | 22 s . t . W T W = I (2)

接下来一步一步分析, 先将距离平方展开:

| | x i - x^i | | 22 = (x i - x^i) T (x i - x^i) = x T i x i - x T i x^i - x^T i x i + x^T i x^i (3)

(3)式第一项是常数, 对(3)式右边最后一项展开:

x^T i x^i = (\sum j = 1 d' (w T j x i) w T j) (\sum k = 1 d' (w T k x i) w j)

注意, wTjxi是实数, 不参与转置并且可以挪动位置, 注意到wTjwk=δjk ,当j=k时等于1, 否则等于0. 展开上式相乘之后只剩下:

\sum j = 1 d' (w T j x i) (w T j x i)

由内积的性质可知wTjxi=xTiwj,上式最后变为:

\sum j = 1 d' w T j x i x T i w j

对(3)式右边第二项展开:

- x T i x^i = x T i \sum j = 1 d' (w T j x i) w j = - \sum j = 1 d' w T j x i x T i w j

由内积性质可知xTix^i=x^Tixi, 所以(3)式可写成

| | x i - x^i | | 22 = - \sum j = 1 d' w T j x i x T i w j + c o n s t = - t r (W T x i x T i W) + c o n s t

tr表示矩阵的迹, 上式展开即可验证. 现对整个样本求和并注意到∑ixixTi=XXT. 考虑上述结果, 优化目标可写为:

a r g max W t r (W T X X T W) s . t . W T W = I (2)

这里用到了迹和矩阵乘法的线性性质.
现用拉格朗日乘子法求解, 约束条件WTW=I包含了d′×d′个等式, 为了说明清楚, 不失一般性,取d′=2进行推导, 此时拉格朗日函数可写为:

L (w 1, w 2) = w T 1 X X T w 1 + w T 2 X X T w 2 + λ 11 (1 - w T 1 w 1) + λ 22 (1 - w T 2 w 2) + λ 12 w T 1 w 2 + λ 21 w T 2 w 1

对w1求导并令其等于0得:

\partial L \partial w 1 = 2 X X T w 1 - 2 λ 11 w 1 + λ 12 w 2 + λ 21 w 2 = 0 ⃗

重点:要让上式成立, 显然w1和w2是不能等于0⃗ 的, 而且它们不能共线, 共线了超平面维数就不是d′了, 这意味着w1和w2线性无关. 所以只能是有:

2 X X T w 1 - 2 λ 11 w 1 = 0 ⃗ λ 12 + λ 21 = 0

从上式可以看出w1恰好是XXT对应于λ11的特征向量, 同理对于w2,...,wd′. 于是只要求出XXT最大的前d′个特征值对应的特征向量, 用它们张成超平面, 将数据向超平面上投影即可完成降维.
注意到这里XXT恰好是(m-1)倍的中心化数据的协方差矩阵, 推导如下:

c o v (x i, x j) = E ((x i - x ¯ i) (x j - x ¯ j))

用m个样本做估计, 并且注意到中心化, 则有:

x ¯ i = 1 m \sum k = 1 m x (k) i = 0 cov (x i, x j) = 1 m - 1 \sum k = 1 m x (k) i x (k) j

[1] 周志华. 机器学习