主成分分析

线性代数概念复习

向量的内积
基
协方差矩阵
实对称矩阵
特征值和特征向量

主成分分析的计算步骤

本文不会深究原理，如果有时间我会把原理补上，这篇文章主要是讲主成分分析的计算步骤。

在开始详细介绍PCA算法前，我们先来复习一下线性代数中几个重要的概念

线性代数概念复习

向量的内积

假设 $\vec{a}=\begin{bmatrix} a_1 \\ a_2 \\ ...\\a_n \end{bmatrix}$ , $\vec{b}=\begin{bmatrix} a_1 \\ a_2 \\ ...\\a_n \end{bmatrix}$
那么
$\vec{a}\cdot\vec{b}=a_1b_1+a_2b_2+...+a_nb_n$
PCA主成分分析计算步骤
$\vec{a}$ 的模记为： $|\vec{a}|=\sqrt{\vec{a}\cdot \vec{a}}$
$\vec{a}\cdot\vec{b}=|\vec{a}||\vec{b}|cos\theta$
假设 $\vec{b}$ 的模为1，即单位向量，那么 $\vec{a}\cdot\vec{b}=|\vec{a}|cos\theta$ ，实际上，内积就是 $\vec{a}$ 在 $\vec{b}$ 方向上的投影的长度。

如果 $\vec{a}\cdot\vec{b}=0$ ，表示 $\vec{a}$ 和 $\vec{b}$ 正交，也就是线性无关。

基

在线性代数中，基（也称为基底）是描述、刻画向量空间的基本工具。向量空间的基是它的一个特殊的子集，基的元素称为基向量。向量空间中任意一个元素，都可以唯一地表示成基向量的线性组合。如果基中元素个数有限，就称向量空间为有限维向量空间，将元素的个数称作向量空间的维数。

向量空间V的一组向量若满足
1）线性无关
2）V中任一向量可由此向量线性表出，则称该组向量V中的一个基（亦称基底）。
一个向量空间的基有很多，但每个基所含向量个数却是个定数。

例如

PCA主成分分析计算步骤
上图的一组基是 $(1, 0)$ 和 $(0, 1)$ ，向量 $\vec{a}=(3, 2) = 3(1, 0)+2(0, 1)$

假设又有一组新的基 $(0.5, 0.5)$ 和 $(-0.5, 0.5)$ ，那么原来的向量 $\vec{a}$ 应该怎么表示？
PCA主成分分析计算步骤
$\vec{a}$ 在新的基 $(0.5, 0.5)$ 上的投影为 $(0.5, 0.5) \cdot (3, 2)^T=2.5$ ，在 $(0.5, -0.5)$ 上的投影为 $(-0.5, 0.5) \cdot (3, 2)^T=-0.5$ ，所以 $\vec{a}$ 在新的基上为 $(2.5, -0.5)$
也可以用矩阵计算：
$\begin{bmatrix} 0.5 & 0.5 \\ -0.5 & 0.5 \end{bmatrix}\begin{bmatrix} 3\\ 2 \end{bmatrix}=\begin{bmatrix} 2.5\\ -0.5 \end{bmatrix}$
假设 $\begin{bmatrix} p_1\\ p_2\\...\\p_r \end{bmatrix}$ 是n组新的基， $\begin{bmatrix} a_1& a_2&...&a_m \end{bmatrix}$ 是m个样本，那么m个样本在n组基表达为：
$\begin{bmatrix} p_1\\ p_2\\...\\p_r \end{bmatrix} \begin{bmatrix} a_1& a_2&...&a_m \end{bmatrix}= \begin{bmatrix} p_1a_1& p_1a_2&...&p_1a_m \\p_2a_1& p_2a_2&...&p_2a_m \\...& ...&...&... \\p_ra_1& p_ra_2&...&p_ra_m \end{bmatrix}_{r\times m}$

协方差矩阵

假设两个向量x和y，他们的协方差的公式为：
$Cov(x,y)=\frac{\Sigma_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{n}$
也可以写成：
$Cov(x,y)=E[(x-E[x])(y-E[y])]$
$=E[xy]-2E[y]E[x]+E[x]E[y]=E[xy]-E[x][y]$
协方差矩阵为：
$C=\begin{bmatrix} Cov(x,x) & Cov(x,y) & Cov(x,z) \\ Cov(y,x) & Cov(y,y) & Cov(y,z) \\ Cov(z,x) & Cov(z,y) & Cov(z,z) \end{bmatrix}$
其中 $Cov(x,x)=Var(x)$ ， $Cov(x,y)=Cov(y,x)$

实对称矩阵

我们可以看到，协方差矩阵是一个实对称矩阵。
1.实对称矩阵 $A$ 的不同特征值对应的特征向量是正交的。
2.实对称矩阵 $A$ 的特征值都是实数，特征向量都是实向量。
3.n阶实对称矩阵 $A$ 必可相似对角化，且相似对角阵上的元素即为矩阵本身特征值。

特征值和特征向量

设 $A$ 是n阶方阵，若存在数 $\lambda$ 和非零向量 $x$ ，使得 $Ax=\lambda x$ ，则称：
$\lambda$ 是 $A$ 的一个特征值
$x$ 是 $A$ 是对应的 $\lambda$ 的特征向量。

因为 $Ax=\lambda x \Rightarrow (A-\lambda E)x=0$ ，因为 $x$ 是非零向量，所以 $|A-\lambda E|=0$

下面直接用一个例子来说明如何求特征值和特征向量。

例：求 $A=\begin{bmatrix} -1 & 1 & 0 \\ -4 & 3 & 0 \\ 1 & 0 & 2 \end{bmatrix}$ 的特征值和特征向量。
解：先求特征值，相当于求：
$|A-\lambda E|=\begin{vmatrix} -1-\lambda & 1 & 0 \\ -4 & 3-\lambda & 0 \\ 1 & 0 & 2 -\lambda \end{vmatrix}=(2-\lambda)(\lambda-1)^2=0$
所以特征值为 $\lambda=2,1$

当 $\lambda=2$ 时， $(A-2E)x=0$

$\Rightarrow \begin{bmatrix} -3 & 1 & 0 \\ -4 & 1 & 0 \\ 1 & 0 & 0 \end{bmatrix}x=0$

矩阵行简化阶梯型求解方程：

$\Rightarrow \begin{bmatrix} -3 & 1 & 0 &\big|&0 \\ -4 & 1 & 0&\big|&0 \\ 1 & 0 & 0 &\big|&0 \end{bmatrix}$

$\Rightarrow \begin{bmatrix} 1 & 0 & 0 &\big|&0 \\ 0 & 1 & 0&\big|&0 \\ 0 & 0 & 0 &\big|&0 \end{bmatrix}$

$\Rightarrow x_1 = 0, x_2 = 0$

得基础解系：

$p_1=\begin{bmatrix} 0 \\ 0 \\ 1 \end{bmatrix}$

当 $\lambda=1$ 时， $(A-2E)x=0$

$\Rightarrow \begin{bmatrix} -2 & 1 & 0 \\ -4 & 2 & 0 \\ 1 & 0 & 1 \end{bmatrix}x=0$

矩阵行简化阶梯型求解方程：

$\Rightarrow \begin{bmatrix} -2 & 1 & 0 &\big|&0 \\ -4 & 2 & 0&\big|&0 \\ 1 & 0 & 1 &\big|&0 \end{bmatrix}$

$\Rightarrow \begin{bmatrix} 1 & 0 & 1 &\big|&0 \\0 & 1 & 2&\big|&0 \\ 0 & 0 & 0 &\big|&0 \end{bmatrix}$

$\Rightarrow x_1 +x_3= 0, x_2 +2x_3= 0$

得基础解系：

$p_2=\begin{bmatrix} -1 \\ -2 \\1 \end{bmatrix}$

主成分分析的计算步骤

主成分分析的主要步骤为：

原始数据减去平均值，使数据的均值变为0
计算协方差矩阵
计算协方差矩阵的特征值和特征向量
将特征值从大到小排序
保留最前面的k个特征向量
将数据转换到上述k个特征向量构建的新空间中。

下面我们直接用实际例子来看主成分分析的计算步骤。

例子：求 $A=\begin{bmatrix} 0&0&1&3&1 \\ -4 &-2&-2&-1&-1\end{bmatrix}$ 的主成分
解：

可以看到原始数据是一个2维数组，共有5个样本。

1. 原始数据减去平均值，使数据的均值变为0

第一个变量的均值为1，第二个变量的均值是-2，分别减去均值后，得到如下数据，后面的计算都会基于下面的矩阵进行计算：
$A'=\begin{bmatrix} -1&-1&0&2&0 \\ -2 &0&0&1&1\end{bmatrix}$

2. 计算协方差矩阵

协方差的计算公式为： $Cov(x,y)=\frac{\Sigma_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{n}$
由第一步我们已经知道 $\bar{x}=0,\bar{y}=0$ ，所以： $Cov(x,y)=\frac{\Sigma_{i=1}^nx_iy_i}{n}$

所以协方差矩阵 $C=A'A'^T=\frac{1}{5}\begin{bmatrix} -1&-1&0&2&0 \\ -2 &0&0&1&1\end{bmatrix} \begin{bmatrix} -1&-2\\ -1&0\\ 0&0\\ 2&1\\ 0&1\end{bmatrix} =\begin{bmatrix} \frac{6}{5}&\frac{4}{5}\\ \frac{4}{5}&\frac{6}{5}\\ \end{bmatrix}$

3. 计算协方差矩阵的特征值和特征向量

$|C-\lambda E|=\begin{vmatrix} \frac{6}{5}-\lambda&\frac{4}{5}\\ \frac{4}{5}&\frac{6}{5}-\lambda\\ \end{vmatrix}=(\frac{6}{5}-\lambda)^2-(\frac{4}{5})^2=(\frac{6}{5}-\lambda-\frac{4}{5})(\frac{6}{5}-\lambda+\frac{4}{5})=0$
所以特征值为 $\lambda_1=2,\lambda_2=\frac{2}{5}$

当 $\lambda=2$ 时， $(C-2E)x=0$

$\Rightarrow \begin{bmatrix}- \frac{4}{5} & \frac{4}{5} \\ \frac{4}{5} & -\frac{4}{5} \end{bmatrix}x=0$

矩阵行简化阶梯型求解方程：

$\Rightarrow \begin{bmatrix} - \frac{4}{5} & \frac{4}{5} &\big|&0 \\ \frac{4}{5} & -\frac{4}{5}&\big|&0 \end{bmatrix}$

$\Rightarrow \begin{bmatrix} 1 &-1 &\big|&0 \\ 0& 0&\big|&0 \end{bmatrix}$

$\Rightarrow x_1 -x_2= 0$

得基础解系：

$p_1=\begin{bmatrix} 1 \\1 \end{bmatrix}$

当 $\lambda=\frac{2}{5}$ 时， $(C-\frac{2}{5}E)x=0$

$\Rightarrow \begin{bmatrix} \frac{4}{5} & \frac{4}{5} \\ \frac{4}{5} & \frac{4}{5} \end{bmatrix}x=0$

矩阵行简化阶梯型求解方程：

$\Rightarrow \begin{bmatrix} \frac{4}{5} & \frac{4}{5} &\big|&0 \\ \frac{4}{5} & \frac{4}{5}&\big|&0 \end{bmatrix}$

$\Rightarrow \begin{bmatrix} 1 &1 &\big|&0 \\ 0& 0&\big|&0 \end{bmatrix}$

$\Rightarrow x_1 +x_2= 0$

得基础解系：

$p_2=\begin{bmatrix} 1 \\-1 \end{bmatrix}$

因为基的模都是1，所以:
$p_1'=\frac{p_1}{|p_1|}=\frac{1}{\sqrt{2}}\begin{bmatrix} 1 \\11 \end{bmatrix}=\begin{bmatrix} \frac{1}{\sqrt{2}} \\\frac{1}{\sqrt{2}} \end{bmatrix}$
$p_2'=\frac{p_2}{|p_2|}=\frac{1}{\sqrt{2}}\begin{bmatrix} 1 \\-1 \end{bmatrix}=\begin{bmatrix} \frac{1}{\sqrt{2}} \\-\frac{1}{\sqrt{2}} \end{bmatrix}$
4. 将特征值从大到小排序

所以特征值为 $\lambda_1=2,\lambda_2=\frac{2}{5}$ ， $\lambda_1>\lambda_2$

5. 保留最前面的k个特征向量
在这个例子中，我们只保留一个特征向量，即 $\lambda_1=2$ 对应的 $p_1'=\begin{bmatrix} \frac{1}{\sqrt{2}} \\\frac{1}{\sqrt{2}} \end{bmatrix}$

6. 将数据转换到上述k个特征向量构建的新空间中。

数据转化为 $Y=p_1'^TA'= \begin{bmatrix} \frac{1}{\sqrt{2}} &\frac{1}{\sqrt{2}} \end{bmatrix} \begin{bmatrix} -1&-1&0&2&0 \\ -2 &0&0&1&1\end{bmatrix}= \begin{bmatrix} -\frac{3}{\sqrt{2}}&-\frac{1}{\sqrt{2}}&0&\frac{3}{\sqrt{2}}&-\frac{1}{\sqrt{2}} \end{bmatrix}$

PCA主成分分析计算步骤

主成分分析

线性代数概念复习

向量的内积

基

协方差矩阵

实对称矩阵

特征值和特征向量

主成分分析的计算步骤

相关推荐