算法思想

LDA是经典的有监督的降维方法。而我们的降维方法，一般都是将样本数据进行投射。LDA的思想就是将样本投射到一条直线上，使同类的样本点尽可能的接近，而异类的样本点尽可能的远离。如下图所示：

LDA线性判别分析

算法推导

假设我们的样本数据是 $D = {(x_{1}, y_{1}), . . ., (x_{m}, y_{m})}$ 其中 $y_{i} \in {0, 1}$

我们假设 $x_{i}, μ_{i}, Σ_{i}$ 分别为第 $i$ 类样本的集合，均值以及协方差矩阵。

我们将数据映射到w上，则两类样本的中心点在直线上的投影分别为 $w^{T} μ_{0}, w^{T} μ_{1}$

将所有的数据投射到w上，则两类样本的协方差分别为 $w^{T} Σ_{0} w, w^{T} Σ_{1} w$

根据LDA的思想：

同类的样本点尽可能的接近，而异类的样本点尽可能的远离

有：

式子 $w^{T} Σ_{0} w + w^{T} Σ_{1} w$ 要尽可能的小

式子 $| | w^{T} μ_{0} - w^{T} μ_{1} | |_{2}^{2}$ 要尽可能的大

因此我们的目标转化为最大化：

$J = \frac{| | w^{T} μ_{0} - w^{T} μ_{1} | |_{2}^{2}}{w^{T} Σ_{0} w + w^{T} Σ_{1} w} = \frac{w^{T} (μ_{0} - μ_{1}) (μ_{0} - μ_{1})^{T} w}{w^{T} (Σ_{0} + Σ_{1}) w}$

我们可以定义类内散度矩阵：

$S_{w} = Σ_{0} + Σ_{1} = \sum_{x \in x_{0}} (x - μ_{0}) (x - μ_{0})^{T} + \sum_{x \in x_{1}} (x - μ_{1}) (x - μ_{1})^{T}$

类间散度矩阵：

$S_{b} = (μ_{0} - μ_{1}) (μ_{0} - μ_{1})^{T}$

所以优化目标变为：

$J = \frac{| | w^{T} μ_{0} - w^{T} μ_{1} | |_{2}^{2}}{w^{T} Σ_{0} w + w^{T} Σ_{1} w} = \frac{w^{T} (μ_{0} - μ_{1}) (μ_{0} - μ_{1})^{T} w}{w^{T} (Σ_{0} + Σ_{1}) w} = \frac{w^{T} S_{b} w}{w^{T} S_{w} w}$

下面我们的目标就是如何确定w。

上面的式子与w的大小无关，因此问题可以转换为：

$m i n_{w} - w^{T} S_{b} w$

$s . t . w^{T} S_{w} w = 1$

利用拉个朗日乘子法，有：

$S_{b} w = λ S_{w} w$

由于 $S_{b} = (μ_{0} - μ_{1}) (μ_{0} - μ_{1})^{T}$ ，因此可以令：

$S_{b} = λ (μ_{0} - μ_{1})$

带如式子有：

$w = S_{w}^{- 1} (μ_{0} - μ_{1})$

对 $S_{w}$ 做奇异值分解：

$S_{w} = U Σ V^{T}$

所以有：

$S_{w}^{- 1} = V Σ^{- 1} U^{T}$

因此可以得到投影向量：

$w = V Σ^{- 1} U^{T} (μ_{0} - μ_{1})$

多维场景

对于降维问题，如果降到多维的场景，可以如下处理：

$S_{b} W = λ S_{w} W$

有：

$S_{w}^{-} 1 S_{b} W = λ W$

因此只需要对 $S_{w}^{-} 1 S_{b}$ 做特征值分解，得到的最大的特征值对应的特征向量组成的矩阵就是多维的投影向量。

多分类场景

如果是多分类(假设为 $N$ )问题，则只需要修改下式即可：

$S_{b} = \sum_{i = 1}^{N} m_{i} (μ_{0} - μ_{i}) (μ_{0} - μ_{i})^{T}$

其中 $m_{i}$ 为第 $i$ 例样本的个数。

最后说一句

特征值分解或者奇异值分解无处不在啊。