NMF经典论文：Algorithms for Non-negative Matrix Factorization（NIPS, 2001），此文主讲算法细节偏理论。
（话说怎么去掉图片默认水印，有点影响视觉效果。）

1.引言

NMF要做的，就是给定一个非负矩阵 $V \in R_{+}^{d \times n}$ ，要找两个非负矩阵因子 $W \in R_{+}^{d \times c}$ 和 $H \in R_{+}^{c \times n}$ ，使得：

\begin{matrix} (1) & V \approx W H \end{matrix}

V

看作数据矩阵，其中每一列是一个

d

维的样例（sample），

c

经常选取为比

d, n

都要小的一个数，事实上，NMF有很好的聚类特性，

c

可以看作是数据的聚类簇数。由于

W

和

H

都比原始数据矩阵

V

要小，所以NMF也顺道实现了数据的压缩表示。

继续来看式(1)，现在我们仅仅关注一个样例，即 $V$ 中的一列，用 $v$ 表示，对应的 $H$ 中的一列用 $h$ 表示，则有：

v \approx W h

这个表述有什么意思呢？它表示呀，

W

的列可以看作是

d

维空间的

c

个基，

h

指明了原始数据

v

用这c个基可以如何表示—–

v

由W的列线性组合而成，组合系数就是

h

中元素。

h

其实也就可以看作是原始数据

v

的一种低维表达（d—>c）。因为所有的数据都要由这c个基来表达，所以要想式(1)或式(2)有更低的近似误差，这组基必须能很好的发现数据的隐含结构。

矩阵分解问题，在数值线性代数中，已经研究得很广泛，由于NMF是带有非负约束的矩阵分解，所以以前的一些方法并不能直接很好的运用。于是也有了这篇文章的工作。

2.损失函数

评估 $V$ 和 $W H$ 间的近似程度，根据采用的不同误差度量准则，文章提出了两种损失函数。一个是平方欧式距离，一个是散度（divergence）。

非负矩阵分解(NMF)论文笔记（1）

如上图中最后一句话所述，当A,B矩阵满足元素和为1时，D(A||B)就是KL散度/相对熵。对应的，NMF的目标式就可以定义为如下两个：

min_{W \geq 0, H \geq 0} ‖ V - W H ‖_{F}^{2} min_{W \geq 0, H \geq 0} D (V | | W H)

上面两个目标式，对W或者H中一者而言是凸的（即固定一个变量，优化另一个变量时是凸的），但是对W和H两者同时而言是非凸的。

3.乘法更新准则

求解上一节中带约束的优化问题，梯度下降法可能是最简单的方法，它容易实现，但是呢，收敛也比较慢。其它的方法，比如共轭梯度法收敛快，但是不易实现。此外，这些基于梯度的方法，都需要确定一个参数，即步长，而调整这个步长参数也是比较麻烦的。为此，在收敛速度和算法实现难易之间折中一下，就是文章中提出的乘法更新准则了。
非负矩阵分解(NMF)论文笔记（1）

这里都说要W和H在距离函数的驻点上（函数的一阶导为0是驻点，另，二阶导为0是拐点），应该是指函数对W和H要可导（因下一节中要求偏导，此处仍存疑）。

4.乘法更新准则Vs.加法更新准则

这一节是说，乘法更新准则其实可以由加法更新准则得到，算得上是加法更新准则的一种特殊情况，这里的加法更新准则，就是传统的梯度下降。下面，以平方欧式距离为例，我们用梯度下降来更新H。首先，求一下梯度：

\frac{\partial J}{\partial H} = - W^{T} (V - W H)

所以，元素

H_{i j}

可以这样更新（论文中的下标是

a μ

，这个无所谓）：

\begin{matrix} (6) & H_{i j} := H_{i j} - η_{i j} \frac{\partial J}{\partial H_{i j}} = H_{i j} + η_{i j} ((W^{T} V)_{i j} - (W^{T} W H)_{i j}) \end{matrix}

这里步长

η_{i j}

只要设置得足够小（大于0），式(6)的加法更新准则就可以保证目标函数值减小。

接下来，我们给步长取一个很特殊的值：

\begin{matrix} (7) & η_{i j} = \frac{H_{i j}}{(W^{T} W H)_{i j}} \end{matrix}

代入式(6)，即可得到上一节式(4)中关于H的更新准则。

关于散度准则的目标式，就直接贴图了。
非负矩阵分解(NMF)论文笔记（1）

但是这样给 $η$ 取值，好像并不妥当，因为式(7)或者式(9)中的步长取值可能比较大，所以好像并不能保证由此得到的乘法更新准则一定能降低目标函数值。所以，在下一节，就是来证明这个问题的，我们将会看到，这样得到的乘法更新准则是能保证收敛的。

5.收敛性证明

收敛性证明是文章的一个重点，比较理论，但也正是最精妙处所在，证明过程将数学中的构造思想发挥得淋漓尽致。但是估计受nips篇幅限制，内容写的比较简洁，所以读起来也比较晦涩。下面边贴图，边补充论文中省略的推导过程。

我们还是以平方欧式距离为例进行说明，即下面对定理1进行证明，我们将会用到辅助函数，类似于EM算法中用到的，首先给出辅助函数的定义：
非负矩阵分解(NMF)论文笔记（1）

关于 $G$ ，简单理解为，给定变量 $h^{'}$ ， $G (h, h^{'})$ 是关于变量 $h$ 的函数。接下来是一个引理：
非负矩阵分解(NMF)论文笔记（1）
这个引理是说，给定 $h^{t}$ （迭代第t次时的变量值），我在最小化 $G (h, h^{t})$ 时，其实也实现了降低目标函数值F之目的。从下图，可以很清晰的看懂这个引理的证明过程。（proof中第一个小于等于是由于式(10)的左式，第三个等号是由于式(10)的右式，中间的小于等于是因为式(11).）
非负矩阵分解(NMF)论文笔记（1）

自自然然地，我们现在就想，NMF的目标式子，存不存在这样的辅助函数呢，如果存在，是什么？因为一旦能确定辅助函数，我们根据上面的定义和引理，就能证明前面定理的收敛性了。

文章很强势而直接地给出了辅助函数的表达式。贴图感受一下：
非负矩阵分解(NMF)论文笔记（1）
有时候，可以根据需要达到的目标，倒着推导我们达到目标需要哪些条件，我们可以怎样去构造，有时候，纯粹就是天才般的灵感，加上知识积累形成的直觉，直接就知道怎么做了。这里为什么要这么构造、能这么构造，关键还有这个K为什么这么取值，我目前能想到的只有，式(14)的形式是在跟目标式的二阶泰勒展开靠拢，而K跟步长的取值有关（倒数）。