Topic model回顾
经典的topic model的模型如下图所示

其中
θ∼Dir(α)zn∼Multi(θ)wn∼Multi(β)
所以可以得到文档W的似然函数:
p(W∣α,β)=∫θp(θ∣α)n=1∏Nzn∑p(wn∣β,zn)p(zn∣θ)dθ(1)
但是由于变量之间的耦合性,要求解上式很困难,所以一般应用平均场理论(mean-field)来简化模型。简化后的模型如下图所示。

这样就减少了变量之间的耦合性。
推导似然函数的变分下界(ELBO)
(1)式的对数似然函数为:
logp(W∣α,β)===≥log∫θz∑p(θ,z,W∣α,β)dθlog∫θz∑q(θ,z∣γ,ϕ)p(θ,z,W∣α,β)q(θ,z∣γ,ϕ)dθlogEq(θ,z∣γ,ϕ)q(θ,z∣γ,ϕ)p(θ,z,W∣α,β)Eqlogq(θ,z∣γ,ϕ)p(θ,z,W∣α,β)(2)
(2)式的第二行引入了变分后验q(θ,z∣γ,ϕ),第三行到第四行的推导使用了Jensen不等式。(2)式最后的推导结果也叫做ELBO,论文中作者令其为L(γ,ϕ∣α,β),下面开始化简ELBO。
ELBO=L(γ,ϕ∣α,β)===Eqlogq(θ,z∣γ,ϕ)p(θ,z,W∣α,β)Eqlogq(θ,z∣γ,ϕ)p(θ,z∣α,β)p(W∣θ,z,α,β)−DKL[q(θ,z∣γ,ϕ)∣∣p(θ,z∣α,β)]+Eq(θ,z∣γ,ϕ)[logp(W∣θ,z,α,β)](3)
(3)式就是最终的似然函数的下界,也就是模型的损失函数。(3)式在形式上与变分自编码器的损失函数高度一致。第一项衡量了变分后验q(θ,z∣γ,ϕ)与隐变量真实的后验p(θ,z∣α,β)之间的差异,第二项可以看作是通过变分后验求得的隐变量θ,z生成的文档,相当于一个生成器。第二项也叫做重构误差。
一般在计算第二项的时候要使用重参数化技巧(reparameterization trick),由于是两个隐变量,所以要分别对z和θ使用重参数化技巧。
z, θ的重参数化
首先看z, z服从多项式分布,对z进行重参数化存在一定的困难,但是由于z很容易被求和,所以本文作者就没有考虑z的重参数化,而是直接collapsing z(我也没有懂这是什么意思,大致就是不用考虑z的重参数化了)collapsing z之后就只需要考虑θ的重参数化了,(1)式的似然函数就变成了下式:
p(W∣α,β)=∫θp(θ∣α)n=1∏Np(wn∣β,θ)dθ(4)
上式中p(wn∣β,θ)是多项式分布,β是要求解的topic-word矩阵。
那么相应的(3)式也变成下式:
L(γ∣α,β)=−DKL[q(θ∣γ)∣∣p(θ∣α)]+Eq(θ∣γ)[logp(W∣θ,α,β)](5)
接下来考虑θ的重参数化,由于p(θ∣α)服从Dir分布,而Dir分布很难进行重参数化,所以本文作者使用 laplace 近似去近似Dir分布,(laplace近似就是使用高斯分布去近似另一个分布,高斯分布可以很好的进行重参数化)。
所以p(θ∣α)是高斯分布(p(θ∣α)=p(θ∣μ1,Σ1)),相应的q(θ∣γ)也为高斯分布(q(θ∣γ)=q(θ∣μ0,Σ0)),那么(5)式的第一项就是两个高斯分布的KL散度,第二项可以使用重参数化求解。(5)式变为下式:

μ0=fμ0(W),Σ0=fΣ0(W),f表示神经网络,W表示输入文档,这两个式子表示μ0,Σ0是通过神经网络变分推断得到的。
本篇论文的大致思想就结束了。