机器学习——指数族分布

背景

指数族分布的概率密度函数PDF或概率质量函数PMF的通用表达式框架为:
P(xη)=h(x)exp(ηTϕ(x)A(η)) P(x|\eta)=h(x)\exp(\eta^T\phi(x)-A(\eta))
其中η\eta为参数向量,xRpx\in\mathbb{R}^pϕ(x)\phi(x)充分统计量A(η)A(\eta)对数配分函数log partition function,原因如下。我们假设有:
P(xθ)=1zP^(xθ) P(x|\theta)=\frac{1}{z}\hat{P}(x|\theta)
上式中zz为定义为配分函数,然后将表达式框架转换成:
P(xη)=h(x)exp(ηTϕ(x)A(η))=1exp(A(η))h(x)exp(ηTϕ(x)) P(x|\eta)=h(x)\exp(\eta^T\phi(x)-A(\eta)) \\=\frac{1}{\exp(A(\eta))}h(x)\exp(\eta^T\phi(x))
那么此时的z=exp(P(A(η)))z=\exp(P(A(\eta))),所以有A(η)=logzA(\eta)=\log z,其中上文提到zz定义为配分函数,前面加上log\log后就为对数配分函数

高斯分布的指数族形式

为加深记忆,再次申明:
η\eta:参数 parameter
ϕ(x)\phi(x)充分统计量 sufficient statistics
A(η)A(\eta)对数配分函数 log partition function
对于分布满足XN(μ,σ2)X\sim N(\mu,\sigma ^{2})的高斯分布:
P(xθ)=12πσexp{(xμ)22σ2},θ=(μ,σ)=exp{(μσ212σ2)(xx2)(μ22σ2+12log2πσ2)} P(x|\theta)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left\{ -\frac{(x-\mu)^2}{2\sigma^2}\right\},\theta=(\mu,\sigma) \\=\exp\left\{ (\frac{\mu}{\sigma}^2-\frac{1}{2\sigma^2}) \begin{pmatrix} x\\ x^2 \end{pmatrix} -(\frac{\mu^2}{2\sigma^2}+\frac{1}{2}\log2\pi\sigma^2) \right\}
其中:
ηT=(μσ212σ2),ϕ(x)=(xx2),A(η)=(μ22σ2+12log2πσ2) \eta^T=(\frac{\mu}{\sigma}^2-\frac{1}{2\sigma^2}) ,\phi(x)=\begin{pmatrix} x\\ x^2 \end{pmatrix},A(\eta)=(\frac{\mu^2}{2\sigma^2}+\frac{1}{2}\log2\pi\sigma^2)
继续化简:
η=(η1η2)=(μσ212σ2)μ=η12η2,σ2=12η2 \eta=\begin{pmatrix} \eta_1\\ \eta_2 \end{pmatrix} =\begin{pmatrix} \frac{\mu}{\sigma^2}\\ -\frac{1}{2\sigma^2} \end{pmatrix}\Rightarrow\mu=-\frac{\eta_1}{2\eta_2},\sigma^2=-\frac{1}{2\eta^2}
μ\muσ\sigma代入,有:
ηT=(μσ212σ2),ϕ(x)=(xx2),A(η)=η124η2+12log(πη2) \eta^T=(\frac{\mu}{\sigma}^2-\frac{1}{2\sigma^2}) ,\phi(x)=\begin{pmatrix} x\\ x^2 \end{pmatrix},A(\eta)=-\frac{\eta_1^2}{4\eta^2}+\frac{1}{2}\log(-\frac{\pi}{\eta_2})
所以高斯分布的指数族分布表示形式为:
P(xη)=exp{ηTϕ(x)A(η)} P(x|\eta) = exp\left\{ \eta^T\phi(x)-A(\eta)\right\}

对数配分函数A(η)A(\eta)与充分统计量ϕ(x)\phi(x)的关系

对指数族分布的概率密度函数中A(η)A(\eta)直接求导即可,直接上结论:
A(η)=EP(xη)[ϕ(x)]=P(xη)ϕ(x)dxA(η)=VarP(xη)[ϕ(x)] A'(\eta) = E_{P(x|\eta)}[\phi(x)]=\int P(x|\eta)\phi(x)dx\\ A''(\eta) = Var_{P(x|\eta)}[\phi(x)]
A(η)A(\eta)一阶导数ϕ(x)\phi(x)的期望,A(η)A(\eta)二阶导数ϕ(x)\phi(x)的方差,所以对数配分函数A(η)A(\eta)convex function

极大似然估计与充分统计量

ηMLE\eta_{MLE}D={x1,x2,...,xN}D=\left\{ x_1,x_2,...,x_N\right\},通过最大似然估计MLE:
ηMLE=argmaxlogP(Dη)=argmaxi=1NlogP(xiη)=argmaxi=1Nlog[h(xi)exp(ηTϕ(xi)A(η))]argmaxi=1N(ηTϕ(xi)A(η)) \eta_{MLE}=\arg\max \log P(D|\eta) \\=\arg\max \sum_{i=1}^{N}\log P(x_i|\eta) \\=\arg\max \sum_{i=1}^{N}\log[h(x_i)\exp(\eta^T\phi(x_i)-A(\eta))] \\ \propto \arg\max \sum_{i=1}^{N}(\eta^T\phi(x_i)-A(\eta))
η\eta求偏导:
η(i=1N(ηTϕ(xi)A(η)))=i=1Nϕ(xu)NA(η)=set0 \frac{\partial{}}{\partial{\eta}}( \sum_{i=1}^{N}(\eta^T\phi(x_i)-A(\eta))) \\=\sum_{i=1}^{N}\phi(x_u)-NA'(\eta) \overset{set}{=}0
那么有:
A(ηMLE)=1Ni=1Nϕ(xi) A'(\eta_{MLE})=\frac{1}{N}\sum_{i=1}^N\phi(x_i)
只要求出A(η)A(\eta)的一阶导师再求反函数即可得出ηMILE\eta_{MILE}的极大似然估计值。

从最大熵角度看指数族分布

信息量的定义为:logP-\log P
的定义为:
EP(x)[logP]=P(x)logP(x)dx=xP(x)logP(x) E_{P(x)}[-\log P]=-\int P(x)\log P(x)dx,连续分布 \\=-\sum_x P(x)\log P(x),离散分布
并且有:没有任何已知的情况下,均匀分布的熵最大这一性质。
机器学习——指数族分布
所以由最大熵可推出P(x)P(x)满足指数族分布。

参考资料

1、机器学习白板推导
2、指数族分布