背景
指数族分布的概率密度函数PDF或概率质量函数PMF的通用表达式框架为:
P(x∣η)=h(x)exp(ηTϕ(x)−A(η))
其中η为参数向量,x∈Rp,ϕ(x)是充分统计量,A(η)是对数配分函数log partition function,原因如下。我们假设有:
P(x∣θ)=z1P^(x∣θ)
上式中z为定义为配分函数,然后将表达式框架转换成:
P(x∣η)=h(x)exp(ηTϕ(x)−A(η))=exp(A(η))1h(x)exp(ηTϕ(x))
那么此时的z=exp(P(A(η))),所以有A(η)=logz,其中上文提到z定义为配分函数,前面加上log后就为对数配分函数
高斯分布的指数族形式
为加深记忆,再次申明:
η:参数 parameter
ϕ(x):充分统计量 sufficient statistics
A(η):对数配分函数 log partition function
对于分布满足X∼N(μ,σ2)的高斯分布:
P(x∣θ)=2πσ1exp{−2σ2(x−μ)2},θ=(μ,σ)=exp{(σμ2−2σ21)(xx2)−(2σ2μ2+21log2πσ2)}
其中:
ηT=(σμ2−2σ21),ϕ(x)=(xx2),A(η)=(2σ2μ2+21log2πσ2)
继续化简:
η=(η1η2)=(σ2μ−2σ21)⇒μ=−2η2η1,σ2=−2η21
将μ与σ代入,有:
ηT=(σμ2−2σ21),ϕ(x)=(xx2),A(η)=−4η2η12+21log(−η2π)
所以高斯分布的指数族分布表示形式为:
P(x∣η)=exp{ηTϕ(x)−A(η)}
对数配分函数A(η)与充分统计量ϕ(x)的关系
对指数族分布的概率密度函数中A(η)直接求导即可,直接上结论:
A′(η)=EP(x∣η)[ϕ(x)]=∫P(x∣η)ϕ(x)dxA′′(η)=VarP(x∣η)[ϕ(x)]
A(η)的一阶导数是ϕ(x)的期望,A(η)的二阶导数是ϕ(x)的方差,所以对数配分函数A(η)是convex function。
极大似然估计与充分统计量
求ηMLE,D={x1,x2,...,xN},通过最大似然估计MLE:
ηMLE=argmaxlogP(D∣η)=argmaxi=1∑NlogP(xi∣η)=argmaxi=1∑Nlog[h(xi)exp(ηTϕ(xi)−A(η))]∝argmaxi=1∑N(ηTϕ(xi)−A(η))
对η求偏导:
∂η∂(i=1∑N(ηTϕ(xi)−A(η)))=i=1∑Nϕ(xu)−NA′(η)=set0
那么有:
A′(ηMLE)=N1i=1∑Nϕ(xi)
只要求出A(η)的一阶导师再求反函数即可得出ηMILE的极大似然估计值。
从最大熵角度看指数族分布
信息量的定义为:−logP
熵的定义为:
EP(x)[−logP]=−∫P(x)logP(x)dx,连续分布=−x∑P(x)logP(x),离散分布
并且有:没有任何已知的情况下,均匀分布的熵最大这一性质。

所以由最大熵可推出P(x)满足指数族分布。
参考资料
1、机器学习白板推导
2、指数族分布