统计推断(四) Information Geometry
1. Generalized Bayesian decision
-
Formulation
- Soft decision:
- Cost function:
-
Cost function
- proper:
- local:
-
Log-loss criterion:
- proper and local
Theorem: When the alphabet consists of at least 3 values (), then the log-loss is the only smooth local, proper cost function.
Proof: Let
- 由 locality 可推出 为常数,
-
Gibbs inequality
2. Discrete information theory
-
Entropy:
-
Conditional entropy:
-
Mutual information:
-
Conditional mutual information:
-
Chain rule:
-
-
Information divergence(KL distance)
- Definition
-
Properties
-
(只有 p=q 的时候才能取 = 吗?)
-
-
-
-
Data processing inequality (DPI)
Theorem: if is a Markov chain, then
with “=” is a Markov chainCorollary: deterministic ,
Corollary: t=t(y) is sufficient
Proof: 应用互信息链式法则
Remark: 证明不等式的时候注意取等号的条件
Theorem: 若
那么对任意 有Proof: 待完成 …
Theorem: 对确定性函数 ,,有
Proof: 待完成 …
3. Information geometry
-
Probability simplex
- 若字符集有 M 个字符,则概率单形为 M-1 维的超平面,且只位于第一象限
-
Boundary
- 根据 p,q 是否位于边界(即存在 ) 可决定 还是
-
Local information geometry
取 ,对任意分布(向量) 定义其归一化表示
的邻域被定义为一个球
那么对小邻域内的两个分布 有
证明:代入散度公式,应用泰勒级数展开化简。其中需要注意到
Remark:直观理解就是小邻域内散度近似为欧氏距离
4. Information projection
- Definition: q 向闭集 内的投影
- 存在性:由于 非负且对 p 连续,而 非空且为闭集,因此一定存在
- 唯一性:不一定唯一,但如果 为凸集,则 p* 唯一
- Pythagoras’ Theorem
Theorem(Pythagoras’ Theorem): p* 是 q 向非空闭凸集 上的投影,那么任意 有
Proof: 取由投影定义可知
代入化简可得证
Remark: 直观理解就是不可能通过多次中间投影,使整体的KL距离(散度)减小
Corollary: 如果 q 不在 的边界上,那么其在线性分布族 上的投影 也不可能在 的边界上,除非 中的所有元素都在某个边界上
Proof: 应用散度的 Boundary、毕达哥拉斯定理
-
Linear families
-
Definition: 是一个线性分布族,如果对于一组映射函数 和对应的常数 ,有 for all
-
性质
- 的维度为 M-rank(T)-1
- 是一个闭集、凸集
- ,那么 ,注意 可以取 [0,1] 之外的数
Theorem(Pythagoras’ Identity): q 向线性分布族 的投影 满足以下性质
Proof: 类似前面不等式的证明,只不过现在由于 所以不等号变成了等号Theorem(Orthogonal families): 为任一分布,则向线性分布族 的投影为 的所有分布都属于一个指数分布
$$
\mathcal{L}{\mathbf{t}}\left(p^{*}\right) \triangleq\left{p \in \mathcal{P}^{\mathcal{Y}}: \mathbb{E}{p}[\mathbf{t}(\mathbf{y})]=\overline{\mathbf{t}} \triangleq \mathbb{E}_{p^{*}}[\mathbf{t}(\mathbf{y})]\right} \\begin{aligned} \mathcal{E}_{\mathbf{t}}\left(p^{}\right) \triangleq\left{q \in \mathcal{P}^{\mathcal{Y}}: q(y)=p^{}(y) \exp \left{\mathbf{x}^{\mathrm{T}} \mathbf{t}(y)-\alpha(\mathbf{x})\right}\right.\ \text { for all }\left.y \in \mathcal{Y}, \text { some } \mathbf{x} \in \mathbb{R}^{K}\right} \end{aligned}
$$
其中需要注意的是 的表达形式并不唯一,括号内的 均可以替换为对应集合内的任意一个其他分布,他们表示的是同一个集合Remarks:
- 根据上面的定理,可以由 求出 q 向线性分布族的投影 p*
- 在小邻域范围内,可以发现 的正规化表示 ,即二者是正交的
-