《深度学习》学习笔记【第三章:概率论与信息论】 3.9 常用的概率分布(4)

声明:仅用于自学。部分内容来自于网络,如有问题,请联系删除。

英文原文的官方网站,仅供参考:https://www.deeplearningbook.org/

第三章:概率论与信息论

3.9.6 混合分布

  通过组合一些简单的概率分布来定义一个新的概率分布也是很常见的。 一种通用的组合分布的常见方法是构造混合分布(mixture distribution)。 混合分布由几种组件分布组成。 在每次试验中,应通过从多元分布中对组件标识的采样结果中来确定应选择哪个组件分布来:


                     p ( x ) = ∑ i P ( c = i ) P ( x ∣ c = i ) , p(x)=\sum_{i}P(c=i)P(x|c=i), p(x)=iP(c=i)P(xc=i),          (3.29)


  其中,P(c)是对各组件的一个多元分布。
  我们已经看到了一个混合分布的例子:实值变量的经验分布对于每个训练示例来说,就是一个狄拉克分布为组件的混合分布。
  混合模型是一种用于组合概率分布以创建更丰富的分布的简单策略。 在第16章中,我们更详细地探讨了从简单概率分布构建复杂概率分布的技术。
  混合模型使我们能够一目了然地看到一个概念,该概念以后会变得至关重要。 潜变量(latent variable)是我们无法直接观察到的随机变量。 混合模型的组件表示变量 c 就提供了一个示例。 潜变量可能通过联合分布与x相关,在这种情况下, P ( x , c ) = P ( x ∣ c ) P ( c ) P(x,c)= P(x | c)P(c) Pxc=PxcPc。 潜变量上的分布P(c)和将潜在变量与可见变量相关联的分布 P(x | c)共同决定了分布P(x)的形状,尽管可能也不需要参考潜变量来描述P(x)。 潜变量将在16.5节中进一步讨论。
  高斯混合模型是一种非常强大且通用的混合模型,其中组件 p ( x ∣ c = i ) p(x | c = i) pxc=i是高斯分布。 每个组件都有各自的参数,均值μ(i)和协方差Σ(i)。 有一些混合模型可能具有更多约束。 例如,协方差可以通过约束 Σ ( i ) = Σ Σ^(i)=Σ Σi=Σ ∀ i ∀_i i的形式在组件之间共享参数。 与单个高斯分布一样,高斯混合可能会将每个组件的协方差矩阵约束为对角线或各向同性的。
  除了均值和协方差之外,高斯混合模型的参数还指定了赋予每个组件 i 的先验概率(prior probability) α i = P ( c = i ) α_i= P(c = i) αi=Pc=i。 “先验”一词表示在观测到x之前 传递给模型关于 c 的信念。 相比之下,P(c | x)是后验概率(posterior probability),因为它是在观测到 x 之后计算得出的。 高斯混合模型是概率密度的泛逼近器(universal approximator),在某种意义上,任何平滑密度都可以用足够多组件的高斯混合模型以任何特定的非零误差来近似逼近。
  图3.2显示了来自高斯混合模型的样本。

《深度学习》学习笔记【第三章:概率论与信息论】 3.9 常用的概率分布(4)
图3.2:高斯混合模型的样本 在此示例中,有三个组件。 从左到右,第一个组件具有各向同性的协方差矩阵,这意味着它在每个方向上具有相同的方差量。 第二个组件具有对角的协方差矩阵,这意味着它可以分别沿每个轴对齐的方向单独控制方差。 与沿 x 1 x_1 x1轴相比,此示例沿 x 2 x_2 x2轴的方差更大。 第三个组件具有满秩的协方差矩阵,使其能够沿着任意的基方向独立控制方差。