联合分布 & 条件分布 & 边缘分布

首先我们需要明确贝叶斯法则(Bayes’ Rule)。 
联合分布 & 条件分布 & 边缘分布
  接下来我们将讨论三种分布的概念:联合分布、边缘分布和条件分布。

联合分布

  很多情况下,我们对于几个变量同时的取值有关问题感兴趣,例如我们需要知道事件“ lntellegence = high 且Grade= A”的概率。分析这样的事件,则需要考虑两个随机变量的联合分布(joint distribution)。下图为联合分布的一个例子。 
联合分布 & 条件分布 & 边缘分布
  上图表示了随机变量  的一个联合分布,其中包含3个变量,分别是:(学生智力,有0和1两个取值)、(试卷难度,有0和1两个取值)、(成绩等级,有1、2、3三个取值)。故而这三个离散的随机变量共有  种联合分布状态。 
  上表中我们可以读出系统取值为这 12 个联合分布状态中任一个的概率,例如:

条件分布

   当对于一组随机变量,考虑其中某些变量取值特定值时,其余变量的分布是一种条件分布问题。可以看到,条件分布率就是在边缘分布率的基础上都加上“另一个随机变量取定某值”这个条件。简单来说,对于二维离散随机变量有 
   
   为在  条件下  的条件分布率. (其中  为固定的),也称作该联合分布在  上的条件分布。 
   
   回到上面的例子来看,下图中表是概率的联合分布,表中随便去掉所有包含某个值的行,就能对分布表进行缩减。例如可以去掉所有  不为 1 的行,这样就只剩下了 1、4、7、10 行,这样他们的概率之和就不为 1 了,所以需要重新标准化(Renormalization),从而推得原联合分布在  上的条件分布4。如图为推导过程。 
联合分布 & 条件分布 & 边缘分布
  剔除无关取值( 不为 1 的行) 
联合分布 & 条件分布 & 边缘分布
  标准化得到的值 
联合分布 & 条件分布 & 边缘分布
  即得到之前的联合分布在变量 Gradeg)上的条件分布为上图右边的表格。 
   
  反之也可以把所有含有某个值得行相加,这就是接下来要讲的边缘化(Marginalization)。由此可得联合分布在变量  上的边缘分布如下图右表。 
联合分布 & 条件分布 & 边缘分布

边缘分布

  一旦定义了随机变量,我们就可以在能够用  描述的事件上考虑分布。这个分布通常称为随机变量  的边缘分布(marginal distribution) ,记为  . 这时单独只考虑  的取值,与其它随机变量取什么值的概率无关了。 
   
  例如,在联合分布例子里, 的边缘分布为: 
   
  

一个例子区分三种分布

  为了避免混淆三种分布的定义,这里举一个最简单的例子。设  的联合分布如下

(横轴是的取值,纵轴是的取值)
0.1 0.3 0.1 0.5
0.2 0.2 0.1 0.5
0.3 0.5 0.2  

  即两者的边缘分布

两个表格的分割线
  0.5 0.5 两个表格的分割线   0.3 0.5 0.2

  在  的条件下, 的条件分布为