6 概率图模型

  • 形容概率图模型,“优雅”。

  • 对ー个实际问题,希望能挖掘隐含在数据中的知识。

  • 概率图模型构建这样一幅图,用观测结点表示观测到的数据,

    • 隐含结点表示潜在的知识
    • 边来描述知识与数据的相互关系
    • 最后基于这样的关系图获得一个概率分布
  • 概率图中的节点分为隐含节点和观测节点,边分有向和无向

  • 节点对应于随机变量,边对应于随机变量的依赖或相关关系,

    • 有向表示单向的依赖,
    • 无向边表示相互依赖

  • 概率图模型分贝叶斯网络和马尔可夫网络
  • 有向图
    • 无向图
  • 概率图模型:
    • 朴素贝叶斯、最大熵、隐马尔可夫、条件随机场、主题模型

1 概率图模型的联合概率分布

场景描述

  • 概率图模型最“精彩”
    • 就是能够用简洁清晰的图表达概率生成的关系
  • 而通过概率图还原其概率分布
    • 是概率图模型最重要的功能
  • 考查能否根据贝叶斯网络和马尔可夫网络的概率图还原其联合概率分布。

能否写出图6.1(a)中贝叶斯网络的联合概率分布?

6 概率图模型

  • 在给定A的条件下B和C条件独立
    • 可得

P(B,CA)=P(CA)P(BA)P(B,C|A)=P(C|A)P(B|A)

6 概率图模型

袁术这里写的太啰嗦了

图6.1(b)中马尔可夫网络的联合概率分布?

  • 马尔可夫网络中,联合概率分布的定义为

6 概率图模型

  • C为图中最大团所构成的集合

6 概率图模型

  • 归ー化因子,
  • 是与团Q对应的势函数。
    • 非负,且应在概率较大的变量上取较大值

6 概率图模型

6 概率图模型

  • 图6.1中,联合概率分布

6 概率图模型

  • 如果采用式(6.5)作为势函数,则有

6 概率图模型

2 概率图表示

场景描述

  • 上节通过概率图还原模型联合概率分布
  • 考查面试者能否给出模型的概率图表示。

解释朴素贝叶斯模型的原理,并给出概率图模型表示。

  • 朴素贝叶斯通过预测指定样本属于特定类别的概率P(Wlx)来
    预测该样本的所属类别,即

6 概率图模型

6 概率图模型

  • x=(x1,,xn)x=(x_1,\cdots,x_n)为样本对应的特征向量
  • P(x)P(x)为样本的先验概率。
  • 设特征x1,...,xnx_1,...,x_n独立,可得

6 概率图模型

  • P(x1yi),P(x2yi),...P(x_1|y_i),P(x_2|y_i),...,及P(yi)P(y_i)可通过训练样本统计得到
  • 后验概率P(xjyi)P(x_j|y_i)的取值决定分类的结果,
    • 且任意特征xix_i都由yiy_i所影响。
  • 因此可用图6.2

6 概率图模型

  • 图6.2的表示为盘式记法。
  • 如果变量yy同时对x1,x2,...xNx_1,x_2,...x_N这N个变量产生影响,
    • 则可简记成图6.2

最大熵模型原理,并给出概率图模型表示

  • 信息是指人们对事物理解的不确定性的降低或消除,
    • 熵就是不确定性的度量,熵越大,不确定性也越大
    • 最大熵原理是概率模型学习的一个准则,在满足约束条件的模型集合中选取熵最大的模型,即不确定性最大的模型
    • 鸡蛋不能放在一个篮子里,就是指在事情具有不确定性的时候,我们倾向于尝试它的多种可能性,从而降低结果的风险。
    • 摸清事情背后的规律后,可加入一个约束,将不符合规律约束的情况排除,在剩下的可能性中去寻找使得熵最大的决策。

  • 设离散随机变量xx的分布是P(x)P(x)

6 概率图模型

  • xx服从均匀分布时
    • 熵最大
    • 不确定性最高
  • 离散随机变量xxyy上的条件概率分布P(yx)P(y|x),
  • 定义在条件概率上的条件熵为

6 概率图模型

  • 样本在训练数据集上的经验分布
    • xx的各个取值在样本中出现的频率统计。

  • 最大熵模型学习分布P(yx)P(y|x),使条件熵H(P)H(P)最大
  • 在对训练数据集一无所知的情况下,最大熵模型认为P(yx)P(y|x)均匀分布
  • 有训练集后?
  • 希望从中找到一些规律,消除不确定性,这时就用到特征函数
  • 特征函数描述输入xx和输出yy之间的一个规律
    • 例如当x=y时,f(x,y)f(x,y)等于一个较大的正数。
    • 为使学习到的模型能正确捕捉训练数据集中的这一规律(特征)
    • 加入一个约束
    • 使特征函数关于经验分布的期望值与
    • 关于模型P(yx)P(y|x)和经验分布P(x)P(x)的期望相等

6 概率图模型

  • 特征函数关于经验分布的期望值

6 概率图模型

  • 关于模型和经验分布的期望

6 概率图模型

  • 给定训练数据集T={(x1,y1)(x2,y2)(xN,yN)}T=\{(x_1,y_1)、(x_2,y_2)\cdots(x_N,y_N)\}
  • 最大熵模型的学习等价于约東最优化

6 概率图模型

  • 求解后可以得到最大熵模型的表达形式为

6 概率图模型

  • 最大熵模型归结为学习最佳的参数ww,使Pw(yx)P_w(y|x)最大化