MLAPP Chapter2 概率论回顾

2 概率 Probability

2.1 介绍

概率论只不过是把常识简化为计算——皮埃尔·拉普拉斯

在前一章中,我们看到概率如何在机器学习中发挥作用。在本章中,我们将更详细地讨论概率论。

让我们先停下来问一下:概率是什么? 我们都熟悉“硬币正面落地的概率是0.5”这句话。但这是什么意思呢?实际上对概率至少有两种不同的解释。

一种叫做频率论(frequentist)解释,在此观点中,概率表示事件的长期运行频率。例如,上面的陈述意味着,如果我们抛硬币很多次,我们期望硬币正面朝上的情况占一半。

另一种叫做概率的贝叶斯(Bayesian)解释。在这个观点中,概率被用来量化我们对某事的不确定性(uncertainty);因此,它从根本上与信息而不是重复试验相关(Jaynes 2003)。在贝叶斯的观点中,上面的陈述意味着我们相信硬币在下一次抛硬币时正面或反面的概率是相等的。

贝叶斯解释的一个重要优点是,它可以用来对没有长期频率的事件进行建模。

为了给出更多面向机器学习的示例,我们可能已经收到了一个特定的电子邮件消息,并希望计算出它是垃圾邮件的概率。或者我们可能已经在雷达屏幕上看到了一个“光点”,并且想要计算出对应目标(无论是鸟、飞机还是导弹)的位置上的概率分布。

在所有这些情况下,重复试验的想法是没有意义的,但是贝叶斯解释是有效的,而且确实很自然。

因此,我们将在本书中采用贝叶斯解释。幸运的是,无论采用何种解释,概率论的基本规则是相同的。

2.2 概率论的简要回顾

这一部分是概率论基础的一个非常简短的回顾,仅仅是为那些可能“生锈”的读者准备的复习。已经熟悉这些基本知识的读者可以安全地跳过这一部分。

2.2.1 离散随机变量 Discrete random variables

2.2.2 基本原则 Fundamental rules

2.2.2.1两个事件并的概率

给定的两个事件,A和B,A或B的概率我们定义如下:
p(A∨B)= p(A)+ p(B)−p(A∧B)
= p(A) + p(B) .如果A和B是互斥的

2.2.2.2联合概率

我们定义联合事件A和B的概率如下:p(A,B)= p(A∧B)= p(A | B)(B) 这有时被称为乘积法则。给定两个事件p(A,B)的联合分布(joint distribution),我们定义边际分布如下:

p(A)=bp(A,B)=bp(A|B=b)p(B=b)(2.4)

对B的所有可能状态求和,我们可以用类似的方法定义p(B)。
这有时被称为求和规则(sum rule)或总概率规则(rule of total probability)。
乘积法则可多次应用于概率的链式法则:
p(X1:D)=p(X1)p(X2|X1)p(X3|X2,X1)p(X4|X1,X2,X3)...p(XD|X1:D12.5

我们引入类似matlab的符号1:D来表示集合{1,2,…D }。

2.2.2.3 条件概率 Conditional probability

我们定义事件A的条件概率,假设事件B为可能事件,如下:

p(A|B)=p(A,B)p(B)ifp(B)>0

2.2.3 Bayes rule

将条件概率的定义与乘积和求和规则结合起来得到贝叶斯法则,也称为贝叶斯定理。

p(X=x|Y=y)=p(X=x,Y=y)p(Y=y)=p(X=x)p(Y=y|X=x)xp(X=x)p(Y=y|X=x)(2.7)

2.2.3.1 Example: medical diagnosis

作为如何使用此规则的示例,考虑以下医疗诊断问题。假设你是一个40多岁的女人,你决定做一个乳腺x光检查。如果检测呈阳性,患癌症的概率是多少?这显然取决于测试的可靠性。
假设你被告知此测试有一个敏感度(sensitivity):80%,就是说如果你患有乳腺癌,测出阳性的概率为80%,即:

p(x=1|y=1)=0.8

x=1是指事件:乳腺x光检查为阳性,y=1是指事件:你患有乳腺癌。很多人因此主观地认为他们患有乳腺癌的概率为80%,但这是错的,忽略了患乳腺癌的先验概率(prior probability)很低:
p(y=1)=0.004

忽略这种先验被称为基准概率谬误(base rate fallacy),我们还需要考虑到这样一个事实,即测试可能是一个误报。不幸的是,这种误报(以目前的筛查技术)是很有可能的:
p(x=1|y=0)=0.1

利用贝叶斯规则将这三项结合起来,我们可以计算出如下的正确答案:
p(y=1|x=1)=p(x=1|y=1)p(y=1)p(x=1|y=1)p(y=1)+p(x=1|y=0)p(y=0)=0.8×0.0040.8×0.004+0.1×0.996=0.031

也就是说,如果你检测出阳性,你只有3%左右的可能性患乳腺癌。

2.2.3.2 生成分类器

2.2.4 独立和条件独立

如果我们能把联合概率表示为两个边缘概率的乘积,我们说X和Y是无条件独立的,或者是边缘独立(marginally independent)的:X⊥Y
不幸的是,无条件独立很少见,因为大多数变量可以被大多数的其他变量影响。然而,这种影响通常是通过其他变量而不是直接的。因此我们说X和Y是条件独立(conditionally independent(CI)),给定Z ,条件联合概率可以写成条件边缘概率的乘积:

XY|Zp(X,Y|Z)=P(X|Z)P(Y|Z)

在第十章讨论图表模型(graphical models)时,我们会知道可以把上述假设写成图 X - Z - Y ,描述了一种直观的概念:所有X与Y之间的联系都是通过Z发生的。例如,在知道今天是否下雨了(事件Z)的情况下,明天将下雨(事件(X))的概率是独立于今天地面是否湿的(事件Y),直观地说,这是因为Z“造成”了X和Y,所以如果我们知道Z,那我们不需要知道Y就可以预测X,反之亦然。我们将在第10章中详述这一概念。
定理2.2.1:对于所有的x,y,z都有p(z)> 0,如果存在函数g、h,使:
p(x,y|z)=g(x,z)h(y,z)(2.16)

那么X ⊥ Y |Z
CI假设允许我们从局部开始构建概率模型。我们将在这本书中看到很多这样的例子。特别是在第3.5节中,我们讨论了朴素贝叶斯分类器,在第17.2节,我们讨论了马尔可夫模型,在第10章中,我们讨论了图形模型;所有这些模型都充分利用了CI属性。

2.2.5 连续随机变量

到目前为止,我们只考虑了离散随机变量的推理。现在我们将展示(Jaynes 2003, p107)如何将概率扩展到连续随机变量。
假设X是一个连续随机变量。X处于任何区间的概率a≤X≤b可以计算如下。定义事件A=(X≤a),B =(X≤B)和W =(a< X≤b)。我们有B =A∨W,因为A和W是互斥的,求和规则:

p(B)=p(A)+p(W)

因此
p(W)=p(B)p(A)

定义函数F(q)p(Xq)。这就是所谓的累积分布函数(cdf),这显然是一个单调递增函数。
(以下概率论基础知识略)

2.2.6 分位数

2.2.7 期望和方差

2.3 一些常见的离散型分布

2.3.1 二项分布和伯努利分布(The binomial and Bernoulli distributions)

二项分布:mean = θ, var = nθ(1 − θ)

Bin(k|n,θ)(nk)θk(1θnk)

(nk)n!(nk)!k!

伯努利分布:
Ber(x|θ)=θ(x=1)(1θ)(x=0)


Ber(x|θ)={θif x=11θif x=0

2.3.2 多项式和多项式分布(The multinomial and multinoulli distributions)

二项分布可用于模拟抛硬币的结果,如果要建立抛掷k面骰子的结果模型,我们可以使用多项式分布。定义如下:X=(X1xK)是一个随机向量。X有以下pmf(注:probability mass function ,概率质量函数,p() ):

Mu(x|n,θ)(nx1x2...xK)j=1Kθjxj

其中xj是骰子的第j面扔出向上的次数
(nx1x2...xK)n!x1!x2!...xK!

是多项式系数。假设n = 1。这就像掷一次k面骰子,所以x是0s和1s(位向量)的向量,其中只有一个位可以被打开。具体地说,如果骰子显示为面k,那么第k位将是on。在这种情况下,我们可以认为x是一个具有K个状态(值)的标量分类随机变量,x是它的伪编码,即:x=[(x=1),...,(x=K)] 例如,如果K = 3,我们将状态1、2和3编码为(1,0,0)、(0,1,0)和(0,0,1),这也被称为one-hot encoding,因为我们认为只有一个K“线”是“热”的,或者说是“on”。在这种情况下,pmf变成:
Mu(x|1,θ)=j=1Kθj(xj=1)

我们定义
Cat(x|θ)Mu(x|1,θ)

也就是说,
if  xCat(θ), then p(x=j|θ)=θj
总结如下:
MLAPP Chapter2 概率论回顾

2.3.2.1 应用:DNA序列图案

2.3.3 泊松分布(The Poisson distribution)

2.3.4 经验分布(The empirical distribution)

2.4 一些常见的连续型分布

2.4.1 高斯(正态)分布

2.4.2 退化概率密度函数

在极限情况下,σ20,高斯分布变得无限高、无限薄,集中在μ,成为自变量为(x - υ)的狄拉克δ函数。
高斯分布的一个问题是它对离群值很敏感,因为它的对数概率远离中心的时候与到中心的距离成平方地减小。更稳健的分布是学生分布。

2.4.3 拉普拉斯分布

2.4.4 伽马分布

伽玛分布是正实值的弹性分布,X>0。它有两个参数,称为形状 a >0 和速率 b > 0:

Ga(T|shape=a,rate=b)baΓ(a)Ta1eTb

其中Γ(a) 是伽马函数:
Γ(x)0ux1eudu

伽马分布的期望为 ab , mode(即一个分布的MAP最大后验估计)为 a1b,方差为ab2
有几个分布是伽马分布的特殊情况,如下:

  • 指数分布 定义Expon(x|λ)Ga(x|1,λ)λ 是速率因子,指数分布描述了泊松过程中各事件发生的次数,在泊松过程中事件以一种恒定的平均速率λ,独立连续地发生。
  • 厄兰分布 定义为a为整数的伽马分布,通常取2。
  • 卡方分布 定义 χ2(x|υ)Ga(x|υ2,12) 是标准正态随机变量平方和的分布

2.4.5 贝塔分布

贝塔分布自变量在0到1的区间内,定义:

Beta(x|a,b)=1B(a,b)xa1(1x)b1

其中B(p,q) 是贝塔函数,
B(a,b)Γ(a)Γ(b)Γ(a+b)

2.4.6 帕累托分布

2.5 联合概率分布

到目前为止,我们主要关注的是建立单变量概率分布的模型。在本节中,我们将开始讨论在多个相关随机变量上构建联合概率分布这一更具挑战性的问题;这将是本书的中心话题。
对于一组D > 1变量,联合概率分布具有p(x1xD)形式,并对变量之间的(随机)关系建模。如果所有的变量都是离散的,我们可以将联合分布表示为一个大的多维数组,每个维度有一个变量。然而,定义这样一个模型所需的参数数是O(KD),其中K是每个变量的状态数。
我们可以通过做条件独立假设,用更少的参数来定义高维联合分布,正如我们在第10章中解释的那样。在连续分布中,另一种方法是将条件密度函数的形式限制为某些函数形式,我们将在后面研究其中的一些形式。

2.5.1 协方差和相关性

协方差矩阵

2.5.2 多元高斯

2.5.3 多元学生

2.6 随机变量的转换

2.6.1 线性

2.6.2 通用

2.6.1 多元变化

2.6.3 中心极限定理

2.7 蒙特卡洛模拟

2.7.1 例子:MC方法多元变化

2.7.2 例子:算pai

2.7.3 蒙特卡洛的精确度