从条件概率到贝叶斯公式
在实际生活中,有时需要考虑在已知一个事件发生的条件下,另外一个事件发生的概率,这个概率即条件概率。本文将从概率出发,引出概率论与数理统计中非常重要的两个公式:全概率公式和贝叶斯公式。
首先,我们来看下什么是条件概率?
定义:设A、B是两个事件,且P(B)>0,则称比值
为在事件B已经发生的条件下,事件A发生的条件概率,记作P(A|B),即
。
如何理解这个条件概率的公式呢?
我们以古典概型(等可能概型)来理解上式。假设试验的基本事件总数为n,B所包含的基本事件数为m(M>0),AB所包含的基本事件数为k。因为事件B已经发生了,故而在考虑事件A发生的概率时,所有可能的结果一般不再是整个样本空间S,而是B中的结果,也就是说导致A发生的结果一定来源于B,根据古典概型中事件概率的计算可得:
从集合的角度,画个图可能更方便理解:
举个条件概率的栗子:
一个袋子中有3个黑球和7个白球,依次从袋子中不放回的取球两次,每次取一个球,现求:
(1) 已知第一次取出的是黑球,则第二次取出的也是黑球的概率;
(2)已知第二次取出的是回去,则第一次取出的也是黑球的概率。
设事件表示第i次取到黑球,i=1,2,则:
故:
上面的例子中,似乎表明对于不放回抽样,抽到黑球的概率与抽球的次序无关,每次抽到和黑球的概率相等。实际上,这种感觉是对的。生活中也有这样的例子,比如买**,在开奖前10天,你每天都去**站买一张号码不同的**,这10张**中奖的概率理论上是相同的。感兴趣的同学可以思考下这其中的原因。
接下来要说的是乘法公式和乘法定理,前文中我们已经得到了条件概率的公式:
P(B)>0时,;
P(A)>0时,
把条件概率的公式变一下,我们就得到了乘法公式:
乘法定理即乘法公式的扩展:
最后要介绍的就是全概率公式和贝叶斯公式:
全概率公式
定义:设S为试验E的样本空间,为E的一组事件,若
则称为样本空间S的一个划分或者分割。
全概率公式:设为样本空间S的一个划分,且
,则对任何事件A有
全概率公式的证明:
若,则:
类似地,我们也可以从集合的角度理解全概率公式,下图即全概率公式的图解:
举个全概率公式的栗子:
某工厂有四条流水线生产同一产品,四条流水线的产量分别占总产量的15%,20%,30%,35%,又知这四条流水线的不合格品率依次为0.05,0.04,0.03,0.02。现从出厂产品中任取一件,求恰好取到不合格品的概率。
设以A表示事件任取一件,恰好取到不合格品,表示任取一件取到第i条流水线的产品,i=1,2,3,4,则
构成样本空间的一个划分,且:
由全概率公式可得:
因此,从出厂产品中任取一件,恰好取到不合格品的概率是3.15%。
贝叶斯公式
在上述例子中,若该厂规定,出了不合格品要追究有关流水线的经济责任。现从出厂产品中任取一件,结果为不合格品,单该产品是那一条流水线生产的标志已经脱落,问该产品来自四条流水线其中某一条流水线的概率分别是多少?
上述问题实际上就是求在已经知道取到不合格品的条件下,该产品来自四条流水线其中某一条流水线的条件概率,则
同理,可求得
至此,我们引入了一个极为有用的公式,即如下的贝叶斯公式:
设为样本空间S的一个划分,且
,则对任何事件A,若
有
,此式即贝叶斯公式。
贝叶斯公式本质上就是条件概率公式,只不过是用乘法公式展开了条件概率公式中的分子,用全概率公式展开了条件概率公式中的分母。
PS:本文内容主要参考由高等教育出版社出版,严继高老师主编的《概率论与数理统计》一书