疾病检测与贝叶斯应用
疾病监测与贝叶斯
问题引入
举个例子,我们去医院检查某种疾病,一般都会让你做个检查,检查的结果,有可能是阳性,也有可能是阴性。通常呢,我们是不大希望是阳性的,这意味着我们患病的可能性非常大,一般人看到阳性后,都比较恐慌。
假如有一台机器,通过对患者血液的分析(检测结果阳性或者阴性),来判断一个人是否有艾滋病。如果一个人是艾滋病患者,那么检测后,结果显示为阳性的概率为99%。如果一个人不是艾滋病患者,那么检测后,结果显示为阳性的概率为1%(即该设备的可靠性是99%)。
那么问题来了,如果一个人经过检测后,检测结果是阳性。那么这个人是艾滋病患者的概率有多大呢?
首先,大家从直觉出发,可能认为既然这个设备的准确率是99%。那么这个人经过设备的检测是阳性,则他得病的概率应该是非常大。那么,我们来具体分析下这个问题
问题分析
处理任何问题,都是需要方法论的,我们不能总是靠灵感或者是感觉去分析问题,所以我们先对这个问题进行分解,那么首先定位人群是如何的。
- 人分为:得病的人 VS 无病的人
- 得病的人分为:正确被预测的人 VS 错误被预测的人
- 无病的人分为:正确被预测的人 VS 错误被预测的人
(读者可以自行画个图,拓扑图或者脑图)上面写的稍微抽象了些,下面我来举个例子,假设总人口是1000000,患艾滋病的概率是
110000 。因此可以理解为患病人数为100人,未患病人数为990000。对于100名患者而言,由于检测的准确率是99%,则99人检测是阳性。有病并且可以正确的检测出来,我们称之为正确发现(True Positive)。对于990000个未患病的人来说,由于这个设备有1%的错误率,则有9900个人被检测是阳性(False Positive)。则总共检测是阳性的人数是9999个,真正的患病人数才是99个。那么如果检测结果是阳性,那么他得病的可能性仅仅是1%。
贴个图:
所以即使检测出是阳性,也不要过分紧张。
贝叶斯公式
下面我们进行公式推导,假设
- H代表患病;
-
H′ 代表未患病; - P代表检测结果是阳性;
-
P′ 代表检测结果是非阳性;
我们需要求:
按照上面的例子
-
P(H)=110000 -
P(P|H)=99100
剩下的大家自己计算吧。
总结
问题分析到现在,也许有人会问。既然检测结果是呈阳性,仍然不能判断这个人是否患病,那么这个意义何在呢?那么我们来分析下,首先,从人群中任意抽出一个人,其患病的概率是
P(H)=110000 ,如果结果呈现阳性,那么患病概率提高100倍。这个就是这个检测的意义所在。