朴素贝叶斯定理一(原理与例子)
朴素贝叶斯算法常用于分类与预测的问题,比如给一个1000本书进行分类,可以分为文学类,管理类,技术类,教育类等等,即算法得到的结果是一组离散的代表类别的数据。比如,预测一株很美的植物,在不同的地理环境,如吉林,北京,广州,深圳,大理,不同的地点,在不同的日照和阳光强度下,这株植物会生存下来吗?是的这是个概率问题。
一 朴素贝叶斯的原理及理解
学习贝叶斯之前,我们了解下条件概率的概念
条件概率:事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”,看下下边的这张图(网上找来的^ - ^):
根据文氏图,可以很清楚地看到在事件B发生的情况下,事件A发生的概率就是P(A∩B)除以P(B)。
P(A|B)=P(A∩B)/P(B)
因此,P(A∩B)=P(A|B)P(B)
所以,P(A|B)P(B)=P(B|A)P(A)
即:P(A|B)=P(B|A)P(A)/P(B) — — — 公式(一)
没错,公式(一):P(A|B)=P(B|A)P(A)/P(B) 就是贝叶斯定理
二 关于贝叶斯定理,一个简单的应用示例
女孩子都喜欢买衣服,我也是个女孩子,一样也很喜欢,就举个买衣服的例子吧
下面有一组衣服的数据,我们来预测下,这位顾客可能更喜欢哪个类型的衣服
首先,先来计算下顾客购买与不购买的概率:
购买的衣服总数为6,衣服的总数为10,那么顾客购买衣服的概率为:
P(A1) = 6/10.0
不购买衣服的总数为4,衣服的总数为10,那么顾客不购买衣服的概率为:
P(A2) = 4/10.0 或 P(A2) = 1 - P(A1) = 1 - (6/10.0)
下面分别来计算下,在顾客购买的情况下,各类情况下的概率:
顾客购买,品牌为ONLY的条件概率:
购买的衣服中,为ONLY的个数为2,购买衣服的总数为6,衣服的总数为10,则品牌为ONLY顾客购买的条件概率为:
P(B1|A1) = 2 / 6.0
在总样本中,衣服为ONLY概率为:
P(B1) = 5 / 10.0
同理可以计算出:
品牌为森马,顾客购买的条件概率为:
P(B2|A1) = 4 / 6.0
在总样本中,衣服为森马的概率为:
P(B2) = 5 / 10.0
颜色为蓝色,顾客购买的条件概率为:
P(C1|A1) = 5 / 6.0
在总样本中,衣服为蓝色的概率为:
P(C1) = 5 / 10.0
顾客购买时,衣服为粉色的条件概率:
P(C2|A1) = 1 / 6.0
在总样本中,衣服为粉色的概率:
P(C2) = 5 / 10.0
顾客购买时,衣服的材质为纯棉的条件概率:
P(D1|A1) = 4 / 6.0
在总样本中,衣服为纯棉材质的概率:
P(D1) = 5 / 10.0
顾客购买时,衣服的材质为竹纤维的条件概率:
P(D2|A1) = 1 / 6.0
在总样本中,衣服为竹纤维材质的概率:
P(D2) = 5 / 10.0
现在应用贝叶斯定理,来做一个小小的预测:
顾客更喜欢购买下面哪一个产品:品牌为:ONLY、颜色为:蓝色、材质为:纯棉 与 品牌为:森马、颜色为:蓝色、材质为:竹纤维,哪一个产品?
我们计算下
P(A1|ONLY、蓝色、纯棉)
= ((P(B1|A1) * P(C1|A1) * P(D1|A1) )* P(A1) ) /( P(B1) * P(C1) * P(D1) )
=[ ((2/6.0)* (5/6.0)* (4/6.0)) * (6/10.0)] / [(5 / 10.0) * (5 / 10.0) * (5 / 10.0)]
P(A1|森马、蓝色、竹纤维)
= ( P(B2|A1) * P(C1|A1) * P(D2|A1))* P(A1) ) /( P(B2) * P(C1) * P(D2) )
= [ ((4 / 6.0)* (5/6.0)* (1 / 6.0)) * (6/10.0)] / [(5 / 10.0) * (5 / 10.0) * (5 / 10.0)]
我们来比较下两种商品购买的概率:
[ ((2/6.0)* (5/6.0)* (4/6.0)) * (6/10.0)] / [(5 / 10.0) * (5 / 10.0) * (5 / 10.0)]
[ ((4 / 6.0)* (5/6.0)* (1/ 6.0)) * (6/10.0)] / [(5 / 10.0) * (5 / 10.0) * (5 / 10.0)]
分母相同,分子偏大的结果更大,那么后者更大,所以我们推断,在纯棉蓝色ONLY家的连衣裙比竹纤维蓝色森马家的连衣裙更受顾客青睐,顾客购买前者的概率更大
细心的同学可能会发现,顾客不太喜欢竹纤维材质的连衣裙,因为影响分母结果的是这一项。
感兴趣的同学,可以计算下,其它的几类情况,比如:竹纤维蓝色ONLY,竹纤维粉色森马,然后比较所有情况的概率,就可以预测出顾客最喜欢哪种产品