朴素贝叶斯分类算法(Naive Bayes Classifier)
这个算法用的少,但是我真的想好好搞搞。写的过程,才是思考的过程。
朴素贝叶斯分类是较为简单的一种基于概率的分类方法。首先先说一下贝叶斯公式。
贝叶斯公式
贝叶斯公式有如下的形式:
(1)
对于分类而言,可以换一种描述方式:
(2)
在实际的应用中,某特征是由多个子特征构成的,比如说:
(3)
那么,公式(2)就可以描述为:
(4)
而朴素贝叶斯分类的“朴素”是什么意思呢,就是公式(3)中的各个子特征是相互独立的,那么,
(5)
那么,为什么要相互独立呢,可以想一想,如果不相互独立的话,那么,我们求
时,必须找到同时满足这些子特征概率,而不是单个子特征概率的乘积。当然, 也可以看到,如果假设相互独立的话,用于后续的分类会有偏差。
朴素贝叶斯分类
其实在上面已经说明了朴素贝叶斯分类的公式,比如说,当公式(4)的概率值如果大于0.5就是某个类,如果小于0.5就是另外一个类。下面用一个例子来说明。
例如,下面的例子,表格中的数据样本集,他们的类别只有0,1,特征有:特征1,特征2,特征3.
现在,新来了一个数据其特征为:(特征1=3,特征2=5,特征3=7),那么,它应该分到0类,还是分到1类呢。
根据朴素贝叶斯公式:
则
同理,
则
显然,
所以,我们就把新来的特征分到0类。