朴素贝叶斯分类算法(Naive Bayes Classifier)

这个算法用的少,但是我真的想好好搞搞。写的过程,才是思考的过程。

朴素贝叶斯分类是较为简单的一种基于概率的分类方法。首先先说一下贝叶斯公式。


贝叶斯公式


贝叶斯公式有如下的形式:

朴素贝叶斯分类算法(Naive Bayes Classifier)(1)

对于分类而言,可以换一种描述方式:


朴素贝叶斯分类算法(Naive Bayes Classifier)(2)

在实际的应用中,某特征是由多个子特征构成的,比如说:

朴素贝叶斯分类算法(Naive Bayes Classifier)(3)


那么,公式(2)就可以描述为:

朴素贝叶斯分类算法(Naive Bayes Classifier)(4)

而朴素贝叶斯分类的“朴素”是什么意思呢,就是公式(3)中的各个子特征是相互独立的,那么,

朴素贝叶斯分类算法(Naive Bayes Classifier)(5)

那么,为什么要相互独立呢,可以想一想,如果不相互独立的话,那么,我们求

朴素贝叶斯分类算法(Naive Bayes Classifier)时,必须找到同时满足这些子特征概率,而不是单个子特征概率的乘积。当然, 也可以看到,如果假设相互独立的话,用于后续的分类会有偏差。


朴素贝叶斯分类

其实在上面已经说明了朴素贝叶斯分类的公式,比如说,当公式(4)的概率值如果大于0.5就是某个类,如果小于0.5就是另外一个类。下面用一个例子来说明。

例如,下面的例子,表格中的数据样本集,他们的类别只有0,1,特征有:特征1,特征2,特征3.

朴素贝叶斯分类算法(Naive Bayes Classifier)

现在,新来了一个数据其特征为:(特征1=3,特征2=5,特征3=7),那么,它应该分到0类,还是分到1类呢。

根据朴素贝叶斯公式:

朴素贝叶斯分类算法(Naive Bayes Classifier)

朴素贝叶斯分类算法(Naive Bayes Classifier)

同理,

朴素贝叶斯分类算法(Naive Bayes Classifier)

朴素贝叶斯分类算法(Naive Bayes Classifier)

显然,

朴素贝叶斯分类算法(Naive Bayes Classifier)

所以,我们就把新来的特征分到0类。