朴素贝叶斯

目录

1,分类问题描述

2,贝叶斯是谁?

3,贝叶斯决策理论

4,贝叶斯分类算法

5,条件概率

6,关于朴素一词的解释


朴素贝叶斯是机器学习领域基于概率论的分类方法。

1,分类问题描述

日常生活中,我们每天都在进行分类问题的处理。例如,在路上看到一个人,我们脑子里会下意识的判断他是一个学生还是一个白领;你也可能会在路上对朋友说“这个人一看就很有钱”之类的话,这些其实都是一些分类问题。

2,贝叶斯是谁?

贝叶斯(约1702-1761) Thomas Bayes,英国数学家。约1702年出生于伦敦,做过神甫。1742年成为英国皇家学会会员。1761年4月7日逝世。贝叶斯在数学方面主要研究概率论。人物介绍来自百度百科。

3,贝叶斯决策理论

朴素贝叶斯是贝叶斯决策理论的一部分,所以介绍朴素贝叶斯之前,有必要先了解一下贝叶斯决策理论。

假设我们现在有一个数据集,它由两类数据组成,数据分布如下图所示。

朴素贝叶斯

我们现在用p1(x, y)表示数据点(x,y)属于类别1(圆点)的概率,用p2(x,y)表示数据点属于类别2(三角形)的概率。那么对于一个新的数据点(x,y),可以用下面的规则来判断它属于哪个类别。

  • 如果p1(x,y)> p2(x,y),则属于类别1;
  • 如果p1(x,y) < p2(x,y),则属于类别2;

也就是说,我们会选择高概率对应的类别。

这就是贝叶斯决策理论的核心思想,即选择具有最高概率的决策。

4,贝叶斯分类算法

分类算法的要求是,给定一些特征,算法需要判断这些给定的特征属于哪个类别。基于上文的贝叶斯决策理论,算法会计算这些特征属于各个类别的概率,然后选取概率最大的类别,作为结果。

贝叶斯计算特定特征的概率的核心算法如下:

P(B|A)= P(A|B)*P(B) / P(A).

将公式中的字母改为文字,描述如下:

p(类别 | 特征) = p(特征 | 类别) * p(类别) / p (特征) 。

我们的目标是求p(类别 | 特征)的值,因为上述等式,我们可以通过求等式右边的三个p值,计算得到p(类别 | 特征)的值。

5,条件概率

上文中的p(B | A),在数据上称为条件概率,读作“在A发生条件下B发生的概率”。

那么请问贝叶斯算法的核心公式P(B|A)= P(A|B)*P(B) / P(A),为什么成立呢?下面对其进行证明。

朴素贝叶斯

6,关于朴素一词的解释

贝叶斯算法为什么称为朴素贝叶斯,这里的朴素的含义是什么呢?

在使用贝叶斯公式p(类别 | 特征) = p(特征 | 类别) * p(类别) / p (特征) 进行求解时,等式右侧的p(类别)比较容易求解,但 p(特征 | 类别)和p (特征)并不容易求解。

通常特征是多个特征,假设共有3个特征,所以我们面临的更多是要求解这样的情况,即p(特征1,特征2,特征3 | 类别)和p (特征1,特征2,特征3)。这时,以求解p(特征1,特征2,特征3 | 类别)为例,我们会使用下面的方法进行计算。

p(特征1,特征2,特征3 | 类别)= p(特征1 | 类别)* p(特征2| 类别)*p(特征3 | 类别)

但,上述等式成立的条件是,特征1、特征2、特征3之间相互独立。而这个相互独立当然是我们假设的理想情况,而这也正是“朴素”一次的含义。我们大大简化了问题的复杂性,所以称之为朴素贝叶斯。