朴素贝叶斯原理推导
贝叶斯原理
贝叶斯原理其实是用来求“逆向概率”的。所谓“逆向概率”是相对“正向概率”而言。就是从结果推出条件。贝叶斯原理建立在主观判断的基础上:在我们不了解所有客观事实的情况下,同样可以先估计一个值,然后根据实际结果不断进行修正。
贝叶斯公式
实际上,贝叶斯公式就是求阶后验概率的。
朴素贝叶斯
它是一种简单但极为强大的预测建模算法。之所以称为朴素贝叶斯,是因为它假设每个输入变量是独立的。这是一个强硬的假设,实际情况并不一定,但是这项技术对于绝大部分的复杂问题仍然非常有效。
输入变量就是特征,朴素贝叶斯假设这些特征之间是没有关系的,是独立事件。因此算特征概率的时候可以分开算然后相乘。
朴素贝叶斯模型由两种类型的概率组成:
- 每个类别的概率P(Cj);
- 每个属性的条件概率P(Ai|Cj)。
类别概率和条件概率的区别:
类别概率是输出变量之间的概率,与特征没有关系。但条件概率是基于特征的变量的概率。
为了训练朴素贝叶斯模型,我们需要先给出训练数据,以及这些数据对应的分类。那么上面这两个概率,也就是类别概率和条件概率。他们都可以从给出的训练数据中计算出来。一旦计算出来,概率模型就可以使用贝叶斯原理对新数据进行预测。
贝叶斯原理、贝叶斯分类器、朴素贝叶斯的区别
贝叶斯原理是最大的概念,它解决了概率论中“逆向概率”的问题,在这个理论基础上,人们设计出了贝叶斯分类器,朴素贝叶斯分类是贝叶斯分类器中的一种,也是最简单,最常用的分类器。朴素贝叶斯之所以朴素是因为它假设属性是相互独立的,因此对实际情况有所约束,如果属性之间存在关联,分类准确率会降低。不过好在对于大部分情况下,朴素贝叶斯的分类效果都不错。
实际上,贝叶斯原理是数学基础,贝叶斯分类是一种模型,而朴素贝叶斯则是具体方法。
朴素贝叶斯分类的工作流程
- 输入和输出,输入训练的数据集,第i个样本的第j个特征,第j个特征可能取得第l个值:输出x的分类
- 计算出先验概率和条件概率,对于给定的实例,基于独立假设条件下计算联合概率P(X=x,Y=ck),根据最大化后验概率法则,确定x的类别。
先验概率:通过经验来判断事情发生的概率,比如说“贝叶死”的发病率是万分之一,就是先验概率。再比如南方的梅雨季是 6-7 月,就是通过往年的气候总结出来的经验,这个时候下雨的概率就比其他时间高出很多。
后验概率:后验概率就是发生结果之后,推测原因的概率。比如说某人查出来了患有“贝叶死”,那么患病的原因可能是 A、B 或 C。患有“贝叶死”是因为原因 A 的概率就是后验概率。它是属于条件概率的一种。
条件概率:事件 A 在另外一个事件 B 已经发生条件下的发生概率,表示为 P(A|B),读作“在 B 发生的条件下 A 发生的概率”。比如原因 A 的条件下,患有“贝叶死”的概率,就是条件概率。
参考:
https://mp.weixin.qq.com/s/IXpv5QSoHM8Bx4ZQgYbm3g
https://www.bilibili.com/video/BV1aE411o7qd?t=867&p=21