机器学习 朴素贝叶斯

基于概率论的分类方法——朴素贝叶斯

朴素贝叶斯
优点:在数据较少的情况下仍然有效,可以处理多类别问题。
缺点:对于输入数据的准备方式较为敏感。 适用数据类型:标称型数据
选择高概率对应的类别,便是贝叶斯的核心理论
贝叶斯准则(条件概率公式):
机器学习 朴素贝叶斯
如果P(c1|x, y) > P(c2|x, y),那么属于类别c1。
如果P(c1|x, y) < P(c2|x, y),那么属于类别c2。
使用朴素贝叶斯进行文档分类:
进行假设
每个特征相互独立
每个特征重要程度相同
在这两个假设下,可以减少样本数目,同时取得较好的结果
从词表中构建向量:机器学习 朴素贝叶斯机器学习 朴素贝叶斯
由词向量计算概率
机器学习 朴素贝叶斯
w为向量,概率可以由用p(w0|ci)p(w1|ci)p(w2|ci)…p(wN|ci)算出
机器学习 朴素贝叶斯
利用贝叶斯分类器对文档进行分类时,要计算多个概率的乘积以获得文档属于某个类别的概 率,即计算p(w0|1)p(w1|1)p(w2|1)。如果其中一个概率值为0,那么后的乘积也为0。为降低 这种影响,可以将所有词的出现数初始化为1,并将分母初始化为2
另一个遇到的问题是下溢出,这是由于太多很小的数相乘造成的。当计算乘积 p(w0|ci)p(w1|ci)p(w2|ci)…p(wN|ci)时,由于大部分因子都非常小,所以程序会下溢出或者 得到不正确的答案。一 种解决办法是对乘积取自然对数
如果一个词在文档中出现不止一次,这可能意味着包含该词是否出现在文档中所不能表 达的某种信息,这种方法被称为词袋模型
机器学习 朴素贝叶斯
示例:使用朴素贝叶斯过滤垃圾邮件
首先,对文本切分,成为一个个的单词
完整的函数如下
机器学习 朴素贝叶斯