4 朴素贝叶斯法
- 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类
方法 - 对给定的训练数据集,先基于特征条件独立假设学习输入输出的联合
概率分布;- 然后基于此模型,
- 对给定输入,用贝叶斯定理求出后验概率最大的输出.
- 朴素贝叶斯法实现简单,学习与预测的效率都很高,是一种常用的方法
- 本章朴素贝叶斯法,
- 包括朴素贝叶斯法的学习与分类、朴素贝叶斯法的参数估计算法
4.1 朴素贝叶斯法的学习与分类
4.1.1 基本方法
- 输入空间
- 输出空间为类标记集合
- 特征向量,输出为类标记( class label)
- 是输入空间况上的随机向量,是输出空间上的随机变量
-
是和的联合概率分布,
- 训练数据集
- 由独同产生
- 朴素贝叶斯法通过训练数据集学习联合概率分布
- 学习先验概率分布
- 条件概率分布
- 于是学到联合概率分布
- 条件概率有指数级数量的参数,
- 其估计实际是不可行的
- 设可取值有个,,
- 可取个,
- 那么参数个数
- 朴素贝叶斯法对条件概率分布作了条件独立性的假设.
- 这是个较强假设,朴素贝叶斯法由此得名
- 朴素贝叶斯法实际上学习到生成数据的机制,属生成模型.
- 条件独立假设:
- 用于分类的特征在类确定的条件下都是条件独立的.
- 这一假设使朴素贝叶斯法变得简单,但牺牲分类准确率
- 朴素贝叶斯法分类时,对输入,
- 通过学习到的模型计算后验概率分布
- 将后验概率最大的类作为的类输出
- 后验概率根据贝叶斯定理
- 于是,朴素贝叶斯分类器可表示为
4.1.2后验概率最大化的含义
- 朴素贝叶斯法将实例分到后验概率最大的类中.
- 这等价于期望风险最小化.
- 设0-1损失函数
- 这时,期望风险函数为
- 期望是对联合分布取的,
- 由此取条件期望
- 为使期望风险最小化,只需对逐个极小化,
- 由此得到:
- 根据期望风险最小化准则就得到了后验概率最大化准则
- 即朴素贝叶斯法所采用的原理
here