中文NLP-文本分类方法之朴素贝叶斯分类器
朴素贝叶斯法(Naïve Bayes)是基于贝叶斯定理与特征条件独立假设的分类方法,属于统计学分类方法。简单来说,朴素贝叶斯分类器假设在给定样本类别的条件下,样本的每个特征与其他特征均不相关,对于给定的输入,利用贝叶斯定理,求出后验概率最大的输出。朴素贝叶斯法实现简单,学习与预测的效率均较高,在文本分类领域有广泛的应用。
1.准备知识
- 条件概率
\[P(A|B)\]
指事件A在事件B发生条件下发生的概率。
- 联合概率
\[P(AB)\]
指事件A与事件B同时发生的概率。
- 贝叶斯定理
\[P(B|A)=\frac{P(A|B)P(B)}{P(A)}\]
- 词向量
为一段文本的向量化表示,表征文本特征。
2.朴素贝叶斯分类器
对于给定的待分类文本,求解该文本出现的条件下各个类别的概率,概率最大的类别就被认为该文本的类别。简单表述如下:
1) 设
\[x=\left \{ {w_{1},w_{2},w_{3},...,w_{n}} \right \}\]
为一个待分类文本,其中为文本中的特征词/属性。
2) 设文本类别
\[C=\left \{ {C_{1},C_{2},C_{3},...,C_{d}} \right \}\]
3) 求解文本所属类别c
\[c=\underset{C_{d}}{argmax}P(C_{d}|x) =\underset{C_{d}}{argmax}\frac{P(C_{d})P(x|C_{d})}{P(x)} =\underset{C_{d}}{argmax}\frac{P(C_{d})}{P(x)}\prod_{i=1}^{n}P(w_{i}|d)\]
通过训练数据,可以根据大数定理估计上式的先验概率
\[P(C_{d})\]
而为了估计类条件概率
\[P(x|C_{d})\]
朴素贝叶斯分类器方法假设样本的所有特征在给定所属类别的情况下相互独立,也就是
\[x=\left \{ {w_{1},w_{2},w_{3},...,w_{n}} \right \}\]
中的特征相互独立。从而利用联合概率公式计算出类条件概率如下:
\[P(x|C_{d})=\prod_{i=1}^{n}P(w_{i}|C_{d})\]
训练朴素贝叶斯分类器的过程,就是利用训练数据估算先验概率与类条件概率,从而在新文本输入时,利用估算的先验概率和类条件概率即可求出相应的后验概率,后验概率最大的类别即为分类结果。