分类算法系列--贝叶斯分类算法学习
贝叶斯分类算法是一类算法的总称,一类以概率论为基础的分类算法,常应用于文本分类,垃圾分类。
朴素贝叶斯Naive Bayes
贝叶斯公式:
p(Y):先验概率,每种类别分布的概率
p(X|Y),类条件概率,表示在某种类别的前提下,某事发生的概率
p(Y|X):后验概率,表示某事发生了,并且它属于某一类别的概率,根据后验概率,可以对样本进行分类----值越大,属于某类的可能性就越大。
p(X):全概率公式,
联合分布P(X,Y)
对于一个测试集,计算K个类别的后验概率,
选择后验概率最大的那个类别作为输出类别。
贝叶斯推导
高斯朴素贝叶斯Gaussian Naive Bayes
X为连续值,假设X符合正态分布
先验概率:
多项式朴素贝叶斯Multinomial Naive Bayes
X为离散值,假设X符合多项式分布
先验概率:
伯努利朴素贝叶斯Bernoulli Naive Bayes
X值非常稀疏,假设X符合伯努利分布
先验概率:
参考文献: