从贝叶斯公式到贝叶斯判别准则
原来线性判别分析、平方判别分析、朴素贝叶斯这么简单直白。
前方将出现大量数学公式推导证明,为防止烦躁不适,先复习一下几个重要概念。
1.1一维高斯变量X~N(μ,σ2),则概率密度函数
1.2多维高斯变量 ,X~N(μ,∑) , μ 为p维向量,
为p×p
维的方差协方差矩阵:
1.3贝叶斯公式:
P(A|B)表示B事件发生时A事件发生的概率,往往不能直接求,而P(B|A)求起来较为方便。在这里,P(A) 为事件A发生的先验概率(prior probability)(先验概率就是指根据以往经验和分析得到的概率,可以是相对客观或者存在主观偏差的,比如抛硬币在历史上正反面的概率各是1/2,这就是在无数历史实验得到的客观准确概率)。P(A|B)为后验概率(posterior probability),即条件概率。
下面进入正题:对于常见的分类任务(classification),设表示类别的随机变量Y的样本空间{1,2,……,K},对于样本x 属于第k
类的概率:
依据全概率公式将上式分母展开:
其中 是随机选择的样本观测值来自第
类的先验概率。
2.1.当 为标量值(scalar)时,
注意到分母对于 都是一样的,其中参数
,都需要从样本数据集中估计得到。要确定该样本属于哪一类,只有找到使得下式分子最大的k值(防止计算溢出取对数)。
如果K=2且 (常见的二分类且样本类别均衡),分类器将
判定为第一类
的估计如下:
2.1 Linear Discriminant Analysis
当 为向量时,即随机变量
,
,
多元随机变量的高斯分布密度函数:
在此给出与标量情况相同的假设
从上式中可以看出:决策函数 是
的线性函数(所以称为Linear Discriminant Analysis),
这一项表明样本类别的不均衡可能对条件概率值有影响。
为方便后期写代码,这里把各个向量长度或矩阵维度列一下:
当K=2时并且 (二分类问题),
2.2Quadratic Discriminant Analysis
当给出更弱的假设:属于第k类观测向量
为方便后期写代码,这里把各个向量长度或矩阵维度列一下:
决策函数与,
相关
2.3Naïve Bayesian Classifier
在计算第k类的概率分布时需要计算协方差矩阵,计算复杂度为O(kp^2),在这里可以进一步简化,假设 的各个属性独立,由此计算复杂度降为O(kp):
所以剩下的任务就是从样本数据集估计 和
了。
2.4Laplacian correction
为了避免因训练样本不充分导致的概率估值为0,需要进行拉普拉斯修正,设 为训练集D(大小为|D|)中的可能类别数,
为第i属性可能的取值数,
为训练集D中属于第k类的样本数。
参考文献:1.《The Elements of Statistical Learning》 2.《The Introduction to Statistical Learning》