多元统计分析——分类分析——贝叶斯分类

一、两分类问题

1、贝叶斯分类

1.1、分类规则

多元统计分析——分类分析——贝叶斯分类多元统计分析——分类分析——贝叶斯分类代表两个总体,各自的先验概率为多元统计分析——分类分析——贝叶斯分类多元统计分析——分类分析——贝叶斯分类多元统计分析——分类分析——贝叶斯分类),多元统计分析——分类分析——贝叶斯分类多元统计分析——分类分析——贝叶斯分类分别是总体多元统计分析——分类分析——贝叶斯分类多元统计分析——分类分析——贝叶斯分类多元统计分析——分类分析——贝叶斯分类的概率密度函数。

多元统计分析——分类分析——贝叶斯分类多元统计分析——分类分析——贝叶斯分类代表按分类规则划分的两组区域。例如,如果一个新观测对象分到多元统计分析——分类分析——贝叶斯分类,那么我们声明该样本来自总体多元统计分析——分类分析——贝叶斯分类多元统计分析——分类分析——贝叶斯分类多元统计分析——分类分析——贝叶斯分类多元统计分析——分类分析——贝叶斯分类 是整个空间的分割。

多元统计分析——分类分析——贝叶斯分类

多元统计分析——分类分析——贝叶斯分类是“我们将样本多元统计分析——分类分析——贝叶斯分类分为多元统计分析——分类分析——贝叶斯分类然而实际上它来自多元统计分析——分类分析——贝叶斯分类 ”的条件概率:多元统计分析——分类分析——贝叶斯分类,类似的,多元统计分析——分类分析——贝叶斯分类,具体分布如下图所示。

多元统计分析——分类分析——贝叶斯分类

 进而我们可以推导总错分率 (TPM):

多元统计分析——分类分析——贝叶斯分类(观测对象被错分到多元统计分析——分类分析——贝叶斯分类)=多元统计分析——分类分析——贝叶斯分类

多元统计分析——分类分析——贝叶斯分类(观测对象被错分到多元统计分析——分类分析——贝叶斯分类)=多元统计分析——分类分析——贝叶斯分类

 记多元统计分析——分类分析——贝叶斯分类是错误地将来自总体多元统计分析——分类分析——贝叶斯分类的观测对象多元统计分析——分类分析——贝叶斯分类错分到多元统计分析——分类分析——贝叶斯分类的代价/成本,类似可定义多元统计分析——分类分析——贝叶斯分类是错误地将来自总体多元统计分析——分类分析——贝叶斯分类的观测对象多元统计分析——分类分析——贝叶斯分类错分到多元统计分析——分类分析——贝叶斯分类的代价/成本,如下图。

多元统计分析——分类分析——贝叶斯分类

我们知道,LDA是没有考虑代价的,它考虑的是一个概率,我们想让样本之间分的越开越好(错分率越少越好)。贝叶斯是可以考虑代价的, 于是贝叶斯考虑的是期望代价(Expected cost of misclassification, ECM),贝叶斯分类的目标是最小化错分的期望代价ECM:

多元统计分析——分类分析——贝叶斯分类

如何最小化多元统计分析——分类分析——贝叶斯分类?

由上面已知:多元统计分析——分类分析——贝叶斯分类多元统计分析——分类分析——贝叶斯分类,将它们代入到上式中,得到:

多元统计分析——分类分析——贝叶斯分类

 

贝叶斯分类的目标是找到一个分类法则,使得最小化多元统计分析——分类分析——贝叶斯分类,这个分类法则与多元统计分析——分类分析——贝叶斯分类多元统计分析——分类分析——贝叶斯分类区域的划分有关,上式当中多元统计分析——分类分析——贝叶斯分类这项和多元统计分析——分类分析——贝叶斯分类的取值是没有关系的,进而:

多元统计分析——分类分析——贝叶斯分类

分类规则问题转化为:找到一个区域多元统计分析——分类分析——贝叶斯分类,使得多元统计分析——分类分析——贝叶斯分类多元统计分析——分类分析——贝叶斯分类的积分最小。

我们知道积分是曲线下的有向面积,如果多元统计分析——分类分析——贝叶斯分类,则越积越多,如果多元统计分析——分类分析——贝叶斯分类,则越积越少。换句话说,要使得多元统计分析——分类分析——贝叶斯分类多元统计分析——分类分析——贝叶斯分类的积分最小,多元统计分析——分类分析——贝叶斯分类应取值所有使得多元统计分析——分类分析——贝叶斯分类多元统计分析——分类分析——贝叶斯分类值。

定理(贝叶斯分类法则):

多元统计分析——分类分析——贝叶斯分类多元统计分析——分类分析——贝叶斯分类

多元统计分析——分类分析——贝叶斯分类多元统计分析——分类分析——贝叶斯分类

化简得:

多元统计分析——分类分析——贝叶斯分类多元统计分析——分类分析——贝叶斯分类

多元统计分析——分类分析——贝叶斯分类多元统计分析——分类分析——贝叶斯分类

特殊情形

(a)当多元统计分析——分类分析——贝叶斯分类(先验概率相同)

多元统计分析——分类分析——贝叶斯分类多元统计分析——分类分析——贝叶斯分类

多元统计分析——分类分析——贝叶斯分类多元统计分析——分类分析——贝叶斯分类

(b)当多元统计分析——分类分析——贝叶斯分类(错分成本相同)

多元统计分析——分类分析——贝叶斯分类多元统计分析——分类分析——贝叶斯分类

多元统计分析——分类分析——贝叶斯分类多元统计分析——分类分析——贝叶斯分类

(c)当多元统计分析——分类分析——贝叶斯分类(先验概率相同且错分成本相同)

多元统计分析——分类分析——贝叶斯分类多元统计分析——分类分析——贝叶斯分类

多元统计分析——分类分析——贝叶斯分类多元统计分析——分类分析——贝叶斯分类

1.2、与LDA的区别

  LDA分类 贝叶斯分类
是否考虑先验概率
是否考虑误判代价
是否事先假设总体分布 不需要分布假设 需要明确多元统计分析——分类分析——贝叶斯分类多元统计分析——分类分析——贝叶斯分类
是否事先假设总体协方差矩阵 需要同协方差矩阵假设 不需要协方差矩阵假设
是否线性
分类目标 最小化错分率 最小化错分的期望代价

在前面我们讲到《多元统计分析——分类分析——基于Fisher线性判别分析(LDA)的分类》当中,LDA分类完全是基于样本数据来呈现的(找一个投影方向,让两组数据分的最开),没有考虑到任何先验的信息。贝叶斯的优势正好在于考虑了先验的信息。有关先验概率的相关知识可见《统计推断——独立事件、条件概率、贝叶斯定理(先验分布/后验分布/似然估计)》。

例如:通常,一家公司陷入财务困境并最终破产的(先验)概率很小,所以我们应该首先默认一家随机选择的公司不会破产,除非数据压倒性地支持公司将会破产这一事件。所以这时事件发生的先验概率(Prior probability)应该被考虑在内。

另外,我们在LDA分类当中,只考虑了误判的概率,并没有考虑产生误判之后的代价(成本),但是在实际生活当中,从第一类错分到第二类与第二类错分到第一类的代价往往是不一样的。

例如:没有诊断出绝症的“代价”明显大于将病人误诊为绝症,所以这时“误判代价 ”(Misclassification cost)应该被考虑在内。

所以,贝叶斯分类之于Fisher's LDA分类,它的优势在于考虑了这两点:先验概率(Prior probability),误判代价 (Misclassification cost)。

1.3、与LDA的联系

当两群体来自具有相同协方差矩阵的正态分布多元统计分析——分类分析——贝叶斯分类多元统计分析——分类分析——贝叶斯分类时,贝叶斯法则则可以表示为:

多元统计分析——分类分析——贝叶斯分类多元统计分析——分类分析——贝叶斯分类

证明如下:

已知当多元统计分析——分类分析——贝叶斯分类多元统计分析——分类分析——贝叶斯分类

根据多元正态分布的密度函数公式得:

多元统计分析——分类分析——贝叶斯分类多元统计分析——分类分析——贝叶斯分类

将这两个式子代入到多元统计分析——分类分析——贝叶斯分类,得:多元统计分析——分类分析——贝叶斯分类

两个各取对数,得:

多元统计分析——分类分析——贝叶斯分类

不等式左边展开,得:

多元统计分析——分类分析——贝叶斯分类

根据矩阵转置的原理,易得:多元统计分析——分类分析——贝叶斯分类,继续化简多元统计分析——分类分析——贝叶斯分类

多元统计分析——分类分析——贝叶斯分类可以改写成:多元统计分析——分类分析——贝叶斯分类,替换,最终得:

多元统计分析——分类分析——贝叶斯分类

 

Fisher‘s LDA退化为贝叶斯法则的一种特殊情形。

二、多分类问题

三、局限性