多元统计分析——分类分析——贝叶斯分类
一、两分类问题
1、贝叶斯分类
1.1、分类规则
和
代表两个总体,各自的先验概率为
和
(
),
和
分别是总体
和
中
的概率密度函数。
和
代表按分类规则划分的两组区域。例如,如果一个新观测对象分到
,那么我们声明该样本来自总体
,
。
和
是整个空间的分割。
是“我们将样本
分为
然而实际上它来自
”的条件概率:
,类似的,
,具体分布如下图所示。
进而我们可以推导总错分率 (TPM):
(观测对象被错分到
)=
(观测对象被错分到
)=
记是错误地将来自总体
的观测对象
错分到
的代价/成本,类似可定义
是错误地将来自总体
的观测对象
错分到
的代价/成本,如下图。
我们知道,LDA是没有考虑代价的,它考虑的是一个概率,我们想让样本之间分的越开越好(错分率越少越好)。贝叶斯是可以考虑代价的, 于是贝叶斯考虑的是期望代价(Expected cost of misclassification, ECM),贝叶斯分类的目标是最小化错分的期望代价ECM:
如何最小化?
由上面已知:,
,将它们代入到上式中,得到:
贝叶斯分类的目标是找到一个分类法则,使得最小化,这个分类法则与
和
区域的划分有关,上式当中
这项和
的取值是没有关系的,进而:
分类规则问题转化为:找到一个区域,使得
在
的积分最小。
我们知道积分是曲线下的有向面积,如果,则越积越多,如果
,则越积越少。换句话说,要使得
在
的积分最小,
应取值所有使得
的
值。
定理(贝叶斯分类法则):
:
:
化简得:
:
:
特殊情形
(a)当
(先验概率相同)
:
:
(b)当
(错分成本相同)
:
:
(c)当
(先验概率相同且错分成本相同)
:
:
1.2、与LDA的区别
LDA分类 | 贝叶斯分类 | |
是否考虑先验概率 | 否 | 是 |
是否考虑误判代价 | 否 | 是 |
是否事先假设总体分布 | 不需要分布假设 | 需要明确 |
是否事先假设总体协方差矩阵 | 需要同协方差矩阵假设 | 不需要协方差矩阵假设 |
是否线性 | 是 | 否 |
分类目标 | 最小化错分率 | 最小化错分的期望代价 |
在前面我们讲到《多元统计分析——分类分析——基于Fisher线性判别分析(LDA)的分类》当中,LDA分类完全是基于样本数据来呈现的(找一个投影方向,让两组数据分的最开),没有考虑到任何先验的信息。贝叶斯的优势正好在于考虑了先验的信息。有关先验概率的相关知识可见《统计推断——独立事件、条件概率、贝叶斯定理(先验分布/后验分布/似然估计)》。
例如:通常,一家公司陷入财务困境并最终破产的(先验)概率很小,所以我们应该首先默认一家随机选择的公司不会破产,除非数据压倒性地支持公司将会破产这一事件。所以这时事件发生的先验概率(Prior probability)应该被考虑在内。
另外,我们在LDA分类当中,只考虑了误判的概率,并没有考虑产生误判之后的代价(成本),但是在实际生活当中,从第一类错分到第二类与第二类错分到第一类的代价往往是不一样的。
例如:没有诊断出绝症的“代价”明显大于将病人误诊为绝症,所以这时“误判代价 ”(Misclassification cost)应该被考虑在内。
所以,贝叶斯分类之于Fisher's LDA分类,它的优势在于考虑了这两点:先验概率(Prior probability),误判代价 (Misclassification cost)。
1.3、与LDA的联系
当两群体来自具有相同协方差矩阵的正态分布和
时,贝叶斯法则则可以表示为:
:
证明如下:
已知当
:
根据多元正态分布的密度函数公式得:
,
将这两个式子代入到
,得:
两个各取对数,得:
不等式左边展开,得:
根据矩阵转置的原理,易得:
,继续化简
,
可以改写成:
,替换,最终得:
,
Fisher‘s LDA退化为贝叶斯法则的一种特殊情形。