机器学习(一)贝叶斯判别式

机器学习(一)贝叶斯判别式

2018/2/13
by Chenjing Ding


符号 含义
Ck 第k类
p 概率密度
P(Ck) 第k类的概率。本文中的概率密度和概率在公式推导时已严格区分
x 输入数据;可为训练样本(已知类别)或者待分类数据(未知类别),为变量
q 输入数据,有固定取值,非变量
m 类型总数

一.三个基本概率

1.1先验概率

根据经验得到的概率。比如P(Ck):第k类的先验概率

1.2条件概率

Px|Ck: 在第k类中产生观察到的数据x的概率,表示了x是由第k类产生的可能性。

1.3后验概率

PCk|x:输入数据x是第k类的概率。

1.4 三者关系

p(x,Ck)=p(x|Ck)P(Ck)=P(Ck|x)p(x)

其中x是连续随机变量,注意P(x)=0;表达式中采用的是概率密度函数。
C是离散随机变量,表达式中采用的是概率。

-具体参考Christopher M. Bishop,Pattern Recognition and Machine Learning,Springer, 2006 1.2.1节。
-在第二节4.3生成模型和判别模型的比较中再来比较条件概率和后验概率。

二.贝叶斯判别式最佳决策准测的推导

目标函数:
使错分输入数据x的概率最小。
机器学习(一)贝叶斯判别式

1

已知决策准测x0, 当x<x0,即xR1,贝叶斯决策认为x属于C1类,反之则为$C_2类。

Pmistake=PxR1,C2+P(xR2,C1)=R1p(x,C2)dx+R2p(x,C1)dx=R1P(C2|x)p(x)dx+R2P(C1|x)p(x)dx

观察上图,当决策准则为x^,P(mistake)是红色,绿色和蓝色的面积和。当决策准则为x0,P(mistake)是绿色和蓝色的面积和。要使P(mistake)的概率最小,应使红色面积部分最小。当px,C1=p(x,C2)时,红色部分面积为0;即分界线为 {x| p(x,C1)=p(x,C2)}

最佳决策准测:
根据上述分界线,当P(C1|x)p(x)>P(C2|x)p(x),贝叶斯决策将x分为C1类;
即:p(x|C1)P(C1)>p(x|C2)P(C2)

p(x|C1)p(x|C2)>P(C2)P(C1)
其中P(C2)P(C1)称为决策阈值

三.损失函数在贝叶斯判别式中的的应用

3.1贝叶斯决策损失函数的定义

Lkj0<k,j<=m: 如果x被分类到第j类,而其实x是第k类的损失值。损失矩阵就是由这些损失值构成的矩阵。

3.2带损失函数的最佳决策准测

3.2.1 损失函数的期望

条件损失函数期望:
R(aj|q):对于一个特定的q输入,采取决策aj的损失期望,也叫做条件风险。

R(aj|q)=k=1mLkjP(Ck|q)

损失期望:
R:对于所有决策总的损失期望。

R=k=1mj=1mRjLkjp(x,Ck)dx =j=1mRj[k=1mLkjP(Ck|x)]p(x)dx=j=1mRjR(aj|x)p(x)dx=E(R(aj|q))

3.2.2 目标函数

对于给定输入q,选择条件风险最小的决策,可使总的损失期望最小。
以两类为例:
假设有两个类C1,C2,有两个决策a1a2。损失函数L(aj|Ck)=Lkj

R(a1|x)=L11P(C1|x)+L21P(C2|x)R(a2|x)=L12P(C1|x)+L22P(C2|x)

如果R(a2|x)>R(a1|x),选择a1。

L12P(C1|x)+L22P(C2|x)>L11P(C1|x)+L21P(C2|x)L12L11L21L22>P(C2|x)P(C1|x)=p(x|C2)P(C2)p(x|C1)P(C1)p(x|C1)p(x|C2)>P(C2)(L21L22)P(C1)(L12L11)
上式即为考虑损失函数的贝叶斯最佳决策准则。