机器学习(一)贝叶斯判别式
2018/2/13
by Chenjing Ding
符号 |
含义 |
Ck
|
第k类 |
p |
概率密度 |
P(Ck)
|
第k类的概率。本文中的概率密度和概率在公式推导时已严格区分 |
x |
输入数据;可为训练样本(已知类别)或者待分类数据(未知类别),为变量 |
q
|
输入数据,有固定取值,非变量 |
m |
类型总数 |
一.三个基本概率
1.1先验概率
根据经验得到的概率。比如P(Ck):第k类的先验概率
1.2条件概率
P(x|Ck): 在第k类中产生观察到的数据x的概率,表示了x是由第k类产生的可能性。
1.3后验概率
P(Ck|x):输入数据x是第k类的概率。
1.4 三者关系
p(x,Ck)=p(x|Ck)∗P(Ck)=P(Ck|x)p(x)
其中x是连续随机变量,注意P(x)=0;表达式中采用的是概率密度函数。
C是离散随机变量,表达式中采用的是概率。
-具体参考Christopher M. Bishop,Pattern Recognition and Machine Learning,Springer, 2006 1.2.1节。
-在第二节4.3生成模型和判别模型的比较中再来比较条件概率和后验概率。
二.贝叶斯判别式最佳决策准测的推导
目标函数:
使错分输入数据x的概率最小。

图1贝叶斯判别式最小化错分概率
已知决策准测
x0, 当
x<x0,即
x∈R1,贝叶斯决策认为x属于
C1类,反之则为$C_2类。
P(mistake)=P(x∈R1,C2)+P(x∈R2,C1)=∫R1p(x,C2)dx+∫R2p(x,C1)dx=∫R1P(C2|x)∗p(x)dx+∫R2P(C1|x)∗p(x)dx
观察上图,当决策准则为xˆ,P(mistake)是红色,绿色和蓝色的面积和。当决策准则为x0,P(mistake)是绿色和蓝色的面积和。要使P(mistake)的概率最小,应使红色面积部分最小。当p(x,C1)=p(x,C2)时,红色部分面积为0;即分界线为 {x| p(x,C1)=p(x,C2)} 。
最佳决策准测:
根据上述分界线,当P(C1|x)∗p(x)>P(C2|x)∗p(x),贝叶斯决策将x分为C1类;
即:p(x|C1)∗P(C1)>p(x|C2)∗P(C2)
p(x|C1)p(x|C2)>P(C2)P(C1)
其中
P(C2)P(C1)称为
决策阈值。
三.损失函数在贝叶斯判别式中的的应用
3.1贝叶斯决策损失函数的定义
Lkj(0<k,j<=m): 如果x被分类到第j类,而其实x是第k类的损失值。损失矩阵就是由这些损失值构成的矩阵。
3.2带损失函数的最佳决策准测
3.2.1 损失函数的期望
条件损失函数期望:
R(aj|q):对于一个特定的q输入,采取决策aj的损失期望,也叫做条件风险。
R(aj|q)=∑k=1mLkjP(Ck|q)
损失期望:
R:对于所有决策总的损失期望。
R=∑k=1m∑j=1m∫RjLkjp(x,Ck)dx =∑j=1m∫Rj[∑k=1mLkjP(Ck|x)]p(x)dx=∑j=1m∫RjR(aj|x)p(x)dx=E(R(aj|q))
3.2.2 目标函数
对于给定输入q,选择条件风险最小的决策,可使总的损失期望最小。
以两类为例:
假设有两个类C1,C2,有两个决策a1,a2。损失函数L(aj|Ck)=Lkj。
R(a1|x)=L11∗P(C1|x)+L21P(C2|x)R(a2|x)=L12∗P(C1|x)+L22P(C2|x)
如果R(a2|x)>R(a1|x),选择a1。
L12∗P(C1|x)+L22P(C2|x)>L11∗P(C1|x)+L21P(C2|x)L12−L11L21−L22>P(C2|x)P(C1|x)=p(x|C2)P(C2)p(x|C1)P(C1)p(x|C1)p(x|C2)>P(C2)(L21−L22)P(C1)(L12−L11)
上式即为考虑损失函数的贝叶斯最佳决策准则。