本系列为《模式识别与机器学习》的读书笔记。
一,⽤于回归的 RVM
相关向量机(relevance vector machine
)或者 RVM
(Tipping
, 2001)是⼀个⽤于回归问题和分类问题的贝叶斯稀疏核⽅法,它具有许多 SVM
的特征,同时避免了 SVM
的主要的局限性。此外,通常会产⽣更加稀疏的模型,从⽽使得在测试集上的速度更快,同时保留了可⽐的泛化误差。
给定⼀个输⼊向量 x 的情况下, 实值⽬标变量t的条件概率分布,形式为
p(t∣x,w,β)=N(t∣y(x),β−1)(7.27)
其中 β=σ−2 是噪声精度(噪声⽅差的倒数),均值是由⼀个线性模型给出,形式为
y(x)=i=1∑Mwiϕi(x)=wTϕ(x)
模型带有固定⾮线性基函数 ϕi(x) ,通常包含⼀个常数项,使得对应的权参数表⽰⼀个“偏置”。
基函数由核给出,训练集的每个数据点关联着⼀个核。⼀般的表达式可以写成与 SVM
相类似的形式
y(x)=n=1∑Nwnk(x,xn)+b(7.28)
其中 b 是⼀个偏置参数。在⽬前的问题中, 参数的数量为 M=N+1 。y(x) 与 SVM
的预测模型具有相同的形式,唯⼀的差别是系数 an 在这⾥被记作 wn 。
假设有输⼊向量 x 的 N 次观测,将这些观测聚集在⼀起,记作数据矩阵 X ,它的第 n ⾏是 xnT ,其中 n=1,…,N 。对应的⽬标值为 t=(t1,…,tN)T 。因此,似然函数为
p(t∣X,w,β)=n=1∏Np(tn∣xn,w,β)(7.29)
权值先验的形式为
p(w∣α)=i=1∏NN(wi∣0,αi−1)(7.30)
其中 αi 表⽰对应参数 wi 的精度,α 表⽰ (α1,…,αM)T 。
权值的后验概率分布为
p(w∣t,X,α,β)=N(w∣m,Σ)(7.31)
其中,均值和⽅差为
m=βΣΦTtΣ=(A+βΦTΦ)−1
其中,Φ 是 N×M 的设计矩阵,元素为 Φni=ϕi(xn)( i=1,…,N ), 且 A=diag(αi) 。
α 和 β 的值可以使⽤第⼆类最⼤似然法(也被称为证据近似)来确定。这种⽅法中,最⼤化边缘似然函数,边缘似然函数通过对权向量积分的⽅式得到,即
p(t∣X,α,β)=∫p(t∣X,w,β)p(w∣α)dw(7.32)
由于这表⽰两个⾼斯分布的卷积,因此可以计算求得对数边缘似然函数,形式为
lnp(t∣X,α,β)=lnN(t∣0,C)=−21{Nln(2π)+ln∣C∣+tTC−1t}(7.33)
其中 t=(t1,…,tN)T,并且定义了 N×N 的矩阵 C ,形式为
C=β−1I+ΦA−1ΦT
现在的⽬标是关于超参数 α 和 β 最⼤化公式。
⽅法一,简单地令要求解的边缘似然函数的导数等于零,然后得到了下⾯的重估计⽅程
ai新=mi2γi(7.34)
(β新)−1=N−∑iγi∥t−Φm∥2(7.35)
其中 mi 是公式(7.31)定义的后验均值 m 的第 i 个分量。γi 度量了对应的参数 wi 由数据确定的效果,定义为
γi=1−αiΣii
其中 Σii 是公式(7.31)给出的后验协⽅差 Σ 的第 i 个对角元素。
因此,学习过程按照下⾯的步骤进⾏:选择 α 和 β 的初始值,分别使⽤公式(7.31)计算后验概率的均值和协⽅差,然后交替地重新估计超参数、重新估计后验均值和协⽅差,直到满⾜⼀个合适的收敛准则。
⽅法二,使⽤ EM
算法,这两种寻找最⼤化证据的超参数值的⽅法在形式上是等价的。
在公式(7.28)给出的模型中,对应于剩下的⾮零权值的输⼊ xn 被称为相关向量(relevance vector
),因为它们是通过⾃动相关性检测的⽅法得到的,类似于 SVM
中的⽀持向量。通过⾃动相关性检测得到概率模型的稀疏性的⽅法是⼀种相当通⽤的⽅法,可以应⽤于任何表⽰成基函数的可调节线性组合形式的模型。
对于⼀个新的输⼊ x ,可以计算 t 上的预测分布为
p(t∣x,X,t,α∗,β∗)=∫p(t∣x,w,β∗)p(w∣X,t,α∗,β∗)dw=N(t∣mTΦ(x),σ2(x))(7.36)
因此预测均值由公式(7.27)给出,其中 w 被设置为后验均值 m ,预测分布的⽅差为
σ2(x)=(β∗)−1+ϕ(x)TΣϕ(x)(7.37)
与 RVM
相⽐, SVM
的⼀个主要缺点是训练过程涉及到优化⼀个⾮凸的函数,并且与⼀个效果相似的 SVM
相⽐,训练时间要更长。对于有 M 个基函数的模型,RVM
需要对⼀个 M×M 的矩阵求逆,这通常需要 O(M3) 次操作。在类似 SVM
的模型(7.28)这⼀具体情形下,有 M=N+1 。 存在训练 SVM
的⾼效⽅法,其计算代价⼤致是 N 的⼆次函数。在 RVM
的情况下,总可以在开始时将基函数的数量设置为⼩于 N+1 。在相关向量机中,控制模型复杂度的参数以及噪声⽅差⾃动由⼀次训练过程确定,⽽在⽀持向量机中,参数 C 和 ϵ(或者 ν )通常使⽤交叉验证的⽅法确定,这涉及到多次训练过程。
如图7.10,使用与图7.9相同的数据集和相同的⾼斯核进⾏ RVM
回归的说明。 RVM
预测分布的均值⽤红⾊曲线表⽰,预测分布的⼀个标准差的位置⽤阴影区域表⽰。此外,数据点⽤绿⾊表⽰,相关向量⽤蓝⾊圆圈标记。

二,稀疏性分析
考虑⼀个数据集,这个数据集由 N=2 个观测 t1 和 t2 组成。有⼀个模型,它有⼀个基函数 ϕ(x) ,超参数为 α ,以及⼀个各向同性的噪声,精度为 β 。边缘似然函数为 p(t∣α,β)=N(t∣0,C) ,其中协⽅差矩阵的形式为
C=β1I+α1φφT(7.38)
其中 φ 表⽰ N 维向量 (ϕ(x1),ϕ(x2))T ,t=(t1,t2)T。
如图7.11~7.12,贝叶斯线性回归模型的稀疏性的原理说明。图中给出了⽬标值的⼀组训练向量,形式为 t=(t1,t2)T ,⽤叉号表⽰,模型有⼀个基向量 φ=(ϕ(x1),ϕ(x2))T ,它与⽬标数据向量 t 的对齐效果很差。图7.11中,我们看到⼀个只有各向同性的噪声的模型,因此 C=β−1I ,对应于 α=∞ ,β 被设置为概率最⾼的值。图7.12中,我们看到了同样的模型,但是 α 的值变成了有限值。在两种情况下,红⾊椭圆都对应于单位马⽒距离,∣C∣ 对于两幅图的取值相同,⽽绿⾊虚线圆表⽰由项 β−1 产⽣的噪声的贡献。我们看到 α 的任意有限值减⼩了观测数据的概率,因此对于概率最⾼的解,基向量被移除。


对于涉及到 M 个基函数的⼀般情形, 考察稀疏性的原理。
⾸先写出由公式(7.33)定义的矩阵 C 中来⾃ αi 的贡献,即
C=β−1I+j=i∑αj−1φjφjT+αi−1φiφiT=C−i+αi−1φiφiT(7.39)
其中 φi 表⽰矩阵 Φ 的第 i 列,即 N 维向量,元素为 (ϕi(x1),…,ϕi(xN)) 。这与 ϕn 不同,它表⽰的是 Φ 的第 n ⾏。 矩阵 C−i 表⽰将基函数 i 的贡献删除之后的矩阵 C 。矩阵 C 的⾏列式和逆矩阵可以写成
∣C∣=∣C−i∣(1+ai−1φiTC−i−1φi)(7.40)
C−1=C−i−1−αi+φiTC−i−1φiC−i−1φiφiTC−i−1(7.41)
对数边缘似然函数为
L(α)=L(α−i)+λ(αi)(7.42)
其中 L(α−i) 是省略了基函数 φi 的对数边缘似然函数,λ(αi) 被定义为
λ(αi)=21[lnαi−ln(αi+si)+αi+siqi2]
包含了所有依赖于 αi 的项。引⼊两个量
si=φiTC−i−1φiqi=φiTC−i−1t
si 被称为稀疏度(sparsity
),qi 被称为的 φi 质量(quality
),并且 si 的值相对于 qi 的值较⼤意味着基函数 φi 更可能被模型剪枝掉。“稀疏度”度量了基函数 φi 与 模型中其他基函数重叠的程度,“质量”度量了基向量 φi 与误差向量之间的对齐程度,其中误差向量是训练值 t=(t1,…,tN)T 与会导致 φi 从模型中被删除掉的预测向量 y−i 之间的差值(Tipping and Faul
, 2003)。
在边缘似然函数关于 αi 的驻点处,导数
dαidλ(αi)=2(αi+si)2αi−1si2−(qi2−si)(7.43)
等于零。有两种可能形式的解,αi≥0 ,如果 qi2<si ,那么 αi→∞ 提供了⼀个解。相反,如果 qi2>si ,可以解出 αi ,得
αi=qi2−sisi2(7.44)
如图7.13~7.14,对数边缘似然 λ(αi) 与 lnαi 的图像。图7.13中,单⼀的最⼤值出现在有限的 αi 处,此时 qi2=4 且 si=1(从⽽ qi2>si )。图7.14中,最⼤值位于 αi=∞ 的位置,此时 qi2=1 且 si=2(从⽽ qi2<si )。


最终的顺序稀疏贝叶斯学习算法描述:
1)如果求解回归问题,初始化 β 。
2)使⽤⼀个基函数 φ1 进⾏初始化,⽤公式(7.44)确定超参数 α1 ,其余的 j=1 的超参数 αj 被初始化为⽆穷⼤,从⽽只有 φ1 被包含在模型中。
3)对于所有基函数,计算 Σ 和 m ,以及 qi 和 si 。
4)选择⼀个候选的基函数 φi 。
5.1)如果 qi>si 且 αi<∞ ,从⽽基向量 φi 已经被包含在了模型中,那么使⽤公式(7.44)更新 αi 。
5.2)如果 qi>si 且 αi=∞ ,那么将 φi 添加到模型中,使⽤公式(7.44)计算 αi 。
5.3) 如果 qi≤si 且 αi<∞ ,那么从模型中删除基函数 φi ,令 αi=∞ 。
6)如果求解回归问题,更新 β 。
7)如果收敛,则算法终⽌,否则回到第3)步。
在实际应⽤中,
Si=φiTC−1φiQi=φiTC−1t
质量和稀疏性变量可以表⽰为
qi=ai−SiαiQisi=ai−SiαiSi(7.45)
当 αi=∞ 时,有 qi=Qi 以及 si=Si ,有
Qi=βφiTt−β2φiTΦΣΦTtSi=βφiTφi−β2φiTΦΣΦTφi(7.46)
其中 Φ 和 Σ 只涉及到对应于有限的超参数 αi 的基向量。在每个阶段,需要的计算量为 O(M3) ,其中 M 是模型中**的基向量的数量,通常⽐训练模式的数量 N 要⼩得多。
三,RVM
⽤于分类
考虑⼆分类问题,⽬标变量是⼆值变量 t∈{0,1} 。这个模型现在的形式为基函数的线性组合经过 logistic sigmoid
函数的变换,即
y(x,w)=σ(wTϕ(x))(7.47)
在 RVM
中, 模型使⽤的是 ARD
先验 (7.30),其中每个权值参数有⼀个独⽴的精度超参数。
⾸先,初始化超参数向量 α 。对于这个给定的 α 值,对其后验概率建⽴⼀个⾼斯近似,从⽽得到了对边缘似然的⼀个近似。这个近似后的边缘似然函数的最⼤化就引出了对 α 值的重新估计,并且这个过程不断重复,直到收敛。
对于固定的 α 值,w 的后验概率分布的众数可以通过最⼤化下式得到
lnp(w∣t,α)=ln{p(t∣w)p(w∣α)}−lnp(t∣α)=n=1∑N{tnlnyn+(1−tn)ln(1−yn)}−21wTAw+常数(7.48)
其中 A=diag(αi) 。最⼤化可以使⽤迭代重加权最⼩平⽅(IRLS
)⽅法完成。对于这个算法,需要求出对数后验概率分布的梯度向量和Hessian
矩阵,分别为
∇lnp(w∣t,α)=ΦT(t−y)−Aw(7.49)
∇∇lnp(w∣t,α)=−(ΦTBΦ+A)(7.50)
其中 B 是⼀个 N×N 的对角矩阵,元素为 bn=yn(1−yn) 。向量 y=(y1,…,yN)T ,矩阵 Φ 是设计矩阵,元素为 Φni=ϕi(xn) 。在IRLS
算法收敛的位置,负Hessian
矩阵表⽰后验概率分布的⾼斯近似的协⽅差矩阵的逆矩阵。后验概率的⾼斯近似的众数,对应于⾼斯近似的均值,得到的拉普拉斯近似的均值和⽅差的形式为
w∗=A−1ΦT(t−y)Σ=(ΦTBΦ+A)−1
现在使⽤这个拉普拉斯近似来计算边缘似然函数,有
p(t∣α)=∫p(t∣w)p(w∣α)dw≃p(t∣w∗)p(w∗∣α)(2π)2M∣Σ∣21(7.51)
令边缘似然函数关于 αi 的导数等于零,有
−21(w∗)2+2αi1−21Σii=0
定义 γi=1−αiΣii ,整理,可得
ai新=(wi∗)2γi(7.52)
如果定义
t^=Φw∗+B−1(t−y)(7.53)
那么可以将近似对数边缘似然函数写成
lnp(t∣α)=−21{Nln(2π)+ln∣C∣+(t^)TC−1t^}(7.54)
其中
C=B+ΦAΦT
如图7.15~7.16,相关向量机应⽤于⼈⼯数据集的说明。图7.15给出了决策边界和数据点,相关向量⽤圆圈标记出。图7.16画出了由 RVM
给出的后验概率分布,其中红⾊(蓝⾊)所占的⽐重表⽰数据点属于红⾊(蓝⾊)类别的概率。


对于 K>2 个类别的情形,使⽤相关概率⽅法,有 K 个线性模型,形式为
ak=wkTx(7.55)
模型使⽤softmax
函数进⾏组合
yk(x)=∑jexp(aj)exp(ak)(7.56)
对数似然函数为
lnp(T∣w1,…,wk)=n=1∏Nk=1∏Kynktnk(7.57)
其中,对于每个数据点 n,tnk 的表⽰⽅式是“1-of-K
”的形式,T 是⼀个矩阵,元素为 tnk 。
相关向量机的主要缺点是,与 SVM
相⽐,训练时间相对较长。但是,RVM
避免了通过交叉验证确定模型复杂度的过程,从⽽补偿了训练时间的劣势。