CH3 Linear models for regression回归的线性模型
3.1线性基函数模型
-
回归的最简单模型
y(x,w)=w0+w1x1+…+wDxD
其中x=(x1,…,xD)T.
-
扩展模型
将输入变量的固定的非线性函数进行线性组合
形式为
y(x,w)=w0+j=1∑M−1wjϕj(x)
其中ϕj(x)称为基函数(basis function)。此模型中的参数总数为M。参数w0称为偏置参数(bias parameter)
定义ϕ0(x)=1,此时
y(x,w)=j=0∑M−1wjϕj(x)=wTϕ(x)
其中w=(w0,…,wM−1)T且ϕ=(ϕ0,…,ϕM−1)T。基函数{ϕj(x)}可以表示原始变量x的特征(预处理或特征抽取后的)
-
基函数选择
多项式拟合,基函数:ϕj(x)=xj。局限性:是输入变量的全局函数,因此对于输入空间一个区域的改变将会影响所有其他的区域。解决:把输入空间切分成若干个区域,对每个区域用不同的多项式函数拟合。----样条函数(spline function)???
高斯基函数,ϕj(x)=exp{−2s2(x−μj)2},其中μj控制了基函数在输入空间中的位置,参数s控制了基函数的空间大小。未必是一个概率表达式。归一化系数不重要,因为有调节参数wj
sigmoid基函数,ϕj(x)=σ(sx−μj),其中σ(a)=1+exp(−a)1是logistic sigmoid函数。等价地可以使用tanh函数,和logistic sigmoid函数的关系为tanh(a)=2σ(2a)−1
傅里叶基函数,用正弦函数展开。

3.1.1最大似然与最小平方
假设目标变量t由确定的函数y(x,w)给出,附加高斯噪声,即
t=y(x,w)+ϵ
其中ϵ是一个零均值的高斯随机变量,精度为β,有
p(t∣x,w,β)=N(t∣y(x,w),β−1)
ch1中,假设一个平方损失函数,对于x的一个新值,最优预测由目标变量的条件均值给出,在高斯条件分布的情况下,条件均值可写成
E[t∣x]=∫tp(t∣x)dt=y(x,w)
高斯噪声的假设表明,给定x的条件下,t的条件分布是单峰的,可以扩展到条件高斯分布的混合,描述多峰的条件分布
考虑一个输入数据集X={x1,…,xN},对应的的目标值为t1,…,tN,将目标向量{tn}组成一个列向量,记作t。假设数据点独立,得到似然函数为
p(t∣X,w,β)=n=1∏NN(tn∣wTϕ(xn),β−1)
取对数似然函数,有(不显式地写出x)
lnp(t∣w,β)=n=1∑NlnN(tn∣wTϕ(xn),β−1)=2Nlnβ−2Nln(2π)−βED(w)
其中平方和误差函数为
ED(w)=21n=1∑N{tn−wTϕ(xn)}2
对数似然函数的梯度为
∇lnp(t∣w,β)=βn=1∑N{tn−wTϕ(xn)}ϕ(xn)T
令梯度为0,得
0=n=1∑Ntnϕ(xn)T−wT(n=1∑Nϕ(xn)ϕ(xn)T)
求解w,有
wML=(ΦTΦ)−1ΦTt
称为最小平方问题的规范方程(normal equation),Φ是N×M的矩阵,称为设计矩阵(design matrix),元素为Φnj=ϕj(xn),即
Φ=⎝⎜⎜⎜⎛ϕ0(x1)ϕ0(x2)⋮ϕ0(xN)ϕ1(x1)ϕ1(x2)⋮ϕ1(xN)⋯⋯⋱⋯ϕM−1(x1)ϕM−1(x2)⋮ϕM−1(xN)⎠⎟⎟⎟⎞
量
Φ†≡(ΦTΦ)−1ΦT
成为矩阵的Moore-Penrose伪逆矩阵(pseudo-inverse matrix),可被看成逆矩阵的概念对于非方阵的矩阵的推广
显式地写出偏置参数,误差函数为
ED(w)=21n=1∑N{tn−w0−j=1∑M−1wjϕj(xn)}2
令关于wo的导数等于零,解出wo,得
w0=tˉ−j=1∑M−1wjϕˉj
其中定义了
tˉ=N1n=1∑Ntn
ϕˉj=N1n=1∑Nϕj(xn)
因此偏置w0补偿了目标值的平均值(在训练集上的)与基函数的值的平均值的加权求和之间的差。
关于噪声精度参数β最大化似然函数
βML1=N1n=1∑N{tn−wMLTϕ(xn)}2
因此噪声精度的倒数由目标值在回归函数周围的残留方差给出
3.1.2最小平方的几何描述
考虑一个N维空间,坐标轴由tn给出,t=(t1,…,tN)是空间中的一个向量 ,每个在N个数据点处估计的基函数ϕj(xn)可以表示为这个空间中的一个向量,记作φj,对应于Φ的第i列
如果基函数的数量M小于数据点的数量N,那么M个向量φj将会张成一个M维的子空间S。
定义y是一个N维向量,第n个元素为y(xn,w),由于y是向量φj的任意线性组合,因此可以位于M维子空间的任何位置
平方和误差函数等于y和t之间的平方欧式距离(相差一个因子21)
因此,w的最小平方解对应于子空间S上的正交投影

3.1.3顺序学习
随机梯度下降(stochastic gradient descent):
如果误差函数由数据点的和组成E=∑nEn,那么在观测到模式n之后,使用下式更新参数向量w
w(τ+1)=w(τ)−η∇En
其中τ表示迭代次数,η是学习率参数。w被初始化为某个起始向量w(0)
对于平方和误差函数的情形,有
w(τ+1)=w(τ)+η(tn−w(τ)Tϕn)ϕn
其中ϕn=ϕ(xn),称为最小均方(least-mean-squares)或LMS算法,η的值需要选择以确保算法收敛
3.1.4正则化最小平方
需要最小化的总的误差函数为
ED(w)+λEW(w)
正则化项的一个最简单的形式为权向量的各个元素的平方和
EW(w)=21wTw2
考虑平方和误差函数后的总误差函数为
21n=1∑N{tn−wTϕ(xn)}+2λwTw
称为权值衰减(weight decay),在顺序学习算法中,倾向于让权值向0的方向衰减,除非有数据支持。优点是,误差函数是w的二次函数,精确的最小值有解析解。
w=(λI+ΦTΦ)−1ΦTt
用更加一般的正则化项,为
21n=1∑N{tn−wTΦ(xn)}2+2λj=1∑M∣wj∣q
其中q=2对应于二次正则化项

q=1的情形称为套索(lasso)。性质为:如果λ充分大,,那么某些系数wj会变为0,从而产生了一个稀疏模型(sparse),这个模型中对应的基函数不起作用。
最小化公式w0=tˉ−∑j=1M−1wjϕˉj等价于在满足下面限制的条件下最小化未正则化的平方和误差函数(???不懂)
j=1∑M∣wj∣q≤η
参数η要选择一个合适的值,这样这两种方法通过拉格朗日乘数法联系到一起。

正则化方法通过限制模型的复杂度,使得复杂的模型能在有限大小的数据集上进行训练而不会产生严重的过拟合。这样就使确定最优的模型复杂度的问题从确定合适的基函数数量的问题转移到了确定正则化系数λ的合适值的问题上
3.1.5多个输出
多个目标变量,记作目标向量t,
方法一:对于t的每个分量,引入一个不同的基函数集合,变成多个独立的回归问题
方法二:更常用。对目标向量的所有分量使用一组相同的基函数建模,即
y(x,w)=WTϕ(x)
其中y是一个K为列向量,W是M×K的参数矩阵,ϕ(x)是M列向量,每个元素为ϕj(x),且ϕ0(x)=1
假设令目标向量的条件概率分布是一个各向同性的高斯分布,形式为
p(t∣x,W,β)=N(t∣WTϕ(x),β−1I)
若有一组观测t1,…,tN,组合成一个N×K的矩阵T,使得矩阵的第n行为tnT.类似地,把输入向量x1,…,xN组合成矩阵X.此时对数似然函数为
lnp(T∣X,W,β)=n=1∑NlnN(tn∣WTϕ(xn),β−1I)
=2NKln(2πβ)−2πβn=1∑N∣∣tn−WTϕ(xn)∣∣2
关于W最大化函数,得
WML=(ΦTΦ)−1ΦTT
对每个目标变量tk考察这个结果,有
wk=(ΦTΦ)−1ΦTtk=Φ†tk
其中tk是一个N维列向量,元素维tnk,因此不同目标向量得回归问题被分解开,只需要计算逆伪矩阵Φ†,此矩阵是被所有向量wk所共享的
3.2偏置-方差分解
-
从频率学家的观点考虑模型的复杂度(bias-variance trade-off)
-
使用平方损失函数时最优的预测由条件期望给出,即
h(x)=E[t∣x]=∫tp(t∣x)dt
平方损失函数的期望为
E[L]=∫{y(x)−h(x)}2p(x)dx+∫∫{h(x)−t}2p(x,t)dxdt
第二项与y(x)无关,是由数据本身的噪声造成的,表示期望损失能够达到的最小值。
第一项与y(x)的选择无关,找一个y(x)的解使得这一项最小。原则上数据无限多计算资源无限多能以任意的精度寻找回归函数h(x),给出y(x)的最优解。在实际应用中,数据集D只有有限的N个数据点,不能精确地得到回归函数h(x)
-
如果使用由参数向量w控制的函数y(x,w)对h(x)建模
假设有许多大小为N的数据集D,学习得到预测函数y(x;D).不同的数据集给出不同的函数,给出不同的平方损失的值。特定的学习算法的表现就可以通过取各个数据集上的表现的平均值进行评估
考虑上式的第一项的被积函数,对于一个特定的数据集D,形式为
{y(x;D)−h(x)}2
这个量与特定的数据集D相关,因此对所有的数据集取平均。在括号内做处理,有
{y(x;D)−ED[y(x;D)]+ED[y(x;D)]−h(x)}2
={y(x;D)−ED[y(x;D)]}2+{ED[y(x;D)]−h(x)}2
+2{y(x;D)−ED[y(x;D)}{ED[y(x;D)]−h(x)}
关于D求期望,得
ED[{y(x;D)−h(x)}2]
={ED[y(x;D)]−h(x)}2(偏置)2+ED[{y(x;D)−ED[y(x;D)]}2]方差
第一项称为平方偏置(bias),表示所有数据集的平均预测与预期的回归函数之间的差异。第二项称为方差(variance),度量了对于单独的数据集,模型所给出的解在平均值附近波动的情况,度量了函数y(x,D)对于特定的数据集的选择的敏感程度
期望平方损失的分解
期望损失=偏置2+方差+噪声
其中
偏置2=∫{ED[y(x;D)]−h(x)}2p(x)dx
方差=∫ED[{y(x;D)−ED[y(x;D)]}2]p(x)dx
噪声=∫∫{h(x)−t}2p(x,t)dxdt
在偏置和方差之间有一个折中。对于非常灵活的模型来说,偏置较小、方差较大。对于相对固定的模型来说,偏置较大,方差较小。有着最优预测能力的模型是在偏置和方差之间取得最优的平衡的模型。
-
例子:产生100个数据集合,每个集合都包含N=25个数据点,独立地从正弦曲线h(x)=sin(2πx)抽取,数据集的编号为l=1,…,L,且对于每个数据集D(l),通过最小化正则化的误差函数拟合了一个带有24个高斯基函数的模型,给出了预测函数y(l)(x)

上图中第一行对应着较大的正则化系数λ,模型的方差很小(看左侧),偏置很大(看右侧);最后一行的正则化系数λ很小,方差较大,偏置很小。
把M=25这种复杂模型的多个解进行平均,会产生对于回归函数非常好的拟合,表明平均是一个很好的步骤。将多个解加权平均是贝叶斯方法的核心!这种求平均针对的是参数的后验分布,而不是针对多个数据集。
-
定量考察偏置-方差折中,平均预测由下式求出
yˉ(x)=L1l=1∑Ly(l)(x)
且积分后的平方偏置及积分后的方差为
偏差2=N1n=1∑N{yˉ(xn)−h(xn)}2
方差=N1n=1∑NL1l=1∑L{y(l)(xn)−yˉ(xn)}2
其中由概率分布p(x)加权的x的积分由来自此概率分布的有限数据点的加和来近似

可以看出,小的λ使得模型对于各个数据集里的噪声的拟合效果非常好,导致了较大的方差。大的λ把权值参数拉向0,导致了较大的偏置。
3.3贝叶斯线性回归
3.3.1参数分布
-
引入模型参数w的先验概率分布,把噪声精度参数β当作已知常数
似然函数p(t∣w)是w的二次函数的指数形式,对应的共轭先验是高斯分布,形式为
p(w)=N(w∣m0,S0)
均值为m0,协方差为S0
后验概率分布的形式
p(w∣t)=N(w∣mN,SN)
其中
mN=SN(S0−1m0+βΦTt)
SN−1=S0−1+βΦTΦ
由于后验分布是高斯分布,它的众数与均值相同。(?前面好像有?)因此最大后验权向量的结果即wMAP=mN.考虑一个无限宽的先验S0=α−1I,其中α→0,那么后验概率分布的均值mN就变成了最大似然值wML;类似地,如果N=0,那么后验概率分布就变成了先验分布;如果数据点是顺序到达的,那么任何一个阶段的后验概率分布都可以看成后续数据点的先验
-
考虑零均值各向同性高斯分布,由精度参数α控制,即
p(w∣α)=N(w∣0,α−1I)
对应的w的后验概率分布形式同上
p(w)=N(w∣m0,S0)
其中
mN=βSNΦTt
SN−1=αI+βΦTΦ
后验概率分布的对数由对数似然函数与先验的对数求和的方式得到,形式为
lnp(w∣t)=−2βn=1∑N{tn−wTϕ(xn)}2−2αwTw+常数
后验分布关于w的最大化等价于对平方和误差函数假设一个正则化项进行最小化,其中λ=βα
-
考虑一个单一输入变量x,一个单一目标变量t,形式为y(x,w)=w0+w1x的线性模型
从函数f(x,α)=α0+α1x中人工生成数据,其中α0=−0.3且α1=0.5
生成数据的方法为:从均匀分布U(x∣−1,1)中选择xn的值,计算f(xn,α),增加一个标准差为0.2的高斯噪声,得到目标变量tn
假设噪声方差是已知的,把精度参数设置为真实值β=(0.21)2=25;类似地把α固定为2.0

图上第一行是观测到任何数据点之前的情况,给出了w空间的先验概率分布的图像
图上第二行是观测到一个数据点之后的情形,似然函数提供了一个温和的限制,即直线必须穿过数据点附近的位置,其中附近位置的范围由噪声精度β确定。
图上第三行是两个数据点
图上第四行是20个数据点
在无穷多个数据点的极限情况下,后验概率分布会变成一个Delta函数,函数的中心是用白色十字标记出的真实参数值
3.3.2预测分布
预测分布定义为
p(t∣t,α,β)=∫p(t∣w,β)p(w∣t,α,β)dw
其中t是训练数据的目标变量的值组成的向量。此公式涉及到两个高斯分布得卷积,得预测分布的形式为
p(t∣x,t,α,β)=N(t∣mNTϕ(x),σN2(x))
其中方差为
σN2(x)=β1+ϕ(x)TSNϕ(x)
第一项表示数据中的噪声,第二项反映了与参数w关联的不确定性。由于噪声和w的分布是相互独立的高斯分布,因此它们的值是可以相加的。注意,当额外的数据点被观测到的时候,后验概率分布会变窄,从而可以证明σN+12(x)≤σN2(x).在极限N→∞的情况下,第二项趋于0,从而预测分布的方差只与参数β控制的具有可加性的噪声有关。

红色曲线是对应的高斯预测分布的均值,红色阴影区域是均值两侧的一个标准差范围的区域。预测的不确定性依赖于x,并且在数据点的领域内最小。不确定性的程度随着观测到的数据点的增多而逐渐减小

不同的x值的预测之间的协方差。从w的后验概率分布中抽取样本,得到对应的函数y(x,w),如上图
使用局部的基函数(例如高斯基函数),在距离基函数中心较远的区域,上式第二项的贡献将会趋于零,只剩下噪声的贡献β−1。因此,当对基函数所在的区域之外的区域进行外插的时候,模型对于它所做的预测会变得相当确定。这通常不是我们想要的结果。通过使⽤被称为⾼斯过程的另⼀种贝叶斯回归⽅法,这个问题可以被避免。
如果w和β都被当成是位置的,可以引入一个由高斯-Gamma分布定义的共轭先验分布p(w,β),在这种情况下,预测分布是一个学生t分布
3.3.3等价核
把线性基函数模型的后验均值mN=βSNΦTt代入y(x,w)=∑j=0M−1wjϕj(x)=wTϕ(x)中,预测均值可以写成
y(x,mN)=mNTϕ(x)=βϕ(x)TSNΦTt=n=1∑Nβϕ(x)TSNϕ(xn)tn
因此在x处的预测均值由训练集目标变量tn的线性组合给出,即
y(x,mN)=n=1∑Nk(x,xn)tn
其中,
k(x,x′)=βϕ(x)TSNϕ(x′)
被称为平滑矩阵(smoother matrix)或者等价核(equivalent kernel),像这样的回归函数通过对训练集里目标值进行线性组合做预测称为线性平滑(linear smoother)
等价核依赖于来自数据集的输入值xn,这些输入值出现在SN中

上图给出了三个不同的x值的情况下,核函数k(x,x′)与x′的函数关系(这幅图没看懂)它们在局限在x的周围,因此在x处的预测分布的均值y(x,mN)可以通过对⽬标值加权组合的⽅式获得。距离x较近的数据点可以赋⼀个较⾼的权值,⽽距离x较远的数据点可以赋⼀个较低的权值。直观来看,与远处的证据相⽐,我们把局部的证据赋予更⾼的权值似乎是更合理的。
这种局部性不仅对于局部的高斯基函数成立,对于非局部的多项式基函数和sigmoid基函数也成立

考虑y(x)和y(x)′的协方差
cov[y(x),y(x)′]=cov[ϕ(x)Tw,wTϕ(x′)]=ϕ(x)TSNϕ(x′)=β−1k(x,x′)
k可以看到在附近的点处的预测均值相关性较高,而距离较远的点对相关性较低
-
用核函数表示线性回归
给出了解决回归问题的另一种方法,不引入一组基函数(隐式地定义了一个等价的核),而是直接定义一个局部的核函数,然后在给定观测数据集的条件下,使用这个核函数对新的输入变量x做预测。这就是用于回归问题(及分类问题)的一个很实用的框架,叫高斯过程
-
等价核定义了模型的权值
通过这个权值,训练数据集里的目标值被组合,然后对新的x做预测,这些权值的和等于1,即
n=1∑Nk(x,xn)=1
对于所有的x值都成立。等价于对所有的n都有tn=1的目标数据集的预测均值y^(x).
假设基函数是线性独立的,且数据点的数量多于基函数的数量,且其中一个基函数是常量(对应于偏置参数),那么可以精确地拟合训练数据,因此预测均值就是简单的y^(x)=1.
注意,核函数可以为负也可以为正,因此虽然满足加和限制,但对应的预测未必是训练集的目标值的凸组合
-
等价核满足一般核函数共有的重要性质,即
k(x,z)=ψ(x)Tψ(Z)
其中ψ(x)=β21SN21ψ(x)
3.4贝叶斯模型比较
-
使用概率来表示模型选择的不确定性,恰当地使用概率的加和规则和乘积规则
-
假设比较L个模型{Mi},一个模型指的是观测数据D上的概率分布
在多项式曲线拟合的问题中,概率分布被定义在目标值t上,而输入值x被假定为已知的。其他类型的模型定义了x和t上的联合分布。
假设数据是由这些模型中的一个生成的,但不清楚究竟是哪一个,不确定性通过先验概率分布p(Mi)表示
给定一个训练数据集D,估计后验分布
p(Mi∣D)∝p(Mi)p(D∣Mi)
先验分布能表达不同模型之间的优先级。假设所有的模型都有相同的先验概率
模型证据(model evidence)p(D∣Mi)表达了数据展现出的不同的模型的优先级,也称为边缘似然(marginal likelihood),可以被看作在模型空间中的似然函数,在这个空间中参数已经被求和或者积分
贝叶斯因子(Bayes factor)是两个模型的模型证据的比值p(D∣Mj)p(D∣Mi)
根据概率的加和与乘积规则,预测分布为
p(t∣x,D)=i=1∑Lp(t∣x,Mi,D)p(Mi∣D)
这是混合分布(mixture distribution)的一个例子。在这个公式中,整体的预测分布由下面的方式获得:对各个模型的预测分布p(t∣x,Mi,D)求加权平均,权值为这些模型的后验概率p(Mi∣D)
-
例子:两个模型,后验概率相等。一个模型预测了t=a附近的一个很窄的分布,另一个模型预测了t=b附近的一个很窄的分布。这样整体的预测分布是一个双峰的概率分布,峰值位于t=a和t=b处,而不是在t=2a+b处的一个单一模型
-
模型选择(model selection)
使用对可能的一个模型自己做预测是对于模型求平均的一个简单的近似
对于一个由参数w控制的模型,根据概率的加和规则和乘积规则,模型证据为
p(D∣Mi)=∫p(D∣w,Mi)p(w∣Mi)dw
从取样的角度看,边缘似然函数可被看成从一个模型中生成数据集D的概率,此模型的参数是从先验分布中随机取样的。
模型证据恰好是在估计参数的后验分布时出现在贝叶斯定理的分母中的归一化项,因为
p(w∣D,Mi)=p(D∣Mi)p(D∣w,Mi)p(w∣Mi)
-
认识模型证据,对参数的积分进行一个简单的近似
-
首先考虑模型有一个参数w的情形,参数的后验概率正比于p(D∣w)p(w)(省略了对模型Mi的依赖)
假设后验分布在最大似然值wMAP附近是一个尖峰,宽度为Δw后验,用被积函数的值乘以尖峰的宽度来近似这个积分。进一步假设先验分布是平的,宽度为Δw先验,即p(w)=Δw先验1,有
p(D)=∫p(D∣w)p(w)dw≅p(D∣wMAP)Δw先验Δw后验
取对数得
lnp(D)≅lnp(D∣wMAP)+ln(Δw先验Δw后验)

第一项表示拟合由最可能参数给出的数据。对于平的先验分布来说,对应于对数似然。
第二项用于根据模型的复杂度来惩罚模型。由于Δw后验<Δw先验,为负,随着Δw先验Δw后验的减小,这一项的绝对值增加。因此,如果参数精确地调整为后验分布的数据,惩罚项会很大
-
有M个参数的模型,对每个参数进行类似的近似
假设所有的参数的Δw先验Δw后验相同,有
lnp(D)≅lnp(D∣wMAP)+Mln(Δw先验Δw后验)
复杂度惩罚项的大小随着模型中可调节参数M的数量线性增加
增加模型的复杂度,第一项通常会增大,因为一个更复杂的模型能更好地拟合数据;第二项会减小,因为它依赖于M.由最大模型证据确定的最优的模型复杂度需要在这两个相互竞争的项之间进行折中
-
认识贝叶斯模型比较

图中横轴是可能的数据集构成的空间的一维表示,轴上的每个点对应着一个具体的数据集。假设让这三个模型自动产生样本数据集,观察生成数据集的分布。任意给定的模型都能生成一系列不同的数据集,因为模型的参数由先验概率分布控制,对于任意一种参数的选择,在目标变量上都可能有随机的噪声。
为了从具体的模型中⽣成⼀个特定的数据集, ⾸先从先验分布p(w)中选择参数的值,然后对于这些参数的值,我们按照概率p(D∣w)对数据进⾏采样。
简单的模型(例如基于一阶多项式的模型)几乎没有变化性,生成的数据集之间十分相似,于是它的分布p(D)被限制在横轴的一个相对小的区域
复杂的模型(例如九阶多项式)可以生成变化性相当大的数据集,分布p(D)遍布了数据集空间的一个相当大的区域。
由于概率分布p(D,Mi)是归一化的,因此特定的数据集D0对中等复杂度的模型有最高的模型证据。
本质上说,简单的模型不能很好地拟合数据,⽽复杂的模型把它的预测概率散布于过多的可能的数据集当中,从⽽对它们当中的每⼀个赋予的概率都相对较⼩。
-
贝叶斯模型比较框架的优劣
隐含了一个假设,生成数据的真实的概率分布包含在考虑的模型集合中。
平均来看,贝叶斯模型会比较倾向于选择出正确的模型。
证明:考虑两个模型M1和M2,其中真实的概率分布对应于模型M1。对于给定的有限数据集,确实有可能出现错误的模型反⽽使贝叶斯因⼦较⼤的事情。 但是,如果把贝叶斯因⼦在数据集分布上进⾏平均,得到期望贝叶斯因子
∫p(D∣M1)lnp(D∣M2)p(D∣M1)dD
上式是关于数据的真实分布求得平均值。这是Kullback-Leibler散度的⼀个例⼦,满⾜下⾯的性 质:如果两个分布相等,则Kullback-Leibler散度等于零,否则恒为正。因此平均来讲,贝叶斯因⼦总会倾向于选择正确的模型。
优:避免了过拟合,使得模型能基于训练数据自身进行对比
劣:需要对模型得形式做出假设,假设不合理,结果就错

可以看出模型证据对先验分布的很多方面都很敏感,例如在低概率处的行为
如果先验分布是反常的,那么模型证据⽆法定义,因为反常的先验分布有着任意的缩放因⼦(换句话说,归⼀化系数⽆法 定义,因为分布根本⽆法被归⼀化)。
如果我们考虑⼀个正常的先验分布,然后取⼀个适当的极限来获得⼀个反常的先验(例如⾼斯先验中,我们令⽅差为⽆穷⼤),那么模型证据就会趋于零,这可以从上图中看出来。但是这种情况下也可能通过⾸先考虑两个模型的证据⽐值,然后取极限的⽅式来得到⼀个有意义的答案。
在实际应⽤中,⼀种明智的做法是,保留⼀个独⽴的测试数据集,⽤来评估最终系统的整体表现。
3.5证据近似
在处理线性基函数模型的纯粹的贝叶斯方法中,会引入超参数α和β的先验分布,然后通过对超参数及参数w求积分的方式做预测。
虽然可以解析地求出对w的积分或者求出对超参数的积分,但是对所有变量完整地求积分是没有解析解的。
-
一种近似方法----经验贝叶斯(empirical Bayes)或第二类最大似然(type2 maximumu likelihood)或推广的最大似然(generalized maximum likelihood)或证据近似(evidence approximation)
首先对参数w求积分,得到边缘似然函数,最大化边缘似然函数,确定超参数的值
引入α和β上的超先验分布,预测分布可以通过对w,α,β求积分的方法得
p(t∣t)=∫∫∫p(t∣w,β)p(w∣t,α,β)p(α,β∣t)dwdαdβ
根据贝叶斯定理,α和β的后验分布为
p(α,β∣t)∝p(t∣α,β)p(α,β)
如果先验分布相对⽐较平,那么在证据框架中, α^和β^可以通过最⼤化边缘似然函数p(t∣α,β)来获得。计算线性基函数模型的边缘似然函数,找到最⼤值。能从训练数据本⾝确定这些超参数的值,⽽不需要交叉验证。
值得注意的⼀点是,如果我们定义α和β上的共轭(Gamma)先验分布,那么超参数求积分可以解析地计算出来,得到w上的学⽣t分布
可以使⽤拉普拉斯近似⽅法对这个积分求近似。
拉普拉斯近似⽅法的基础是以后验概率分布的众数为中⼼的局部⾼斯近似⽅法。然⽽,作为w的函数的被积函数的众数通常很不准确,因此拉普拉斯近似⽅法不能描述概率质量中的⼤部分信息。导致最终的结果要⽐最⼤化证据的⽅法给出的结果更差 。
两种最大化对数证据的方法:解析地计算证据函数令导数等于0得到对于α和β的重新估计房产;使用期望最大化(EM)算法。
这两种方法会收敛到同一个解
3.5.1计算证据函数
边缘似然函数p(t∣α,β)是通过对权值参数w进行积分得到的,即
p(t∣α,β)=∫p(t∣w,β)p(w∣α)dw
根据公式
lnp(t∣w,β)=n=1∑NlnN(tn∣wTϕ(xn),β−1)=2Nlnβ−2Nln(2π)−βED(w)
ED(w)=21n=1∑N{tn−wTϕ(xn)}2
p(w∣α)=N(w∣0,α−1I)
可以把证据函数写成
p(t∣α,β)=(2πβ)2N(2πα)2M∫exp{−E(w)}dw
其中M是w的维数,且定义
E(w)=βED(w)+αEW(w)=2β∣∣t−Φw∣∣2+2αwTw
可以看到忽略一些比例常数,上式等于正则化的平方和误差函数
对w配平方,得
E(w)=E(mN)+21(w−mN)TA(w−mN)
其中令
A=αI+βΦTΦ
E(mN)=2β∣∣t−ΦmN∣∣2+2βmNTmN
A对应于误差函数的二阶导数
A=∇∇E(w)
被称为Hessian矩阵
定义mN为
mN=βA−1ΦTt
使用公式SN−1=S0−1+βΦTΦ,看到A=SN−1.因此mN=βA−1ΦTt等价于mN=βSNΦTt,表示后验概率分布的均值
比较多元高斯分布的归一化系数,关于w的积分即
∫exp{−E(w)}dw=exp{−E(mN)}∫exp{−21(w−mN)TA(w−mN)}dw
=exp{−E(mN)}(2π)2M∣A∣−21
使用公式p(t∣α,β)=(2πβ)2N(2πα)2M∫exp{−E(w)}dw,把边缘似然函数的对数写成
lnp(t∣α,β)=2Mlnα+2Nlnβ−E(mN)−21ln∣A∣−2Nln(2π)
这就是证据函数的表达式

图中假定先验分布的形式为p(w∣α)=N(w∣y(0,α−1I)=(2πα)2M+1exp{−2αwTw}
参数α的值固定为α=0.005

可以看到M=0的多项式对数据的拟合效果⾮常差,结果模型证据的值也相对较⼩。 $M=1的多项式对于数据的拟合效果有了显著的提升,因此模型证据变⼤了。但是,对于M=2$的多项式,拟合效果又变得很差,因为产⽣数据的正弦函数是奇函数,因此在多项式展开中没有偶次项。
可以看出数据残差从M=1到M=2只有微小的减小。由于复杂的模型有着更⼤的复杂度惩罚项,因此从M=1到M=2,模型证据实际上减⼩了。当M=3时,我们对于数据的拟合效果有了很⼤的提升,因此模型证据再次增⼤,给出了多项式拟合的最⾼的模型证据。进⼀步增加M的值,只能少量地提升拟合的效果,但是模型的复杂度却越来越复杂,这导致整体的模型证据会下降。
看到泛化错误在M=3到M=8之间⼏乎为常数,因此单独基于这幅图很难对模型做出选择。然⽽,模型证据的值明显地倾向于选择M=3的模型,因为这是能很好地解释观测数据的最简单的模型。
3.5.2最大化证据函数
-
考虑p(t∣α,β)关于α的最大化
定义特征向量方程
(βΦTΦ)ui=λiui
根据A=αI+βΦTΦ,可知A的特征值为α+λi.考虑公式lnp(t∣α,β)=2Mlnα+2Nlnβ−E(mN)−21ln∣A∣−2Nln(2π)中涉及到ln∣A∣的项关于α的导数
dαdln∣A∣=dαdlni∏(λi+α)=dαdi∑ln(λi+α)=i∑λi+α1
因此关于α的驻点满足
0=2αM−21mNTmN−21i∑λi+α1
两侧乘以2α,整理得
αmNTmN=M−αi∑λi+α1=γ
由于i的求和式中一共有M项,因此γ可以写成
γ=i∑α+λiλi
最大化边缘似然函数的α满足
α=mNTmNγ
这是α的一个隐式解,因为γ与α相关,后验概率本身的众数mN与α的选择有关。因此使用迭代的方法求解。
首先选择一个α的初始值,使用初始值找到mN,计算γ,估计α。这个过程不断进行,直到收敛。
由于ΦTΦ是固定的,可以在最开始的时候计算一次特征值,只需乘以β即可得到λi的值
α的值是纯粹通过观察训练集确定的。与最大似然方法不同,最优化模型复杂度不需要独立的数据集
-
关于β最大化对数边缘似然函数
(βΦTΦ)ui=λiui定义的特征值λi正比于β,因此dβd=βλi于是
dβdln∣A∣=dβdi∑ln(λi+α)=β1i∑λi+αλi=βγ
边缘似然函数的驻点满足
0=2αN−21n=1∑N{tn−mNTϕ(xn)}2−2βγ
整理得
β1=N−γ1n=1∑N{tn−mNTϕ(xn)}2
这是β的⼀个隐式解,可以通过迭代的⽅法解出。
⾸先选择β的⼀个初始值,然后使⽤这个初始值计算mN和γ,然后重新估计β的值,重复直到收敛。
如果α和β的值都要从数据中确定,那么他们的值可以在每次更新γ之后⼀起重新估计。
3.5.3参数的有效数量
考虑似然函数的轮廓线及先验概率分布

隐式地把参数空间的坐标轴进⾏了旋转变换,使其与特征向量对齐。似然函数的轮廓线变成轴对齐的椭圆。特征值λi度量了似然函数的曲率,因此在图中特征值λ1小于λ2(较小的曲率对应着似然函数轮廓线较大的拉伸)
由于βΦTΦ是一个正定矩阵,因此特征值为正数,比值λi+αλi位于0和1之间,结果γ的取值范围为0≤γ≤M.对于λi≫α的方向,对应的参数wi将会与最大似然值接近,且比值λi+αλi接近1.这样的参数被称为良好确定的,因为它们的值被数据紧紧限制着。相反,对于λi≪α的⽅向,对应的参数wi将会接近0,⽐值λi+αλi也会接近0。这些⽅向上,似然函数对于参数的值相对不敏感,因此参数被先验概率设置为较⼩的值。γ因此度量了良好确定的参数的有效总数。
比较β和公式βML1=N1∑n=1N{tn−wMLTϕ(xn)}2比较,这两个公式都把方差表示为目标值和模型预测值的差的平方的平均值。区别在于最大似然结果的分母是数据点的数量N,而贝叶斯结果的分母是N−γ
考虑线性回归模型的对应的结果
⽬标分布的均值现在由函数wTϕ(x)给出,它包含了M个参数。
但是,并不是所有的这些参数都按照数据进⾏了调解。由数据确定的有效参数的数量为γ,剩余的M−γ个参数被先验概率分布设置为较⼩的值。这可以通过⽅差的贝叶斯结果中的因⼦N−γ反映出来,因此修正了最⼤似然结果的偏差。
使用正弦数据超参数的有效框架,以及由9个基函数组成的⾼斯基函数模型,因此模型中的参数的总数为M=10,这⾥包含了偏置。为了说明的简洁性,把β设置成了真实值11.1,然后使⽤证据框架来确定α

可以看到参数α 是如何控制参数{wi}的⼤⼩的。下图给出了独⽴的参数关于有效参数数量γ的函数图像。 如果我们考虑极限情况N≫M,数据点的数量⼤于参数的数量,那么所有的参数都可以根据数据良好确定。因为$ \Phi^T\Phi涉及到数据点的隐式求和,因此特征值\lambda_i随着数据集规模的增加⽽增⼤。在这种情况下,\gamma=M,并且\alpha和\beta$的重新估计⽅程变为了
α=2EW(mN)M
β=2ED(mN)N
不需要计算Hessian矩阵的一系列特征值
3.6固定基函数的局限性
由固定的非线性基函数的线性组合组成的模型对于参数的线性性质的假设产生有用的性质,包括最小平方问题的解析解,容易计算的贝叶斯方法。
对于⼀个合适的基函数的选择,我们可以建⽴输⼊向量到⽬标值之间的任意⾮线性映射。
假设了基函数在观测到任何数据之前就被固定了下来,这是维度灾难的一个表现形式。基函数的数量随着输⼊空间的维度D迅速增 长,通常是指数⽅式的增长.
真实数据集有两个性质,可以帮助缓解这个问题。
第⼀,数据向量{xn}通常位于⼀个⾮线性流形内部。由于输⼊变量之间的相关性,这个流形本⾝的维度⼩于输⼊空间的维度。如果使⽤局 部基函数,那么可以让基函数只分布在输⼊空间中包含数据的区域。这种⽅法被⽤在径向基函数⽹络中,也被⽤在⽀持向量机和相关向量机当中。神经⽹络模型使⽤可调节的基函数,这些基函数有着sigmoid⾮线性的性质。神经⽹络可以通过调节参数,使得在输⼊空间的区域中 基函数会按照数据流形发⽣变化。
第⼆,⽬标变量可能只依赖于数据流形中的少量可能的⽅ 向。利⽤这个性质,神经⽹络可以通过选择输⼊空间中基函数产⽣响应的⽅向。