PRML(一)如何根据贝叶斯理论推导多项式曲线拟合问题的cost function

马上要成为一个ML/DL方向的工程师,PRML作为经典教材,对于理解一些常用算法的intuition和motivation是非常有益的。虽然是2006年出版的一本书,但是有很多内容仍然值得学习和反思。加之本书有一些习题可以巩固思考,今天开始踏入PRML的学习。

① 理论基础

如何根据贝叶斯理论推导多项式曲线拟合问题的损失函数,这个需要的基本概率论基础如下

  • 加法公式

    p(X)=Yp(X,Y)

  • 乘法公式

    p(X,Y)=p(Y|X)p(X)

  • 贝叶斯公式

    p(Y|X)=p(X|Y)p(Y)p(X)

    其中,
    p(X,Y)=p(Y,X)
    ,
    p(X)=Yp(X|Y)p(Y)

    还有值得注意的是,在贝叶斯公式中,分母P(X)被视为让条件概率之和为1(所有yi情况)的normalization constant——正则因子
    在后面叙述利用参数w来作多项式拟合曲线中,我们假设先捕捉到关于w的概率,用先验概率p(w)表示。观测数据为D={t1,...,tN},用条件概率p(D|w)表示。p(D|w)可以视为参数向量w的函数,称为似然函数。因此,可以采用贝叶斯定理,形式如下:
    p(w|D)=p(D|w)p(w)p(D)

    PRML的作者Bishop不止一次强调:p(D)在贝叶斯公式中的作用就是让左边的p(w|D)关于w的积分为1,限制其规模,算是一个正则常数(normalization constatnt),即
    p(D)=p(D|w)p(w)dw

    在贝叶斯理论中,我们认为w是不确定的,而D是已知的——通过观测得到的唯一一组数据。贝叶斯理论的优点在于:先验知识的产生是自然的。比如对55开的投硬币问题,如果连续投3次,每次都是正面朝上,那么传统的最大似然估计估计就会错误的认为正面朝上的概率为1。而贝叶斯方法则会给出一个不会出现这种极端情况的先验概率。
    当然,贝叶斯方法也有缺点,它的典型缺点是:先验分布是不提供信息的。 贝叶斯方法的先验概率选择是基于数学上的方便而非其它先验信息的反映,所以,如果使用的贝叶斯方法先前的选择糟糕,那么会给糟糕的结果很高的置信度。

下面介绍一下高斯分布/正态分布,它是最为重要的一种分布,对于单个实值变量x,其高斯分布为:

N(μ,σ2)=12πσ2exp{12σ2(xμ)2}

其中,μ为均值,σ2为方差,σ为标准差。这里还定义了一个β=1/σ2,称为精度
PRML(一)如何根据贝叶斯理论推导多项式曲线拟合问题的cost function

xD维向量组成的连续型变量时,其高斯分布的新形式为:
PRML(一)如何根据贝叶斯理论推导多项式曲线拟合问题的cost function
这里,=σTσD x D的协方差矩阵。

现在,假设我们有一组观测值x={x1,x2,...,xN}N表示样本个数。这里,我们认为这组观测值是独立服从高斯分布的,即independent and identically distributed——i.i.d(独立同分布).由于数据集是独立同分布的,那么可以将数据集的概率写成如下形式:
PRML(一)如何根据贝叶斯理论推导多项式曲线拟合问题的cost function

根据概率理论,看起来应该对给定数据最大化参数的的概率比给定参数最大化数据更自然也一些。也就是xp(w|D)p(D|w)更自然。但是贝叶斯方法正是通过求p(D|w)进而得到p(w|D)的,下面将正式开始推导过程的梳理。

② 根据贝叶斯理论推导多项式曲线拟合问题的cost function

2.1 曲线拟合问题再探

首先,让我们来看一下曲线拟合问题,这里,我们用概率论的视角重新解构多项式拟合问题。这对于我们了解损失函数中的主体和正则化项的形成会有更为清晰的认识。

曲线拟合的目标是根据新输入的变量x来得到合理的预测t。我们现在有一组(N个)输入数据x={x1,x2,...,xN}和其对应值t={t1,t2,...,tN}。这里,可以通过概率分布来表达目标变量的不确定性——假设t服从均值为y(x,w)高斯分布,表示如下:
PRML(一)如何根据贝叶斯理论推导多项式曲线拟合问题的cost function
这里的β1就是前面提到的精度参数。

PRML(一)如何根据贝叶斯理论推导多项式曲线拟合问题的cost function

现在,通过最大似然估计,使用训练数据{x,t}来找出未知参数wβ的值。根据之前提到的,如果数据是独立同分布的,那么似然函数可以表示为:
PRML(一)如何根据贝叶斯理论推导多项式曲线拟合问题的cost function

显然,似然函数的对数形式更容易求解,其对数形式为:
PRML(一)如何根据贝叶斯理论推导多项式曲线拟合问题的cost function
这里,公式的后两项可以忽略,因为不包含w;又log形式的最大似然函数系数不影响w的取值。所以将β/2用1/2替代;另外,最大化似然函数等价于最小化负log的似然函数。平方和误差函数看起来是从符合高斯分布的p(t|w,x,β)导出的。通过这里,可以得到wML

同样地,可以通过最大似然估计求精度β
PRML(一)如何根据贝叶斯理论推导多项式曲线拟合问题的cost function

由于wMLβML已经求出,我们可以据此得到p(w|D)——之前一直求的是反直觉的p(D|w)

PRML(一)如何根据贝叶斯理论推导多项式曲线拟合问题的cost function

现在,引入多项式拟合问题的先验概率分布,为了简单,我们假定其服从高斯分布:
PRML(一)如何根据贝叶斯理论推导多项式曲线拟合问题的cost function
这里,α表示分布的精度,也叫做超参数——hyperparameters;M为多项式的个数,也就是特征个数。

根据贝叶斯定理,关于w的后验分布与先验概率 X 似然函数成比例:
PRML(一)如何根据贝叶斯理论推导多项式曲线拟合问题的cost function

根据上面,我们的目标变为求后验概率的-log形式的最小值:
PRML(一)如何根据贝叶斯理论推导多项式曲线拟合问题的cost function
其中第一项取自
PRML(一)如何根据贝叶斯理论推导多项式曲线拟合问题的cost function
的第一项。第二项取自
PRML(一)如何根据贝叶斯理论推导多项式曲线拟合问题的cost function
的-log形式的exp{α2wTw}

2.2 贝叶斯曲线拟合

尽管我们推出了先验概率p(w|α)。到目前为止,我们还在对w进行点估计,这还不完全等同于贝叶斯估计。在贝叶斯方法中,我们应该一贯的应用概率论的乘法和加法法则。

下面,我们假设上面推导过程中涉及到的αβ为固定值并提前知道其取值。贝叶斯方法将预测分布写成如下形式——忽略αβ
PRML(一)如何根据贝叶斯理论推导多项式曲线拟合问题的cost function

注意,上式是服从高斯分布的,而且其可以进行解析分析。同样地,对上式进行积分,其高斯分布形式为:
PRML(一)如何根据贝叶斯理论推导多项式曲线拟合问题的cost function
PRML(一)如何根据贝叶斯理论推导多项式曲线拟合问题的cost function
公式(1.71)的第一项表示由于目标变量的噪声而导致的预测值t的不确定性,第二项是由于参数w带来的不确定性,是贝叶斯处理过程中产生的。

其预测结果为合成正弦回归——synthetic sinusoidalregression
PRML(一)如何根据贝叶斯理论推导多项式曲线拟合问题的cost function