Pattern Recognition and Machine Learning: Chapter 01习题详解

PRML_Exercises

Pattern Recognition and Machine Learning习题中文详解

欢迎讨论题目(我把自己做的过程贴出来也是为了更方便讨论),禁止一切形式的转载。

关于排版,实话说我也想把公式排得舒服好看一些,奈何着实费力,这着实不太讨喜,见谅。

Chapter 1

1.1

能够使得式(1.2)给出的误差函数最小的参数w={wi}\mathbf{w}=\{w_i\}就是使得误差为00的参数,那么就满足
j=0Mwjxnj=tn\sum_{j=0}^{M}w_jx_n^j=t_n
而我们要做的这道证明题的右式
Ti=n=1N(xn)itnT_i=\sum_{n=1}^{N}(x_n)^it_n
直接将上述我们已知的tnt_n代入,得
Ti=n=1N[(xn)ij=0Mwj(xn)j]T_i=\sum_{n=1}^N[(x_n)^i\sum_{j=0}^{M}w_j(x_n)^j]
又由于(xn)i(x_n)^i不含有与jj相关的系数,所以可以将其放入后面的求和项,即
Ti=n=1Nj=0M(xn)iwj(xn)jT_i=\sum_{n=1}^N\sum_{j=0}^{M}(x_n)^iw_j(x_n)^j
再互换一下求和顺序
Ti=j=0Mn=1N(xn)iwjxnj=j=0Mn=1N(xn)i+jwjT_i=\sum_{j=0}^{M}\sum_{n=1}^N(x_n)^iw_jx_n^j=\sum_{j=0}^{M}\sum_{n=1}^N(x_n)^{i+j}w_j
其中就可以看到n=1N(xn)i+j\sum_{n=1}^N(x_n)^{i+j}就是题目中的AijA_{ij}了,从而得证。

1.2

已知
E~(w)=12n=1N{y(xn,w)tn}2+λ2w2\widetilde{E}(\mathbf{w})=\frac{1}{2} \sum_{n=1}^{N}\left\{y\left(x_{n}, \mathbf{w}\right)-t_{n}\right\}^{2}+\frac{\lambda}{2}\|\mathbf{w}\|^{2}
其中w2wTw=w02+w12++wM2\|\mathbf{w}\|^{2} \equiv \mathbf{w}^{\mathrm{T}} \mathbf{w}=w_{0}^{2}+w_{1}^{2}+\ldots+w_{M}^{2},这里提一下正则项里面的w02w_0^2,作者说通常来讲这一项要么不放正则项中,要么使用另一个λ\lambda对其进行大小控制,不过咱们这里为了公式的推导方便就不做特殊处理,且让它在这个正则项中。既然题目中要求这个误差函数E~(w)\widetilde{E}(\mathbf{w})最小化,也就意味着该式对各个参数ww的导数均为00,由此可得:
dE~(w)dwi=12n=1N{2[j=0Mwj(xn)jtn](xn)i}+λwi=0\frac{\mathrm{d}\widetilde{E}(\mathbf{w})}{\mathrm{d}w_i}=\frac{1}{2}\sum_{n=1}^{N}\{2[\sum_{j=0}^{M}w_j(x_n)^j-t_n](x_n)^i\}+\lambda w_i=0
所以
n=1N{j=0M[(xn)i+jwj](xn)itn]}+λwi=n=1Nj=0M{(xn)i+jwj}n=1N{(xn)itn+λwiN}=0\sum_{n=1}^{N}\{\sum_{j=0}^{M}[(x_n)^{i+j}w_j]-(x_n)^it_n]\}+\lambda w_i=\sum_{n=1}^{N}\sum_{j=0}^{M}\{(x_n)^{i+j}w_j\}-\sum_{n=1}^{N}\{(x_n)^{i}t_n+\frac{\lambda w_i}{N}\}=0
所以可以看到,题目1.1中的式子基本都可以保持不变,只需将TiT_i修改为Ti=n=1N{(xn)itn+λwiN}T_i=\sum_{n=1}^{N}\{(x_n)^{i}t_n+\frac{\lambda w_i}{N}\}

Tips:上面求导的过程使用了复合函数的求导。

1.3

已知p(B=r)=0.2p(B=r)=0.2p(B=b)=0.2p(B=b)=0.2p(B=g)=0.6p(B=g)=0.6,同时,p(F=aB=r)=0.3p(F=a|B=r)=0.3p(F=oB=r)=0.4p(F=o|B=r)=0.4p(F=lB=r)=0.3p(F=l|B=r)=0.3p(F=aB=b)=0.5p(F=a|B=b)=0.5p(F=oB=b)=0.5p(F=o|B=b)=0.5p(F=lB=b)=0p(F=l|B=b)=0p(F=aB=g)=0.3p(F=a|B=g)=0.3p(F=oB=g)=0.3p(F=o|B=g)=0.3p(F=lB=g)=0.4p(F=l|B=g)=0.4。第一小问说,抽一次抽出苹果的概率是多少,可通过sum rule和product rule求出,即:
p(a)=p(a,r)+p(a,b)+p(a,g)=p(ar)p(r)+p(ab)p(b)+p(ag)p(g)=0.34p(a)=p(a,r)+p(a,b)+p(a,g)=p(a|r)p(r)+p(a|b)p(b)+p(a|g)p(g)=0.34
第二小问说,在已知抽出的结果是橘子(orange)的情况下,从绿色(green)盒子中抽出这个橘子的概率是多大。这就是一个很典型的由果推因的贝叶斯公式题,相当于求p(B=gF=o)p(B=g|F=o),根据贝叶斯公式,可得p(go)=p(og)p(g)p(o)p(g|o)=\frac{p(o|g)p(g)}{p(o)},其中分母可以按照第一小问的方式求出,分子中各项均为已知条件,求得p(B=gF=o)=0.5p(B=g|F=o)=0.5

1.4

已知x=g(y)x=g(y)py(y)=px(x)dxdy=px(x)g(y)p_y(y)=p_x(x)|\frac{\mathrm{d}x}{\mathrm{d}y}|=p_x(x)|g^{\prime}(y)|,对于两个概率分布而言,能够取到最大值的位置满足导数为00,因此py(y)y=px(x)g(y)y=0\frac{\partial p_y(y)}{\partial y}=\frac{\partial p_x(x)|g^{\prime}(y)|}{\partial y}=0,题目中假设x=g(y)x=g(y)为线性函数,因此我们假设x=g(y)=ay+bx=g(y)=ay+b,所以可以得到py(y)y=px(x)axxy=px(x)xa2=0\frac{\partial p_y(y)}{\partial y}=\frac{\partial p_x(x)|a|}{\partial x}\frac{\partial x}{\partial y}=\frac{\partial p_x(x)}{\partial x}|a|^2=0,由于a2>0|a|^2 > 0,(aa的绝对值不应该为00,否则并不能称其为变换了),所以使得px(x)x=0\frac{\partial p_x(x)}{\partial x}=0的情况下,py(y)y\frac{\partial p_y(y)}{\partial y}也等于00,也就是说在xx取值使得px(x)p_x(x)最大的位置,这个xx对应的yy也是使得py(y)p_y(y)最大的位置,而x=g(y)=ay+bx=g(y)=ay+b同样满足两变量之间的线性关系。

1.5

式(1.38)为var[f]=E[(f(x)E[f(x)])2]\operatorname{var}[f]=\mathbb{E}\left[(f(x)-\mathbb{E}[f(x)])^{2}\right],因此var[f]=E[(f(x)E[f(x)])2]=E[f(x)22f(x)E[f(x)]+(E[f(x)])2]\operatorname{var}[f]=\mathbb{E}\left[(f(x)-\mathbb{E}[f(x)])^{2}\right]=\mathbb{E}[f(x)^2-2f(x)\mathbb{E}[f(x)]+(\mathbb{E}[f(x)])^2],所以var[f]=E[f(x)2]2(E[f(x)])2+(E[f(x)])2]=E[f(x)2]E[f(x)]2\operatorname{var}[f]=\mathbb{E}[f(x)^2]-2(\mathbb{E}[f(x)])^2+(\mathbb{E}[f(x)])^2]=\mathbb{E}\left[f(x)^{2}\right]-\mathbb{E}[f(x)]^{2}

1.6

根据式(1.41)可知,cov[x,y]=Ex,y[xy]E[x]E[y]\begin{aligned} \operatorname{cov}[x, y] &=\mathbb{E}_{x, y}[x y]-\mathbb{E}[x] \mathbb{E}[y] \end{aligned}。设变量xxyy独立同分布,对应的分布分别为p(x)p(x)p(y)p(y),则Ex,y[xy]=xyp(xy)dxdy=xyp(x)p(y)dxdy=yq(y)xp(x)dxdy\mathbb{E}_{x, y}[x y]=\iint xyp(xy)\mathrm{d}x\mathrm{d}y=\iint xyp(x)p(y)\mathrm{d}x\mathrm{d}y= \int yq(y)\int xp(x)\mathrm{d}x\mathrm{d}y,由于第二个积分与第一个积分项无关(相互独立,两者之间没有函数关系),因此可以拎出来,得Ex,y[xy]=xp(x)dxyq(y)dy=E[x]E[y]\mathbb{E}_{x, y}[x y]=\int xp(x)\mathrm{d}x\int yq(y)\mathrm{d}y=\mathbb{E}[x]\mathbb{E}[y],所以在两变量互相独立的情况下,cov[x,y]=Ex,y[xy]E[x]E[y]=0\begin{aligned} \operatorname{cov}[x, y] &=\mathbb{E}_{x, y}[x y]-\mathbb{E}[x] \mathbb{E}[y] \end{aligned}=0

1.7

x=rcosθx=r \cos \thetay=rsinθy=r\sin \theta,满足x2+y2=r2x^2+y^2=r^2r0r\ge 0,则原来的积分式可以写成I2=exp(12σ2x212σ2y2)dxdy=o2π0exp(12σ2r2)rdrdθI^{2}=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \exp \left(-\frac{1}{2 \sigma^{2}} x^{2}-\frac{1}{2 \sigma^{2}} y^{2}\right) \mathrm{d} x \mathrm{d} y=\int_o^{2 \pi}\int_0^{\infty}\exp(-\frac{1}{2\sigma^2}r^2)r\mathrm{d}r\mathrm{d}\theta,使用u=r2u=r^2代换,

所以I2=12o2π0exp(12σ2u)dudθ=1202π(2σ2)exp(12σ2u)0dθ=2πσ2I^{2}=\frac{1}{2}\int_o^{2 \pi}\int_0^{\infty}\exp(-\frac{1}{2\sigma^2}u)\mathrm{d}u\mathrm{d}\theta=\frac{1}{2}\int_{0}^{2\pi}(-2\sigma^2)\exp(-\frac{1}{2\sigma^2}u)|_0^{\infty}\mathrm{d}\theta=2\pi\sigma^2,所以I=(2πσ2)1/2I=\left(2 \pi \sigma^{2}\right)^{1 / 2}

1.8

式(1.46)为N(xμ,σ2)=1(2πσ2)1/2exp{12σ2(xμ)2}=p(xμ)\mathcal{N}\left(x | \mu, \sigma^{2}\right)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\}=p(x-\mu),即要证明+x1(2πσ2)1/2exp{12σ2(xμ)2}dx=xp(xμ)dx=μ\int_{-\infty}^{+\infty}x\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\}\mathrm{d}x=\int_{-\infty}^{\infty}xp(x-\mu)\mathrm{d}x=\mu。先抛开该式不谈,我们需要换元,且必须手头拿到一个已知的东西,那么我们首先有+(xμ)1(2πσ2)1/2exp{12σ2(xμ)2}d(xμ)=0\int_{-\infty}^{+\infty}(x-\mu)\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\}\mathrm{d}(x-\mu)=0,这个比较简单,根据奇函数积分为00可得,然后我们把这个式子在(xμ)(x-\mu)这里展开,可以看到即xp(xμ)d(xμ)μp(xμ)d(xμ)=xp(xμ)dxμ=0\int_{-\infty}^{\infty}xp(x-\mu)\mathrm{d}(x-\mu)-\mu\int_{-\infty}^{\infty}p(x-\mu)\mathrm{d}(x-\mu)=\int_{-\infty}^{\infty}xp(x-\mu)\mathrm{d}x-\mu=0,所以xp(xμ)dx=μ\int_{-\infty}^{\infty}xp(x-\mu)\mathrm{d}x=\mu,亦即E[x]=N(xμ,σ2)xdx=μ\mathbb{E}[x]=\int_{-\infty}^{\infty} \mathcal{N}\left(x | \mu, \sigma^{2}\right) x \mathrm{d} x=\mu

第二小问要求验证式(1.50)的正确性。在题目1.7中我们得到exp(12σ2(xμ)2)dx=(2πσ2)1/2\int_{-\infty}^{\infty} \exp \left(-\frac{1}{2 \sigma^{2}} (x-\mu)^{2}\right) \mathrm{d} x = \left(2 \pi \sigma^{2}\right)^{1 / 2},在等式两边对σ2\sigma^2求导可得exp{(xμ)22σ2}2(xμ)2(2σ2)2dx=π(2πσ)1/2\int_{-\infty}^{\infty}\exp\{-\frac{(x-\mu)^2}{2\sigma^2}\}\frac{2(x-\mu)^2}{(2\sigma^2)^2}\mathrm{d}x=\frac{\pi}{(2\pi \sigma)^{1/2}},将式子整理后为:1(2πσ2)1/2exp{(xμ)22σ2}(xμ)2dx=σ2=E[(xμ)2]\int_{-\infty}^{\infty}\frac{1}{(2\pi\sigma^2)^{1/2}}\exp\{-\frac{(x-\mu)^2}{2\sigma^2}\}(x-\mu)^2\mathrm{d}x= \sigma^{2}=\mathbb{E}[(x-\mu)^2],又因为E[(xμ)2]=E[x22μx+μ2]=E[x2]2μE[x]+μ2\mathbb{E}[(x-\mu)^2]=\mathbb{E}[x^2-2\mu x+\mu^2]=\mathbb{E}[x^2]-2\mu\mathbb{E}[x]+\mu^2,而我们在上一小问已经知道E[x]=μ\mathbb{E}[x]=\mu,所以全部带进去可得,σ2=E[x2]μ2\sigma^2=\mathbb{E}[x^2]-\mu^2,所以E[x2]=σ2+μ2\mathbb{E}[x^2]=\sigma^2+\mu^2,从而证得式(1.50)。这样一来,式(1.51)也就顺理成章地成立了。

1.9

单元高斯分布的极大值可以通过对其概率分布函数求导得到极值对应的坐标x=μx=\mu,不做赘述。

多元高斯分布函数为N(xμ,Σ)=1(2π)D/21Σ1/2exp{12(xμ)TΣ1(xμ)}\mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma})=\frac{1}{(2 \pi)^{D / 2}} \frac{1}{|\mathbf{\Sigma}|^{1 / 2}} \exp \left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\},同样进行求导,这里要用到矩阵的求导法则,得N(xμ,Σ)x=12N(xμ,Σ)x{(xμ)TΣ1(xμ)}=12N(xμ,Σ)xμ{(xμ)TΣ1(xμ)}\frac{\partial\mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma})}{\partial \mathbf{x}}=-\frac{1}{2}\mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma})\nabla_{\mathbf{x}}\left\{(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\}=-\frac{1}{2}\mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma})\nabla_{\mathbf{x}-\boldsymbol{\mu}}\left\{(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\},利用PRML(C.19)和(C.20)公式,令A=(xμ)TΣ1\mathbf{A}=(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}B=xμ\mathbf{B}=\mathbf{x}-\boldsymbol{\mu},则很容易得到N(xμ,Σ)x=N(xμ,Σ)Σ1(xμ)\frac{\partial\mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma})}{\partial \mathbf{x}}=-\mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}),在推导过程中需要注意的是Σ1(xμ)=(xμ)TΣ1{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})=(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}}{\Sigma}^{-1},这是由于xμ\mathbf{x}-\boldsymbol{\mu}是向量所导致的。那么根据求得的导数,同样在x=μ\mathbf{x}=\boldsymbol{\mu}时取得极值。

1.10

E[x+z]=(x+z)p(x,z)dxdz=(x+z)p(x)p(z)dxdz=xp(x)p(z)dxdz+zp(z)p(x)dxdz\mathbb{E}[x+z]=\iint (x+z)p(x,z)\mathrm{d}x\mathrm{d}z=\iint (x+z)p(x)p(z)\mathrm{d}x\mathrm{d}z=\iint xp(x)p(z)\mathrm{d}x\mathrm{d}z+\iint zp(z)p(x)\mathrm{d}x\mathrm{d}z

对于右侧的式子,由于xxzz相互独立,p(z)p(z)的积分为1,因此第一项即为xp(x)dx=E[x]\int xp(x)\mathrm{d}x=\mathbb{E}[x],同理第二项为E[z]\mathbb{E}[z],所以E[x+z]=E[x]+E[z]\mathbb{E}[x+z]=\mathbb{E}[x]+\mathbb{E}[z]

var[x+z]=E[(x+z)2](E[x+z])2\operatorname{var}[x+z]=\mathbb{E}[(x+z)^2]-(\mathbb{E}[x+z])^2,代入第一小问的结果,得到所求方差为E[x2+z2+2xz](E[x]+E[x])2=E[x2]+E[z2]+2E[xz](E[x])2(E[z])22E[x]E[z]\mathbb{E}[x^2+z^2+2xz]-(\mathbb{E}[x]+\mathbb{E}[x])^2=\mathbb{E}[x^2]+\mathbb{E}[z^2]+2\mathbb{E}[xz]-(\mathbb{E}[x])^2-(\mathbb{E}[z])^2-2\mathbb{E}[x]\mathbb{E}[z]

又根据题目1.6的结论,化简得到var[x+z]=E[x2]+E[z2](E[x])2(E[z])2=var[x]+var[z]\operatorname{var}[x+z]=\mathbb{E}[x^2]+\mathbb{E}[z^2]-(\mathbb{E}[x])^2-(\mathbb{E}[z])^2=\operatorname{var}[x]+\operatorname{var}[z]

1.11

y=lnp(xμ,σ2)=12σ2n=1N(xnμ)2N2lnσ2N2ln(2π)y=\ln p\left(\mathbf{x} | \mu, \sigma^{2}\right)=-\frac{1}{2 \sigma^{2}} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}-\frac{N}{2} \ln \sigma^{2}-\frac{N}{2} \ln (2 \pi),可以得到yμ=1σ2n=1N(μxn)=0\frac{\partial y}{\partial \mu}=-\frac{1}{\sigma^2}\sum_{n=1}^{N}(\mu-x_n)=0,所以n=1N(μxn)=0\sum_{n=1}^{N}(\mu-x_n)=0,所以n=1Nμn=1Nxn=Nμn=1Nxn=0\sum_{n=1}^{N}\mu-\sum_{n=1}^{N}x_n=N\mu-\sum_{n=1}^{N}x_n=0,所以μML=1Nn=1Nxn\mu_{\mathrm{ML}}=\frac{1}{N} \sum_{n=1}^{N} x_{n}

yσ2=2(2σ2)2n=1N(xnμML)2N2σ2=0\frac{\partial y}{\partial \sigma^2}=-\frac{2}{(2\sigma^2)^2}\sum_{n=1}^{N}(x_n-\mu_{\mathrm{ML}})^2-\frac{N}{2\sigma^2}=0,很容易得到σML2=1Nn=1N(xnμML)2\sigma_{\mathrm{ML}}^{2}=\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\mu_{\mathrm{ML}}\right)^{2}

1.12

这题其实第一小问挺迷的,主要问题在于为什么作者要使用不同的下标来表示是否独立,或者说,如果作者你想表达这个意思,那你就应该明说啊我透。这样子一来就比较简单明了了,若n=mn=m,则E[xn2]\mathbb{E}[x_n^2]根据式(1.50)很容易得到E[xn2]=μ2+σ2\mathbb{E}[x_n^2]=\mu^2+\sigma^2,下标为mm时相同。若nmn\ne m,那么按照作者的意思,就是说这俩变量相互独立,所以E[xnxm]=E[xn]E[xm]=μ2\mathbb{E}[x_nx_m]=\mathbb{E}[x_n]\mathbb{E}[x_m]=\mu^2

其实作者是想用第一小问作为引子来帮助我们证明式(1.57)和式(1.58),那么实际上我是觉得没必要这么麻烦,我们直接证明这两个式子即可,无需绕他给的这条弯路。

对于第一个式子,求取最大似然分布的均值的期望,我们这里假设总共取了KK次数据,每一次都取NN个数据来进行极大似然估计,xknx_{kn}表示第kk次取的第nn个数据,那么E[μML]=1Kk=1K[1Nn=1Nxkn]=1KNk=1Kn=1Nxkn\mathbb{E}[\mu_{\mathrm{ML}}]=\frac{1}{K}\sum_{k=1}^K[\frac{1}{N}\sum_{n=1}^Nx_{kn}]=\frac{1}{KN}\sum_{k=1}^{K}\sum_{n=1}^Nx_{kn},到这里,我们先停一下,假设我们每次取的数据有限,也就是NN有限,但是我们一直取一直取,也就是说KK无限,那么这里就可以看做我对整个分布上所有的xx都取到了,从而推得xknx_{kn}的均值就是正态分布N(xμ,σ2)\mathcal{N}\left(x | \mu, \sigma^{2}\right)的均值μ\mu,所以E[μML]=μ\mathbb{E}[\mu_{\mathrm{ML}}]=\mu,这就证明了式(1.57)。

对于式(1.58),首先依旧采取我们之前的取数据规定,同时将方差的计算公式展开,μkML\mu_{k\mathrm{ML}}为第kk次取得的数据的均值,则E[σML2]=1Kk=1K[1Nn=1N(xknμkML)2]=1Kk=1K[1Nn=1N(xkn22xknμkML+μkML2)]\mathbb{E}[\sigma_{\mathrm{ML}}^2]=\frac{1}{K}\sum_{k=1}^K[\frac{1}{N}\sum_{n=1}^N(x_{kn}-\mu_{k\mathrm{ML}})^2]=\frac{1}{K}\sum_{k=1}^K[\frac{1}{N}\sum_{n=1}^N(x_{kn}^2-2x_{kn}\mu_{k\mathrm{ML}}+ \mu_{k\mathrm{ML}}^2)],这就可以拆分为三项,其中第一项与xkn2x_{kn}^2相关,沿用上面的思路,相当于取遍了所有的xknx_{kn},所以1Kk=1K[1Nn=1Nxkn2]=E[x2]=μ2+σ2\frac{1}{K}\sum_{k=1}^K[\frac{1}{N}\sum_{n=1}^Nx_{kn}^2]=\mathbb{E}[x^2]=\mu^2+\sigma^2,后面两项可以写成1Kk=1K[2μkML1Nn=1Nxkn]+1Kk=1K[1Nn=1N(μkML2)]\frac{1}{K}\sum_{k=1}^K[-2\mu_{k\mathrm{ML}}\frac{1}{N}\sum_{n=1}^Nx_{kn}]+\frac{1}{K}\sum_{k=1}^K[\frac{1}{N}\sum_{n=1}^N( \mu_{k\mathrm{ML}}^2)],也就是1Kk=1K[2μkML2]+1Kk=1K[μkML2]=1Kk=1K[μkML2]\frac{1}{K}\sum_{k=1}^K[-2\mu_{k\mathrm{ML}}^2]+\frac{1}{K}\sum_{k=1}^K[\mu_{k\mathrm{ML}}^2]=-\frac{1}{K}\sum_{k=1}^K[\mu_{k\mathrm{ML}}^2],这就比较明白了,后面两项就是E[μML2]-\mathbb{E}[\mu_{\mathrm{ML}}^2],因此E[σML2]=μ2+σ2E[μML2]\mathbb{E}[\sigma_{\mathrm{ML}}^2]=\mu^2+\sigma^2-\mathbb{E}[\mu_{\mathrm{ML}}^2],所以我们就要求这个E[μML2]\mathbb{E}[\mu_{\mathrm{ML}}^2],这个表达式的含义就是每一次取得的数据的均值的平方的平均值(期望),那么就有E[μML2]=σμML2+(E[μML])2\mathbb{E}[\mu_{\mathrm{ML}}^2]=\sigma_{\mu_{\mathrm{ML}}}^2+(\mathbb{E}[\mu_{\mathrm{ML}}])^2,根据公式(1.57),我们进一步得到E[μML2]=σμML2+μ2\mathbb{E}[\mu_{\mathrm{ML}}^2]=\sigma_{\mu_{\mathrm{ML}}}^2+\mu^2,所以E[σML2]=μ2+σ2E[μML2]=σ2σμML2\mathbb{E}[\sigma_{\mathrm{ML}}^2]=\mu^2+\sigma^2-\mathbb{E}[\mu_{\mathrm{ML}}^2]=\sigma^2-\sigma_{\mu_{\mathrm{ML}}}^2,所以任务又进一步变为求这个σμML2=var[μML]\sigma_{\mu_{\mathrm{ML}}}^2=\operatorname{var}[\mu_{\mathrm{ML}}],而var[μML]=var[1Nn=1Nxn]=1N2n=1Nvar[xn]=1N2n=1Nσ2=σ2N\operatorname{var}[\mu_{\mathrm{ML}}]=\operatorname{var}[\frac{1}{N}\sum_{n=1}^N x_n]=\frac{1}{N^2}\sum_{n=1}^N \operatorname{var}[x_n]=\frac{1}{N^2}\sum_{n=1}^N \sigma^2=\frac{\sigma^2}{N}

所以就有E[σML2]=μ2+σ2E[μML2]=σ2σ2N=N1Nσ2\mathbb{E}[\sigma_{\mathrm{ML}}^2]=\mu^2+\sigma^2-\mathbb{E}[\mu_{\mathrm{ML}}^2]=\sigma^2-\frac{\sigma^2}{N}=\frac{N-1}{N}\sigma^2

PS:我用MATLAB做了一下实验,与理论完全相符,式(1.57)和式(1.58)实际上也可以从直观上进行理解,这里就不详细说了。

1.13

根据题目(1.12)的推导,这题就很简单了,将E[μML2]\mathbb{E}[\mu_{\mathrm{ML}}^2]代换为E[μ2]=μ2\mathbb{E}[\mu^2]=\mu^2即可,那很显然E[σML2]=μ2+σ2μ2=σ2\mathbb{E}[\sigma_{\mathrm{ML}}^2]=\mu^2+\sigma^2-\mu^2=\sigma^2。此时,方差的期望也就是无偏的了。

1.14

如果可以写成题目要求的形式(设原矩阵为W\mathrm{W},要写成W=S+A\mathrm{W}=\mathrm{S}+\mathrm{A}),那首先可以很容易推断出A\mathrm{A}的对角线上的元素都是00,所以S\mathrm{S}对角线上的元素就是W\mathrm{W}对角线上的元素。接着就是要证明S\mathrm{S}A\mathrm{A}的其余元素也是可解出来的,因为wij=wijS+wijAw_{ij}=w_{ij}^{\mathrm{S}}+w_{ij}^{\mathrm{A}},同时wji=wjiS+wjiA=wijSwijAw_{ji}=w_{ji}^{\mathrm{S}}+w_{ji}^{\mathrm{A}}=w_{ij}^{\mathrm{S}}-w_{ij}^{\mathrm{A}},这就可以得到构成一个二元一次方程组,由于参数对应的矩阵的秩为22,因此方程组必然有解,所以可以写成题目要求的形式。

i=1Dj=1Dxiwijxj=xTWx=xT(S+A)x=xTSx+xTAx\sum_{i=1}^{D}\sum_{j=1}^{D}x_i w_{ij}x_j=\mathrm{x^T W x}=\mathrm{x^T (S+A) x}=\mathrm{x^T S x +x^T A x},现在重点关注一下xTAx\mathrm{x^T A x}这一项,因为xTAx=i=1Dj=1DxiwijAxj\mathrm{x^T A x}=\sum_{i=1}^{D}\sum_{j=1}^{D}x_i w_{ij}^{\mathrm{A}}x_j,那么A\mathrm{A}的对角线元素皆为00,同时对称元素互为相反数,(注意,A\mathrm{A}和另外两个矩阵都是方阵,这是前提条件),相当于xiwijAxj+xjwjiAxi=0x_i w_{ij}^{\mathrm{A}}x_j+x_j w_{ji}^{\mathrm{A}}x_i=0,所以xTAx=0\mathrm{x^T A x}=0,所以i=1Dj=1Dxiwijxj=xTWx=xTSx+xTAx=xTSx=i=1Dj=1DxiwijSxj\sum_{i=1}^{D}\sum_{j=1}^{D}x_i w_{ij}x_j=\mathrm{x^T W x}=\mathrm{x^T S x +x^T A x}=\mathrm{x^T S x}=\sum_{i=1}^{D}\sum_{j=1}^{D}x_i w_{ij}^{\mathrm{S}}x_j

最后一小问就相当于问我们矩阵S\mathrm{S}的对角线以及上(或下)三角部分一共有几个元素,使用数列求和的方式,我们得到1+2+3++D=D(D+1)/21+2+3+\dots+D=D(D+1)/2,因此独立的元素数量就是这么多。

1.15

根据题目1.14可知,由所有wi1i2iMw_{i_{1}i_{2}\dots i _{M}}构成的高维张量也是一个高维对称张量,其中的独立元素使用w~i1i2iM\tilde{w}_{i_{1}i_{2}\dots i _{M}}表示,此时要证明的式子就比较好理解了,由于张量的对称性质,其余元素都是非独立的,因此均可不做考虑,在根据i1i_{1}iMi_{M}确定了张量的维度顺序后,假设i1=1i_1 = 1,那么由于剩下的维度中非独立元素所处的维度小于等于第一维的维度,因此i2i_2的上限是i1i_1,同理,剩下的和式也是可以推出来的。由此我们可以得到形式为i1=1Di2=1i1iM=1iM1w~i1i2iMxi1xi2xiM\sum_{i_{1}=1}^{D} \sum_{i_{2}=1}^{i_{1}} \cdots \sum_{i_{M}=1}^{i_{M-1}} \widetilde{w}_{i_{1} i_{2} \cdots i_{M}} x_{i_{1}} x_{i_{2}} \cdots x_{i_{M}}

Tips:实际上我还是没有想明白对称的高维张量是长啥样的。

接着要证明n(D,M)=i=1Dn(i,M1)n(D, M)=\sum_{i=1}^{D} n(i, M-1),这个也很简单,就将上面第一问的结果拿来用,最外围的求和就是在i1i_111取到DD的过程中后方所有项的求和,而i2i_2iMi_M一共有M1M-1项,所以得证。这个递推式还是比较直观的。

第三小问归纳法也很直接,D=1D=1的情况下,i=1D(i+M2)!(i1)!(M1)!=(M1)!(M1)!=1=(D+M1)!(D1)!M!=(1+M1)!(11)!M!=M!M!\sum_{i=1}^{D} \frac{(i+M-2) !}{(i-1) !(M-1) !}=\frac{(M-1)!}{(M-1)!}=1=\frac{(D+M-1) !}{(D-1) ! M !}=\frac{(1+M-1) !}{(1-1) ! M !}=\frac{M!}{M!},此时等式成立,假设取数字DD时,等式成立,则i=1D(i+M2)!(i1)!(M1)!=(D+M1)!(D1)!M!\sum_{i=1}^{D} \frac{(i+M-2) !}{(i-1) !(M-1) !}=\frac{(D+M-1) !}{(D-1) ! M !},则取数字D+1D+1时,i=1D+1(i+M2)!(i1)!(M1)!=i=1D[(i+M2)!(i1)!(M1)!]+(D+M1)!D!(M1)!=(D+M1)!(D1)!M!+(D+M1)!D!(M1)!=(D+M)(D+M1)!D!M!\sum_{i=1}^{D+1} \frac{(i+M-2) !}{(i-1) !(M-1) !}=\sum_{i=1}^{D} [\frac{(i+M-2) !}{(i-1) !(M-1) !}]+\frac{(D+M-1) !}{D ! (M-1) !}=\frac{(D+M-1) !}{(D-1) ! M !}+\frac{(D+M-1) !}{D ! (M-1) !}=\frac{(D+M)(D+M-1)!}{D!M!},所以i=1D+1(i+M2)!(i1)!(M1)!=(D+M)!D!M!=(D+1+M1)!(D+11)!M!\sum_{i=1}^{D+1} \frac{(i+M-2) !}{(i-1) !(M-1) !}=\frac{(D+M)!}{D!M!}=\frac{(D+1+M-1)!}{(D+1-1)!M!},说明该式在D+1D+1时仍旧成立,从而归纳得证。

对于任意D1D \ge 1,取M=2M=2,则有n(D,M)=(D+M1)!(D1)!M!=(D+1)!(D1)!2!=D(D+1)2n(D, M)=\frac{(D+M-1) !}{(D-1) ! M !}=\frac{(D+1) !}{(D-1) !2 !}=\frac{D(D+1)}{2},正如我们在题目1.14中得到结果一样。现在假设M1M-1时,该式成立,即n(D,M1)=(D+M2)!(D1)!(M1)!n(D, M-1)=\frac{(D+M-2) !}{(D-1) ! (M-1) !},而n(D,M)=i=1Dn(i,M1)=i=1D(i+M2)!(i1)!(M1)!n(D, M)=\sum_{i=1}^{D} n(i, M-1)=\sum_{i=1}^{D} \frac{(i+M-2) !}{(i-1) ! (M-1) !},又因为i=1D(i+M2)!(i1)!(M1)!=(D+M1)!(D1)!M!\sum_{i=1}^{D} \frac{(i+M-2) !}{(i-1) !(M-1) !}=\frac{(D+M-1) !}{(D-1) ! M !},所以n(D,M)=(D+M1)!(D1)!M!n(D, M)=\frac{(D+M-1) !}{(D-1) ! M !},所以在MM时,该式依旧成立,从而归纳得证。

1.16

第一小问很直观,根据式(1.74)可知,n(D,M)n(D,M)仅表征了第MM阶参数的独立元素个数,现在的N(D,M)N(D,M)相当于求取所有阶(00阶到MM阶)的独立参数数量,因此N(D,M)=m=0Mn(D,m)N(D, M)=\sum_{m=0}^{M} n(D, m)

第二小问,当M=0M=0时,N(D,M)=(D+M)!D!M!=1N(D, M)=\frac{(D+M) !}{D ! M !}=1,这与实际相符,当仅含有00阶时,由于xx无关,所以实际上就一个常数项,因此参数的数量就是11。现在假设MM时成立,即N(D,M)=(D+M)!D!M!N(D, M)=\frac{(D+M) !}{D ! M !},则取M+1M+1时,N(D,M+1)=(D+M)!D!M!+n(D,M+1)=(D+M)!D!M!+(D+M)!(D1)!(M+1)!=(M+1)(D+M)!+D(D+M)!D!(M+1)!=(D+M+1)!D!(M+1)!N(D, M+1)=\frac{(D+M) !}{D ! M !}+n(D,M+1)=\frac{(D+M) !}{D ! M !}+\frac{(D+M) !}{(D-1) ! (M+1) !}=\frac{(M+1)(D+M)!+D(D+M)!}{D!(M+1)!}=\frac{(D+M+1)!}{D!(M+1)!},这里使用了式(1.137)的结论,从而归纳得证。

第三小问使用了斯特林公式n!nnenn ! \simeq n^{n} e^{-n},若DMD \gg M,则N(D,M)=(D+M)!D!M!(D+M)!D!(D+M)D+Me(D+M)DDeD(D+M)D+MDDDD+MDD=DMN(D, M)=\frac{(D+M) !}{D ! M !} \simeq \frac{(D+M)!}{D!} \simeq \frac{(D+M)^{D+M}e^{-(D+M)}}{D^De^{-D}} \simeq \frac{(D+M)^{D+M}}{D^D} \simeq \frac{D^{D+M}}{D^D}=D^M,同理,若MDM \gg D,则有N(D,M)=(D+M)!D!M!(D+M)!M!(D+M)D+Me(D+M)MMeM(D+M)D+MMMMD+MMM=MDN(D, M)=\frac{(D+M) !}{D ! M !} \simeq \frac{(D+M)!}{M!} \simeq \frac{(D+M)^{D+M}e^{-(D+M)}}{M^Me^{-M}} \simeq \frac{(D+M)^{D+M}}{M^M} \simeq \frac{M^{D+M}}{M^M}=M^D,从而得证。

N(10,3)=(10+3)!10!3!=286N(10, 3)=\frac{(10+3) !}{10 ! 3 !}=286N(100,3)=(100+3)!100!3!=176851N(100, 3)=\frac{(100+3) !}{100 ! 3 !}=176851

1.17

已知Γ(x)0ux1eudu\Gamma(x) \equiv \int_{0}^{\infty} u^{x-1} e^{-u} \mathrm{d} u,根据分部积分法,可以得到Γ(x)=0ux1deu=ux1eu0+0eudux1=0eudux1\Gamma(x)=\int_{0}^{\infty}-u^{x-1}\mathrm{d}e^{-u}=-u^{x-1}e^{-u}|_0^{\infty}+\int_{0}^{\infty}e^{-u}\mathrm{d}u^{x-1}=\int_{0}^{\infty}e^{-u}\mathrm{d}u^{x-1},前半部分的积分为00不做赘述,简单说明一下就是xx是有限项,而uu取无限大项时,无限大的有限次方除以ee的无限大次方时趋近于00,你也可以用MATLAB测试一下。而Γ(x+1)=0eudux=0xeudux1=xΓ(x)\Gamma(x+1)=\int_{0}^{\infty}e^{-u}\mathrm{d}u^{x}=\int_{0}^{\infty}xe^{-u}\mathrm{d}u^{x-1}=x\Gamma(x),得证。

Γ(1)=0eudu=eu0=1\Gamma(1)=\int_{0}^{\infty}e^{-u}\mathrm{d}u=-e^{-u}|_0^{\infty}=1,得证。

xx为整数,那么Γ(x+1)=0eudux\Gamma(x+1) = \int_{0}^{\infty}e^{-u}\mathrm{d}u^{x},式子中,微分项uxu^{x}的次幂就可以一直取下来,得到Γ(x+1)=0eudux=x!0eudu=x!\Gamma(x+1) = \int_{0}^{\infty}e^{-u}\mathrm{d}u^{x}=x!\int_{0}^{\infty}e^{-u}\mathrm{d}u=x!

1.18

有一个疑问,式(1.142)中,为何就称那一项为SDS_D的呢?凭什么那一项所代表的的含义就是DD维空间中单位球体的表面积呢?我自己想了一下,但是也只是一个头绪,我们看一下题目1.7中的计算过程,其中有一步是算到了I2=o2π0exp(12σ2r2)rdrdθI^{2}=\int_o^{2 \pi}\int_0^{\infty}\exp(-\frac{1}{2\sigma^2}r^2)r\mathrm{d}r\mathrm{d}\theta,为了和本题结合,我们取σ2=1/2\sigma^2=1/2,则有I2=o2π0exp(r2)rdrdθI^{2}=\int_o^{2 \pi}\int_0^{\infty}\exp(-r^2)r\mathrm{d}r\mathrm{d}\theta,将这个公式对照题目1.18里面的式(1.142),就可以看到,SDS_D就是我们算出来的这个双重积分项o2π0exp(r2)rdrdθ\int_o^{2 \pi}\int_0^{\infty}\exp(-r^2)r\mathrm{d}r\mathrm{d}\theta除以这个积分项内层的积分,简单来说,通过这么一个除法,原本对于整个平面的积分(rr00取到\infty),变成了单位长度,同时又消除了exp(r2)\exp (-r^2)这一项的积分影响,相当于算了一个在极小角度下的单位半径的扇形的面积,那么再对这个扇形进行角度上的积分,转一圈就得到了单位圆的面积。所以式(1.142)就是这个过程在更高维空间的一个推广。这是我的理解。

首先,根据式(1.126),可以推知,i=1Dexi2dxi=πD/2\prod_{i=1}^{D} \int_{-\infty}^{\infty} e^{-x_{i}^{2}} \mathrm{d} x_{i}=\pi^{D/2},简单说一下就是,根据式(1.126),我们知道在D=2D=2的时候,i=12exi2dxi=π\prod_{i=1}^{2} \int_{-\infty}^{\infty} e^{-x_{i}^{2}} \mathrm{d} x_{i}=\pi,所以就比较明显了。这样子我们就有了左式的值,对于右式,可以转化为SD0er2rD1dr=SD120er2(r2)D/21dr2S_{D} \int_{0}^{\infty} e^{-r^{2}} r^{D-1} \mathrm{d} r=S_D\frac{1}{2}\int_0^{\infty}e^{-r^2}(r^2)^{D/2-1}\mathrm{d}r^2,根据题目1.17,也就可以看出,SD0er2rD1dr=SD12Γ(D/2)S_{D} \int_{0}^{\infty} e^{-r^{2}} r^{D-1} \mathrm{d} r=S_D\frac{1}{2}\Gamma(D/2),所以πD/2=SD12Γ(D/2)\pi^{D/2}=S_D\frac{1}{2}\Gamma(D/2),所以SD=2πD/2Γ(D/2)S_{D}=\frac{2 \pi^{D / 2}}{\Gamma(D / 2)}

同样用简单一点的情况来帮助我们理解复杂的高维情况,比如说我们现在知道一个单位圆的周长,如何得到单位圆的面积呢,已知单位圆周长为2π2\pi,面积就相当于这个单位圆向内放缩后直至变成零点的所有圆的周长积分,同时,还需要了解一个基本事实,那就是在一个DD维空间中,其体积的大小正比于rDr^D,而表面积则正比于rD1r^{D-1}。现在我们举的例子是在22维空间下,因此二维单位圆面积就等于012πr21dr=π\int_0^1 2\pi r^{2-1}\mathrm{d}r=\pi,这也符合我们已知的先验事实。因此,VD=01SDrD1dr=SD1DrD01=SDDV_D=\int_0^1S_D r^{D-1}\mathrm{d}r=S_D \frac{1}{D}r^D|_0^1=\frac{S_D}{D}

D=2D=2时,SD=2πS_D=2\piVD=πV_D=\piD=3D=3时,SD=4πS_D=4\piVD=43πV_D=\frac{4}{3}\pi

多说一点,PRML书中说在高维空间中,球体体积就几乎完全贴近表面分布,其实在22维单位圆中这种现象就已经初现端倪了,在刚刚给出的求出单位圆面积的积分过程中,很明显越靠近圆心的单位圆,其周长越小,对整个圆的表面积贡献越小,而半径越接近11的圆其周长越大,对整个圆的表面积贡献就越大,这种效应在高维空间中会表现得更加显著,因为往高维变化的过程中,周长正比于半径的D1D-1次方,次幂会加剧这种拉扯。感性理解一下就好。

1.19

半径为aaDD维超球,体积就是0aSDrD1dr=SDaD/D\int_0^a S_D r^{D-1}\mathrm{d}r=S_D a^D/D,而边长为2a2aDD维超立方体体积很容易求得为2DaD2^Da^D,因此volumeofspherevolumeofcube=SDD2D=2πD/2Γ(D/2)D2D=πD/2D2D1Γ(D/2)\frac{\operatorname{volume of sphere} }{\operatorname{volume of cube} }=\frac{S_D}{D2^D}=\frac{\frac{2 \pi^{D / 2}}{\Gamma(D / 2)}}{D2^D}=\frac{\pi^{D / 2}}{D 2^{D-1}\Gamma(D / 2)}。因此在超高维空间中,单位超球的体积对于包络住这个单位超球的超立方体而言是微不足道的。

第二小问这个直接带进去,很容易看到趋近于00,不做赘述。

DD维空间中,边长为2a2a的超立方体的中心到角落的距离为1Da2=Da2=Da\sqrt{\sum_1^D a^2}=\sqrt{Da^2}=\sqrt{D}a,所以其与半径之比就是D\sqrt{D}。如果你要问为什么这么求,其实依然是可以从简单的情况出发的,比如说在三维空间中,你为了求出立方体的中心到角落的距离,就是使用两次勾股定理,相当于进行两次降维,最终到达角落所处的点。如果从线性代数的角度来说的话,就是我们沿着标准基的方向走。还是比较好理解的。

1.20

式(1.148)可以直观得到,在使用rr作为随机变量后,一个随机变量对应的几何形式就是“一周”,例如二维高斯分布中,依题目中均值均为00,且方差相等的设置,同一rr对应的就是以原点为中心的圆形,因此其对应的概率函数就是“周长”乘以对应的概率值,即p(r)=SDrD1(2πσ2)D/2exp(r22σ2)p(r)=\frac{S_D r^{D-1}}{(2\pi \sigma^2)^{D/2}}\exp (-\frac{r^2}{2\sigma^2})

第二小问dp(r)dr=(D1)SDrD2(2πσ2)D/2exp(r22σ2)+SDrDσ2(2πσ2)D/2exp(r22σ2)=0\frac{\mathrm{d}p(r)}{\mathrm{d}r}=\frac{(D-1)S_D r^{D-2}}{(2\pi \sigma^2)^{D/2}}\exp (-\frac{r^2}{2\sigma^2})+\frac{-S_D r^{D}}{\sigma^2(2\pi \sigma^2)^{D/2}}\exp (-\frac{r^2}{2\sigma^2})=0,等式两边除以一些共有项,则有(rD2)(D1)=rDσ2(r^{D-2})(D-1)=\frac{r^{D}}{\sigma^2},因为DD足够大,因此可以转化为(rD2)DrDσ2(r^{D-2})D \simeq \frac{r^{D}}{\sigma^2},所以r^Dσ\hat{r}\simeq \sqrt{D}\sigma

已知p(r)rD1exp(r22σ2)=exp{r22σ2+(D1)ln(r)}p(r) \propto r^{D-1} \exp (-\frac{r^2}{2\sigma^2})=\exp \{-\frac{r^2}{2 \sigma^2}+(D-1)\ln (r)\},需要注意,式子中省略了SD(2πσ2)D/2\frac{S_D}{(2\pi \sigma^2)^{D/2}}这一项,在驻点附近,使用泰勒级数展开,以求出ln(r^+ϵ)\ln (\hat{r}+\epsilon),所以p(r^+ϵ)exp{(r^+ϵ)22σ2+(D1)ln(r^+ϵ)}p(\hat{r}+\epsilon) \propto\exp \{-\frac{(\hat{r}+\epsilon)^2}{2 \sigma^2}+(D-1)\ln (\hat{r}+\epsilon)\},而ln(r^+ϵ)ln(r^)+1r^ϵ12r^2ϵ2\ln (\hat{r}+\epsilon)\simeq \ln(\hat{r})+\frac{1}{\hat{r}}\epsilon-\frac{1}{2\hat{r}^2}\epsilon^2,放进去就可以得到p(r^+ϵ)exp{(r^+ϵ)22σ2+(D1)(ln(r^)+1r^ϵ12r^2ϵ2)}=r^D1exp((r^+ϵ)22σ2+(D1)(1r^ϵ12r^2ϵ2))p(\hat{r}+\epsilon) \propto\exp \{-\frac{(\hat{r}+\epsilon)^2}{2 \sigma^2}+(D-1)( \ln(\hat{r})+\frac{1}{\hat{r}}\epsilon-\frac{1}{2\hat{r}^2}\epsilon^2)\}=\hat{r}^{D-1}\exp(-\frac{(\hat{r}+\epsilon)^2}{2 \sigma^2}+(D-1)(\frac{1}{\hat{r}}\epsilon-\frac{1}{2\hat{r}^2}\epsilon^2)),在指数项中代入r^Dσ\hat{r}\simeq \sqrt{D}\sigma,同时由于DD很大,因此得到p(r^+ϵ)r^D1exp((r^+ϵ)22σ2+2r^ϵϵ22σ2)p(\hat{r}+\epsilon) \propto\hat{r}^{D-1}\exp(-\frac{(\hat{r}+\epsilon)^2}{2 \sigma^2}+\frac{2\hat{r}\epsilon-\epsilon^2}{2\sigma^2}),也就是p(r^+ϵ)r^D1exp(r^22σ22ϵ22σ2)p(\hat{r}+\epsilon) \propto\hat{r}^{D-1}\exp(-\frac{\hat{r}^2}{2 \sigma^2}-\frac{2\epsilon^2}{2\sigma^2}),所以p(r^+ϵ)=p(r^)exp(ϵ2σ2)p(\hat{r}+\epsilon)=p(\hat{r})\exp(-\frac{\epsilon^2}{\sigma^2})。这里我算出来和题目给的不一样,我检查了好几遍,级数展开那边是没有问题的。留待观察吧。

p(x=0)=1(2πσ2)D/2p(||\mathbf{x}||=\mathbf{0})=\frac{1}{(2\pi \sigma^2)^{D/2}}p(x=r^)=1(2πσ2)D/2exp(D/2)p(||\mathbf{x}||=\hat{r})=\frac{1}{(2\pi \sigma^2)^{D/2}}\exp(-D/2),因此p(x=0)=p(x=r^)exp(D/2)p(||\mathbf{x}||=\mathbf{0})=p(||\mathbf{x}||=\hat{r})\exp(-D/2)

1.21

因为0ab0 \le a \le b,所以a2aba^2 \le ab,所以a(ab)1/2a \le (ab)^{1/2}

[外链图片转存失败(img-2amJrAcX-1565057031898)(.\curve.jpg)]

这里我按照书中的Figure 1.24绘制了上图,按照最小化误差率进行了分割,那么可以看到,两条概率曲线是有重合的部分的,我设其对应的随机变量取值分别为K1K_1K3K_3,而分割处对应的随机变量为K2K_2,由式(1.78)可知,p(mistake)=R1p(x,C2)dx+R2p(x,C1)dxp(\operatorname{mistake})=\int_{\mathcal{R_1}}p(\mathbf{x, \mathcal{C}_2})\mathrm{d}\mathbf{x}+\int_{\mathcal{R_2}}p(\mathbf{x, \mathcal{C}_1})\mathrm{d}\mathbf{x},那么根据上面这种图片(左峰是p(x,C1)p(\mathbf{x}, \mathcal{C}_1)),我们更加精确地表达这个式子,即p(mistake)=K1K2p(x,C2)dx+K2K3p(x,C1)dx=p(\operatorname{mistake})=\int_{K_1}^{K_2}p(\mathbf{x, \mathcal{C}_2})\mathrm{d}\mathbf{x}+\int_{K_2}^{K_3}p(\mathbf{x, \mathcal{C}_1})\mathrm{d}\mathbf{x}=aa,而在随机变量取值K1K_1K3K_3之间的全部面积,其面积大小为b=K1K2p(x,C1)dx+K2K3p(x,C2)dxb=\int_{K_1}^{K_2}p(\mathbf{x, \mathcal{C}_1})\mathrm{d}\mathbf{x}+\int_{K_2}^{K_3}p(\mathbf{x, \mathcal{C}_2})\mathrm{d}\mathbf{x},可以看到0ab0 \le a \le b,因此就有p(mistake)(ab)1/2p(\operatorname{mistake}) \le (ab)^{1/2},积分决定了两项之间是否能够相乘,因此就有(ab)1/2=K1K3{p(x,C1)p(x,C2)}1/2dx(ab)^{1/2}=\int_{K_1}^{K_3}\{p(\mathbf{x, \mathcal{C}_1})p(\mathbf{x, \mathcal{C}_2})\}^{1/2}\mathrm{d}\mathbf{x},从而得证。

1.22

根据式(1.80)可知,当损失矩阵按照题目的意思设置时,E[L]=kj(jk)Rjp(x,Ck)dx\mathbb{E}[L]=\sum_k\sum_{j(j \ne k)}\int_{\mathcal{R}_j}p(\mathbf{x},\mathcal{C}_k)\mathrm{d}\mathbf{x},此时该式就相当于最小化p(mistake)p(\operatorname{mistake})因此也就相当于退化为,谁的后验概率大就取谁的值。简单来说就是,这种损失矩阵对于所有的错误判断都一视同仁,权重都是11,那这时候有没有这个损失矩阵都没差别了。也就变成了前一小节所说的最小化错误分类概率。

1.23

对于某一类,如Cj\mathcal{C}_j,按照式(1.81),就相当于对该类最小化kLkjp(Ckx)\sum_k L_{kj}p(\mathcal{C}_k|\mathbf{x}),而p(Ckx)=p(xCk)p(Ck)p(x)p(\mathcal{C}_k|\mathbf{x})=\frac{p(\mathbf{x}|\mathcal{C}_k)p(\mathcal{C}_k)}{p(\mathbf{x})},所以就要最小化kLkjp(xCk)p(Ck)p(x)\sum_k L_{kj}\frac{p(\mathbf{x}|\mathcal{C}_k)p(\mathcal{C}_k)}{p(\mathbf{x})}

1.24

这题我刚开始做是比较懵逼的,主要是看不懂题目,太难翻译了有木有。来,我给大家准确梳理一下这道题的意思,分类问题中可以引入损失的权重来计算期望损失,并尽可能最小化该值,先不管什么拒绝选项,那我们可以根据式(1.81)知道,当新来了一个x\mathbf{x}的时候,我要做的就是遍历所有的jj,然后看哪个jj带进去的时候,kLkjp(Ckx)\sum_kL_{kj}p(\mathcal{C}_k|\mathbf{x})能取到最小值,而且按照书中的说法,决策论干的这些个事都很简单,毕竟推断的阶段,把那些个求解过程中需要的概率分布都给决策论准备好了。那么现在,我们再引入拒绝选项这个概念,所谓拒绝选项的含义就是,比如说在二分类问题中,就比如上面那张图片,在K2K_2处,这俩的概率是完全相同的,如果从后验概率的角度来说,就是这俩“五五开”。这种时候,数学也很为难,拒绝选项就可以在这种接近于五五开的情况下做出拒绝判断的选择。而题目中给出的λ\lambda就是在使用期望分类损失之后引入的“损失阈值”,说实话,光看题目我愣是没有抿出λ\lambda是这个意思,看了solution又悟了好久才把作者的整个思路弄明白。那就很简单了,所谓的决策就是,在能够使得kLkjp(Ckx)\sum_kL_{kj}p(\mathcal{C}_k|\mathbf{x})取得最小值的情况下,如果该值还是超过λ\lambda,就拒绝,其他情况就分类为能够使得kLkjp(Ckx)\sum_kL_{kj}p(\mathcal{C}_k|\mathbf{x})最小的那个第jj类。在Lkj=1IkjL_{kj}=1-I_{kj}的情况下,与题目1.22一致,此时所有后验分布一视同仁,不厚此薄彼,根据sum rule,就可以得到kp(Ckx)=1p(Cjx)\sum_kp(\mathcal{C}_k|\mathbf{x})=1-p(\mathcal{C}_j|\mathbf{x}),这时候,就是最开始我们接触的没有权重的拒绝选项了。对比Figure 1.26,也很容易得到λ=1θ\lambda = 1-\theta

1.25

已知E[L(t,y(x))]=y(x)t2p(x,t)dxdt\mathbb{E}[L(\mathbf{t},\mathbf{y}(\mathbf{x}))]=\iint||\mathbf{y}(\mathbf{x})-\mathbf{t}||^2p(\mathbf{x},\mathbf{t})\mathrm{d}\mathbf{x}\mathrm{d}\mathbf{t},所以可得δE[L(t,y(x))]δy(x)=2{y(x)t}p(x,t)dt=0\frac{\delta \mathbb{E}[L(\mathbf{t},\mathbf{y}(\mathbf{x}))]}{\delta \mathbf{y}(\mathbf{x})}=2\int \{\mathbf{y}(\mathbf{x})-\mathbf{t} \} p(\mathbf{x},\mathbf{t})\mathrm{d}\mathbf{t}=0,所以可得y(x)p(x,t)dt=tp(x,t)dt\mathbf{y}(\mathbf{x}) \int p(\mathbf{x},\mathbf{t}) \mathrm{d} \mathbf{t}=\int \mathbf{t} p(\mathbf{x},\mathbf{t}) \mathrm{d} \mathbf{t}。根据sum rule,可推知y(x)p(x)=tp(x,t)dt\mathbf{y}(\mathbf{x}) p(\mathbf{x})=\int \mathbf{t} p(\mathbf{x},\mathbf{t}) \mathrm{d} \mathbf{t},所以y(x)=tp(x,t)dtp(x)=tp(tx)dt=Et[tx]\mathbf{y}(\mathbf{x})= \frac{ \int \mathbf{t} p(\mathbf{x},\mathbf{t}) \mathrm{d} \mathbf{t} }{ p(\mathbf{x})}= \int \mathbf{t} p(\mathbf{t}|\mathbf{x}) \mathrm{d} \mathbf{t}=\mathbb{E}_{\mathbf{t}}[\mathbf{t} | \mathbf{x}]。很明显,如果目标量由向量t\mathbf{t}变为标量tt,则对应的结果就退化为式(1.89),即y(x)=Et[tx]y(\mathbf{x})=\mathbb{E}_{t}[t | \mathbf{x}]

1.26

这道题很简单,依葫芦画瓢即可,那些过程和繁杂的公式我宁可不耗费时间去把它打出来,我有一个疑问,那就是为什么中间的那个交叉项消失了?

先来看式(1.90)的推导过程中的那个式子{y(x)t}2={y(x)E[tx]}2+2{y(x)E[tx]}{E[tx]t}+{E[tx]t}2\{ y(\mathbf{x}) - t \}^2 = \{ y(\mathbf{x}) - \mathbb{E}[t|\mathbf{x}] \}^2 + 2\{ y(\mathbf{x}) - \mathbb{E}[t|\mathbf{x}] \} \{ \mathbb{E}[t|\mathbf{x}] - t \} + \{ \mathbb{E}[t|\mathbf{x}] - t \}^2,中间的交叉项在积分过程中即2{y(x)E[tx]}{E[tx]t}p(x,t)dxdt\iint 2\{ y(\mathbf{x}) - \mathbb{E}[t|\mathbf{x}] \} \{ \mathbb{E}[t|\mathbf{x}] - t \} p(\mathbf{x},t)\mathrm{d}\mathbf{x}\mathrm{d}t,注意,式子中,E[tx]\mathbb{E}[t|\mathbf{x}]Et[tx]\mathbb{E}_t[t|\mathbf{x}]的简写,所以E[tx]\mathbb{E}[t|\mathbf{x}]是关于x\mathbf{x}的表达式,中间项的积分即2{y(x)E[tx]y(x)t(E[tx])2+tE[tx]}p(x,t)dxdt2\iint \{y(\mathbf{x})\mathbb{E}[t|\mathbf{x}] - y(\mathbf{x}) t - (\mathbb{E}[t|\mathbf{x}])^2 + t\mathbb{E}[t|\mathbf{x}] \} p(\mathbf{x},t)\mathrm{d}\mathbf{x}\mathrm{d}t,这里说白了就是四项之和的双重积分,一项一项来看,忽略掉最前面的系数22,第一项为y(x)E[tx]p(x,t)dxdt=y(x)E[tx]p(x,t)dtdx=y(x)E[tx]p(x)dx\iint y(\mathbf{x})\mathbb{E}[t|\mathbf{x}]p(\mathbf{x},t)\mathrm{d}\mathbf{x}\mathrm{d}t=\int y(\mathbf{x})\mathbb{E}[t|\mathbf{x}] \int p(\mathbf{x},t)\mathrm{d}t \mathrm{d}\mathbf{x}=\int y(\mathbf{x}) \mathbb{E}[t|\mathbf{x}]p(\mathbf{x})\mathrm{d}\mathbf{x},第二项为y(x)tp(x,t)dxdt=y(x)p(x)tp(x,t)p(x)dtdx=y(x)p(x)E[tx]dx\iint -y(\mathbf{x})t p(\mathbf{x},t) \mathrm{d}\mathbf{x}\mathrm{d}t=\int -y(\mathbf{x})p(\mathbf{x}) \int t\frac{p(\mathbf{x},t)}{p(\mathbf{x})}\mathrm{d}t \mathrm{d}\mathbf{x}=\int -y(\mathbf{x}) p(\mathbf{x})\mathbb{E}[t|\mathbf{x}]\mathrm{d}\mathbf{x},这样一来,第一项和第二项就抵消了,第三项为(E[tx])2p(x,t)dxdt=(E[tx])2p(x,t)dtdx=(E[tx])2p(x)dx\iint -(\mathbb{E}[t|\mathbf{x}])^2p(\mathbf{x},t)\mathrm{d}\mathbf{x}\mathrm{d}t=\int -(\mathbb{E}[t|\mathbf{x}])^2 \int p(\mathbf{x},t)\mathrm{d}t \mathrm{d}\mathbf{x}=\int -(\mathbb{E}[t|\mathbf{x}])^2p(\mathbf{x})\mathrm{d}\mathbf{x},第四项为tE[tx]p(x,t)dxdt=E[tx]p(x)tp(x,t)p(x)dtdx=(E[tx])2p(x)dx\iint t\mathbb{E}[t|\mathbf{x}]p(\mathbf{x},t)\mathrm{d}\mathbf{x}\mathrm{d}t=\int \mathbb{E}[t|\mathbf{x}] p(\mathbf{x}) \int t \frac{p(\mathbf{x},t)}{p(\mathbf{x})}\mathrm{d}t \mathrm{d}\mathbf{x}=\int (\mathbb{E}[t|\mathbf{x}])^2p(\mathbf{x})\mathrm{d}\mathbf{x},这样一来,第三项和第四项也抵消了,如此即可得到式(1.90)的结果。

本题实际上是一样的推导过程,只是由于变成了向量,在处理时需要注意中间项变为了(y(x)E[tx])T(E[tx]t)+(E[tx]t)T(y(x)E[tx])(\mathbf{y}(\mathbf{x})-\mathbb{E}[\mathbf{t}|\mathbf{x}])^{\operatorname{T}}(\mathbb{E}[\mathbf{t}|\mathbf{x}] - \mathbf{t}) + (\mathbb{E}[\mathbf{t}|\mathbf{x}] - \mathbf{t})^{\operatorname{T}}(\mathbf{y}(\mathbf{x})-\mathbb{E}[\mathbf{t}|\mathbf{x}]),因此最终结果可以写成E[L]=y(x)E[tx]2p(x)dx+var[tx]p(x)dx\mathbb{E}[L]=\int ||\mathbf{y}(\mathbf{x}) - \mathbb{E}[\mathbf{t}|\mathbf{x}]||^2p(\mathbf{x})\mathrm{d}\mathbf{x}+\int \operatorname{var}[\mathbf{t}|\mathbf{x}]p(\mathbf{x})\mathrm{d}\mathbf{x}

1.27

实话说,看到这题的我也是懵逼的,说起来很简单,就是要保证E[Lq]\mathbb{E}[L_q]可微,且其微分等于00是有解的。但是问题来了,对谁微分呢?考虑到问题中问的是y(x)y(\mathbf{x})需要满足的条件,而双重积分的微分也是相当棘手,所以最终我还是翻看了solution。作者的意思是既然y(x)y(\mathbf{x})是由我们选择的,同时p(t,x)p(t,\mathbf{x})正比于p(tx)p(t|\mathbf{x}),那么这个双重积分也就可以表达为y(x)tqp(tx)dt\int |y(\mathbf{{x}})-t|^q p(t|\mathbf{x})\mathrm{d}t,在这个式子基础上,对y(x)y(\mathbf{x})进行微分,得到qy(x)tq1sign(y(x)t)p(tx)dt=0\int q |y(\mathbf{{x}})-t|^{q-1} \operatorname{sign}(y(\mathbf{{x}})-t)p(t|\mathbf{x})\mathrm{d}t=0,本来走到这一步我觉得我勉强能够理解(其实已经很困难了好嘛),作者又一波神奇操作,将其变为q(y(x)y(x)tq1p(tx)dty(x)y(x)tq1p(tx)dt)=0q(\int_{- \infty}^{y(\mathbf{x})}|y(\mathbf{{x}})-t|^{q-1}p(t|\mathbf{x})\mathrm{d}t-\int^{\infty}_{y(\mathbf{x})}|y(\mathbf{{x}})-t|^{q-1}p(t|\mathbf{x})\mathrm{d}t)=0,所以要满足的条件就是y(x)y(x)tq1p(tx)dt=y(x)y(x)tq1p(tx)dt\int_{- \infty}^{y(\mathbf{x})}|y(\mathbf{{x}})-t|^{q-1}p(t|\mathbf{x})\mathrm{d}t=\int^{\infty}_{y(\mathbf{x})}|y(\mathbf{{x}})-t|^{q-1}p(t|\mathbf{x})\mathrm{d}t。真的看不大懂每一步操作的理由是什么。

好了我编不下去了,上面几乎就是把solution翻译了一遍,我选择放弃,再想想看。

看了一段时间,稍微有了一些想法,可以看一下式(1.88),我们不妨就从这个角度切入。为什么选择这个角度?因为正是式(1.88)到式(1.89)的推导过程,推出了在q=2q=2的情况下,条件均值为y(x)y(\mathbf{x})最优解。因此,我们二话不说依葫芦画瓢进行微分(这里使用到了变分法,不做赘述),得到了δE[L]δy(x)=qy(x)tq1sign(y(x)t)p(x,t)dt=0\frac{\delta \mathbb{E}[L]}{\delta y(\mathbf{x})}=q\int |y(\mathbf{x})-t|^{q-1} \operatorname{sign}(y(\mathbf{{x}})-t) p(\mathbf{x},t)\mathrm{d}t=0。那么之所以要使用y(x)y(\mathbf{x})来进行区间的划分,也是为了简化该式的符号项,这才有了q(y(x)(ty(x))q1p(tx)dt+y(x)(y(x)t)q1p(tx)dt)=0q(\int_{- \infty}^{y(\mathbf{x})}(t-y(\mathbf{{x}}))^{q-1}p(t|\mathbf{x})\mathrm{d}t+\int^{\infty}_{y(\mathbf{x})}(y(\mathbf{{x}})-t)^{q-1}p(t|\mathbf{x})\mathrm{d}t)=0,这样符号关系就对了,之后再转换一下正负号,将两部分分别挪至等号两侧,就有了y(x)(y(x)t)q1p(tx)dt=y(x)(y(x)t)q1p(tx)dt\int_{- \infty}^{y(\mathbf{x})}(y(\mathbf{{x}})-t)^{q-1}p(t|\mathbf{x})\mathrm{d}t=\int^{\infty}_{y(\mathbf{x})}(y(\mathbf{{x}})-t)^{q-1}p(t|\mathbf{x})\mathrm{d}t

如果q=1q=1,则有y(x)y(\mathbf{x})满足y(x)p(tx)dt=y(x)p(tx)dt\int_{- \infty}^{y(\mathbf{x})}p(t|\mathbf{x})\mathrm{d}t=\int^{\infty}_{y(\mathbf{x})}p(t|\mathbf{x})\mathrm{d}t,也就是说p(tx)p(t|\mathbf{x})t<y(x)t<y(\mathbf{x})的区域中与tp(tx)t \ge p(t|\mathbf{x})的区域上积分大小相同,此时y(x)y(\mathbf{x})所在的位置也就是题目所谓的条件中数的含义。

如果q0q \to 0y(x)tq|y(\mathbf{{x}})-t|^{q}趋近于11,这样的话y(x)tqp(tx)dt\int |y(\mathbf{{x}})-t|^q p(t|\mathbf{x})\mathrm{d}t也就趋近于11。但是当y(x)y(\mathbf{{x}})tt之间的距离同样非常靠近时,y(x)tq|y(\mathbf{{x}})-t|^{q}趋近于11这一点就要打个问号了,这种情况下,y(x)tq|y(\mathbf{{x}})-t|^{q}会比11还要小一些(可以使用MATLAB进行验证)。这样一来,能够使得这个“小一些”足够小的y(x)y(\mathbf{{x}})也就要尽可能靠近出现概率最大的tt值,此时,相当于y(x)y(\mathbf{{x}})就是条件分布的众数。

1.28

nn为正整数为前提条件下,h(p2)=h(p)+h(p)=2h(p)h(p^2)=h(p)+h(p)=2h(p)h(pn)=h(p)++h(p)=nh(p)h(p^n)=h(p)+\dots+h(p)=nh(p)

mm为正整数为前提条件下,h(pn/m)=nh(p1/m)=nmmh(p1/m)=nmh(p)h(p^{n/m})=nh(p^{1/m})=\frac{n}{m}mh(p^{1/m})=\frac{n}{m}h(p)。这里你可以将p1/mp^{1/m}看成上面公式中的pp,视其为一个整体,因为题中对pp是没有任何要求的。这样一来,就可以看到,对于任何一个正整数xxh(px)=xh(p)h(p^x)=xh(p)

最后一小问没啥意思,不证了。

1.29

H[x]=i=1Mp(xi)lnp(xi)=i=1Mp(xi)lnp(1xi)\mathbf{H}[x]=\sum_{i=1}^M -p(x_i) \ln p(x_i) = \sum_{i=1}^M p(x_i) \ln p(\frac{1}{x_i})ln\ln函数是一个concave函数,因此f(i=1Mλixi)i=1Mλif(xi)f(\sum_{i=1}^{M}\lambda_ix_i) \ge \sum_{i=1}^{M}\lambda_i f(x_i),这里p(xi)p(x_i)λi\lambda_i,满足λi\lambda_i所需的条件,因此i=1Mp(xi)ln(1p(xi))ln(i=1Mp(xi)1p(xi)=lnM)\sum_{i=1}^{M} p(x_i) \ln(\frac{1}{p(x_i)}) \le \ln(\sum_{i=1}^M p(x_i) \frac{1}{p(x_i)}=\ln M)
所以H[x]lnM\mathbf{H}[x] \le \ln M

1.30

KL\operatorname{KL}散度的表达中,我一直有一个疑问,就是为什么我们预估的分布q(x)q(x)的信息熵是p(x)lnq(x)dx-\int p(\mathbf{x}) \ln q(\mathbf{x}) \mathrm{d}\mathbf{x},而不是q(x)lnp(x)dx-\int q(\mathbf{x}) \ln p(\mathbf{x}) \mathrm{d}\mathbf{x},最终觉得这是因为按照后者那样去写的话,所谓的编码平均附加信息量这个表达式,也就是KL\operatorname{KL}散度的数学表达式并不具有良好的数学性质,利用不到convex函数的相关性质。因此才使用了前者那种表达,但是我还想从更加合理的角度来看待这样做的原因。

KL(pq)=p(x)ln{q(x)p(x)}dx=p(x){lnp(x)lnq(x)}dx=p(x){ln1(2πσ2)1/2exp((xμ)22σ2)ln1(2πs2)1/2exp((xm)22s2)}dx=p(x){ln(2πσ2)1/2(xμ)22σ2+ln(2πs2)1/2+(xm)22s2}dx=p(x){lnsσ}dx12σ2p(x)(xμ)2dx+12s2p(x)(xm)2dx=lnsσ+12s2p(x)(xm)2dx12=lnsσ+12s2p(x)(x22mx+m2)dx12=lnsσ+12s2(μ2+σ22mμ+m2)12=lnsσ+(μm)2+σ22s212\begin{aligned} \operatorname{KL}(p||q)&=-\int p(x) \ln\{ \frac{q(x)}{p(x)} \} \mathrm{d}x \\ &= \int p(x) \{\ln p(x) - \ln q(x) \} \mathrm{d}x \\ &= \int p(x) \{ \ln \frac{1}{(2 \pi \sigma^2)^{1/2}} \exp(-\frac{(x-\mu)^2}{2\sigma^2}) - \ln \frac{1}{(2 \pi s^2)^{1/2}} \exp(-\frac{(x-m)^2}{2s^2}) \} \mathrm{d}x \\ &= \int p(x) \{ - \ln (2 \pi \sigma^2)^{1/2} - \frac{(x-\mu)^2}{2\sigma^2} + \ln (2 \pi s^2)^{1/2} + \frac{(x-m)^2}{2s^2} \} \mathrm{d}x \\ &= \int p(x) \{ \ln \frac{s}{\sigma} \} \mathrm{d}x - \frac{1}{2\sigma^2}\int p(x) (x-\mu)^2 \mathrm{d}x + \frac{1}{2s^2}\int p(x) (x-m)^2 \mathrm{d}x\\ &= \ln \frac{s}{\sigma} + \frac{1}{2s^2}\int p(x) (x-m)^2 \mathrm{d}x - \frac{1}{2}\\ &= \ln \frac{s}{\sigma} + \frac{1}{2s^2}\int p(x) (x^2 - 2mx + m^2) \mathrm{d}x - \frac{1}{2}\\ &= \ln \frac{s}{\sigma} + \frac{1}{2s^2}(\mu^2 + \sigma^2 - 2m \mu + m^2) - \frac{1}{2}\\ &= \ln \frac{s}{\sigma} + \frac{(\mu - m)^2 + \sigma^2}{2s^2} - \frac{1}{2} \end{aligned}

1.31

H[x,y]=p(x,y)lnp(x,y)dydx=p(x,y)lnp(yx)dydxp(x,y)lnp(x)dydx=p(x,y)lnp(yx)dydxlnp(x)p(x,y)dydx=H[yx]lnp(x)p(x)dx=H[yx]+H[x]\begin{aligned} \operatorname{H}[\mathbf{x}, \mathbf{y}] &= -\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{x}, \mathbf{y}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \\ &= -\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{y}| \mathbf{x}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} -\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{x}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \\ &= -\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{y}| \mathbf{x}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} -\int \ln p(\mathbf{x}) \int p(\mathbf{x}, \mathbf{y}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \\ &= \operatorname{H}[\mathbf{y}| \mathbf{x}] - \int \ln p(\mathbf{x}) p(\mathbf{x}) \mathrm{d}\mathbf{x} \\ &= \operatorname{H}[\mathbf{y}| \mathbf{x}] + \operatorname{H}[\mathbf{x}] \\ \end{aligned}

H[x]+H[y]=p(x)lnp(x)dxp(y)lnp(y)dy=p(x,y)lnp(x)dydxp(x,y)lnp(y)dydx=p(x,y)lnp(x)p(y)dydx\begin{aligned} \operatorname{H}[\mathbf{x}] + \operatorname{H}[\mathbf{y}] &= -\int p(\mathbf{x}) \ln p(\mathbf{x}) \mathrm{d}\mathbf{x} -\int p(\mathbf{y}) \ln p(\mathbf{y}) \mathrm{d}\mathbf{y} \\ &= -\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{x}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} -\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{y}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \\ &= -\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{x})p(\mathbf{y}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \end{aligned}

要证明H[x,y]H[x]+H[y]\operatorname{H}[\mathbf{x}, \mathbf{y}] \le \operatorname{H}[\mathbf{x}] + \operatorname{H}[\mathbf{y}],即变为证明
p(x,y)lnp(x,y)dydxp(x,y)lnp(x)p(y)dydx-\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{x}, \mathbf{y}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \le -\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{x})p(\mathbf{y}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x}

根据互信息的定义,我们有
I[x,y]=KL(p(x,y)p(x)p(y))=p(x,y)ln(p(x)p(y)p(x,y))dydx\begin{aligned}I[\mathbf{x}, \mathbf{y}] &= \operatorname{KL}(p(\mathbf{x}, \mathbf{y})||p(\mathbf{x})p(\mathbf{y})) \\ &= -\iint p(\mathbf{x}, \mathbf{y}) \ln (\frac{p(\mathbf{x})p(\mathbf{y})}{p(\mathbf{x}, \mathbf{y})}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \end{aligned}
I[x,y]0I[\mathbf{x}, \mathbf{y}] \ge 0,当且仅当两变量互相独立时等号才成立。所以
p(x,y)ln(p(x)p(y)p(x,y))dydx=p(x,y)ln(p(x)p(y))dydx+p(x,y)lnp(x,y)dydx0\begin{gathered} -\iint p(\mathbf{x}, \mathbf{y}) \ln (\frac{p(\mathbf{x})p(\mathbf{y})}{p(\mathbf{x}, \mathbf{y})}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} =\\ -\iint p(\mathbf{x}, \mathbf{y}) \ln (p(\mathbf{x})p(\mathbf{y})) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} + \iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{x}, \mathbf{y}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \ge 0 \end{gathered}
所以得到
p(x,y)lnp(x,y)dydxp(x,y)lnp(x)p(y)dydx-\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{x}, \mathbf{y}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \le -\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{x})p(\mathbf{y}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x}
结论成立,且只有在两变量相互独立时等号才成立。

实话说我感觉我这个是伪证明,因为利用了互信息这个先验知识,但是其实也没差,互信息本身就是一种KL\operatorname{KL}散度,因此必然大于等于00。看了一眼solution给出的解法,我觉得相当奇怪,既然作者已经利用了互信息这个条件,为什么还整得那么绕?

1.32

非奇异的随机变量线性变换不会改变随机变量的概率密度值,因此p(Ax)=p(y)p(\mathbf{Ax}) = p(\mathbf{y}),同时在概率密度一节中有提及:p(x)δx=p(y)δyp(\mathbf{x}) |\delta \mathbf{x}| = p(\mathbf{y}) | \delta \mathbf{y} |,所以有p(x)=p(y)δyδx=p(y)Ap(\mathbf{x}) = p(\mathbf{y}) |\frac{\delta \mathbf{y}}{\delta \mathbf{x}}| = p(\mathbf{y}) | \mathbf{A} |,所以
H[y]=p(Ax)ln(p(Ax))dx=p(x)ln(p(x)A1)dx=p(x)ln(x)dxp(x)ln(A1)dx=H[x]+ln(A)\begin{aligned} \operatorname{H}[\mathbf{y}] &= -\int p(\mathbf{Ax}) \ln (p(\mathbf{Ax})) \mathrm{d}\mathbf{x} \\ &= -\int p(\mathbf{x}) \ln (p(\mathbf{x})|\mathbf{A}|^{-1}) \mathrm{d}\mathbf{x} \\ &= -\int p(\mathbf{x}) \ln (\mathbf{x}) \mathrm{d}\mathbf{x} -\int p(\mathbf{x}) \ln (|\mathbf{A}|^{-1}) \mathrm{d}\mathbf{x} \\ &= \operatorname{H}[\mathbf{x}] + \ln (|\mathbf{A}|) \end{aligned}

1.33

已知H[x,y]=H[yx]+H[x]\operatorname{H}[\mathbf{x}, \mathbf{y}] = \operatorname{H}[\mathbf{y} | \mathbf{x}] + \operatorname{H}[\mathbf{x}]。现在H[yx]=0\operatorname{H}[\mathbf{y} | \mathbf{x}] = 0,所以H[x,y]=H[x]\operatorname{H}[\mathbf{x}, \mathbf{y}] = \operatorname{H}[\mathbf{x}]。因此
p(x,y)lnp(x,y)dydx=p(x,y)lnp(x)dydx\begin{aligned} -\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{x}, \mathbf{y}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} = -\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{x}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \end{aligned}
所以p(x,y)=p(x)p(\mathbf{x}, \mathbf{y}) = p(\mathbf{x}),又因为p(x,y)=p(yx)p(x)p(\mathbf{x}, \mathbf{y}) = p(\mathbf{y}|\mathbf{x}) p(\mathbf{x}),从而得到p(yx)=1p(\mathbf{y}|\mathbf{x}) = 1,也就是说,在知道了x\mathbf{x}的前提条件下,y\mathbf{y}是多少一下子就知道了(因为概率为11,所以说明对于一个固定的x\mathbf{x},就只有一个固定的y\mathbf{y}与之对应),也就是说y\mathbf{y}x\mathbf{x}之间有着对应的函数关系。这个函数关系并不一定是一一对应的,而只是要求在x\mathbf{x}确定了的情况下,只有一个y\mathbf{y}与之对应,这是不排除一个相同的y\mathbf{y}对应多个不同的x\mathbf{x}这种情况的。

1.34

泛函FF为:
p(x)lnp(x)dx+λ1(p(x)dx1)+λ2(xp(x)dxμ)+λ3((xμ)2p(x)dxσ2)\begin{aligned} -\int_{-\infty}^{\infty} p(x) \ln p(x) \mathrm{d}x + \lambda_1 (\int_{-\infty}^{\infty} p(x) \mathrm{d}x - 1) + \lambda_2 (\int_{-\infty}^{\infty} xp(x) \mathrm{d}x - \mu) + \lambda_3 (\int_{-\infty}^{\infty} (x-\mu)^2 p(x) \mathrm{d}x - \sigma^2) \end{aligned}
整理可得:
{p(x)lnp(x)+λ1p(x)+λ2xp(x)+λ3(xμ)2p(x)}dx+{λ1λ2μλ3σ2)}\begin{aligned} \int_{-\infty}^{\infty} \{-p(x) \ln p(x) + \lambda_1 p(x) + \lambda_2 xp(x) + \lambda_3 (x-\mu)^2 p(x) \} \mathrm{d}x + \{ - \lambda_1 - \lambda_2 \mu - \lambda_3\sigma^2)\} \end{aligned}

G=p(x)lnp(x)+λ1p(x)+λ2xp(x)+λ3(xμ)2p(x)\begin{aligned} G = -p(x) \ln p(x) + \lambda_1 p(x) + \lambda_2 xp(x) + \lambda_3 (x-\mu)^2 p(x) \end{aligned}
则有
dGdp(x)=lnp(x)1+λ1+λ2x+λ3(xμ)2=0\begin{aligned} \frac{\mathrm{d}G}{\mathrm{d}p(x)} &= -\ln p(x) - 1 + \lambda_1 + \lambda_2 x + \lambda_3 (x-\mu)^2 = 0\\ \end{aligned}
所以p(x)=exp(1+λ1+λ2x+λ3(xμ)2)p(x) = \exp(-1 + \lambda_1 + \lambda_2 x + \lambda_3 (x-\mu)^2)

这里参考了Appendix D章节的变分法内容。

1.35

p(x)=1(2πσ2)1/2exp{(xμ)22σ2}p(x) = \frac{1}{(2 \pi \sigma^2)^{1/2}} \exp \{ -\frac{(x - \mu)^2}{2 \sigma^2} \},所以有
H[x]=p(x)lnp(x)dx=1(2πσ2)1/2exp{(xμ)22σ2}ln1(2πσ2)1/2exp{(xμ)22σ2}dx=p(x)(ln((2πσ2)1/2))dx+p(x)((xμ)22σ2)dx=12ln(2πσ2)+12=ln(2πσ2)+12\begin{aligned} \operatorname{H}[x] &= -\int p(x) \ln p(x) \mathrm{d}x \\ &= -\int \frac{1}{(2 \pi \sigma^2)^{1/2}} \exp \{ -\frac{(x - \mu)^2}{2 \sigma^2} \} \ln \frac{1}{(2 \pi \sigma^2)^{1/2}} \exp \{ -\frac{(x - \mu)^2}{2 \sigma^2} \} \mathrm{d}x \\ &= \int p(x) (\ln ((2 \pi \sigma^2)^{1/2})) \mathrm{d}x + \int p(x) (\frac{(x - \mu)^2}{2 \sigma^2}) \mathrm{d}x \\ &= \frac{1}{2} \ln (2 \pi \sigma^2) + \frac{1}{2} \\ &= \frac{\ln (2 \pi \sigma^2) + 1}{2} \end{aligned}
注意其中有一步是由方差的计算公式得来的。

1.36

根据泰勒展开式,可得
f(x)=f(x0)+f(x0)(xx0)+12f(x0)(xx0)2\begin{aligned} f(x) = f(x_0) + f'(x_0)(x-x_0) + \frac{1}{2}f''(x_0)(x-x_0)^2 \end{aligned}
由于f(x0)>0f''(x_0) > 0,因此12f(x0)(xx0)2>0\frac{1}{2}f''(x_0)(x-x_0)^2 > 0,所以可得
f(x)>f(x0)+f(x0)(xx0)\begin{aligned} f(x) > f(x_0) + f'(x_0)(x-x_0) \end{aligned}
x0=λa+(1λ)bx_0 = \lambda a + (1 - \lambda)b因此可以得到
f(a)>f(λa+(1λ)b)+f(λa+(1λ)b)((1λ)(ab))f(b)>f(λa+(1λ)b)+f(λa+(1λ)b)(λ(ba))λf(a)+(1λ)f(b)>f(λa+(1λ)b)\begin{aligned} & f(a) > f(\lambda a + (1 - \lambda)b) + f'(\lambda a + (1 - \lambda)b)((1-\lambda)(a-b)) \\ & f(b) > f(\lambda a + (1 - \lambda)b) + f'(\lambda a + (1 - \lambda)b)(\lambda (b - a)) \\ & \lambda f(a) + (1 - \lambda)f(b) > f(\lambda a + (1 - \lambda)b) \end{aligned}
从而得证。

1.37

H[yx]+H[x]=p(x,y)lnp(yx)dydxp(x)lnp(x)dx=p(x,y)lnp(yx)dydxp(x,y)lnp(x)dydx=p(x,y)ln{p(yx)p(x)}dydx=p(x,y)lnp(x,y)dydx=H[x,y]\begin{aligned} \operatorname{H}[\mathbf{y} | \mathbf{x}] + \operatorname{H}[\mathbf{x}] &= -\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{y}| \mathbf{x}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} - \int p(\mathbf{x}) \ln p(\mathbf{x}) \mathrm{d}\mathbf{x}\\ &= -\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{y}| \mathbf{x}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} -\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{x}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \\ &= -\iint p(\mathbf{x}, \mathbf{y}) \ln \{p(\mathbf{y}| \mathbf{x}) p(\mathbf{x}) \} \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \\ &= -\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{x}, \mathbf{y}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \\ &= \operatorname{H}[\mathbf{x}, \mathbf{y}] \end{aligned}

1.38

当项数为22时,根据式(1.114)可知
f(λa+(1λ)b)λf(a)+(1λ)f(b)\begin{aligned} f(\lambda a + (1-\lambda)b) \le \lambda f(a) + (1 - \lambda)f(b) \end{aligned}
现在假设项数为MM时满足
f(i=1Mλixi)i=1Mλif(xi)\begin{aligned} f(\sum_{i=1}^{M} \lambda_i x_i ) \le \sum_{i=1}^{M} \lambda_i f(x_i) \end{aligned}
当有M+1M+1项时,则有
f(i=1M+1λixi)=f(i=1Mλixi+λM+1xM+1)=f((1λM+1)i=1Mλi1λM+1xi+λM+1xM+1)(1λM+1)f(i=1Mλi1λM+1xi)+λM+1f(xM+1)\begin{aligned} f(\sum_{i=1}^{M+1} \lambda_i x_i ) & = f(\sum_{i=1}^{M} \lambda_i x_i + \lambda_{M+1} x_{M+1}) \\ & = f((1-\lambda_{M+1})\sum_{i=1}^{M} \frac{\lambda_i}{1-\lambda_{M+1}} x_i + \lambda_{M+1} x_{M+1}) \\ & \le (1-\lambda_{M+1}) f(\sum_{i=1}^{M} \frac{\lambda_i}{1-\lambda_{M+1}} x_i) + \lambda_{M+1} f(x_{M+1}) \\ \end{aligned}
很明显,i=1Mλi1λM+1=1\sum_{i=1}^M \frac{\lambda_i}{1-\lambda_{M+1}}=1,因此
f(i=1Mλi1λM+1xi)i=1Mλi1λM+1f(xi)\begin{aligned} f(\sum_{i=1}^{M} \frac{\lambda_i}{1-\lambda_{M+1}} x_i) \le \sum_{i=1}^{M} \frac{\lambda_i}{1-\lambda_{M+1}} f(x_i) \end{aligned}
所以
f(i=1M+1λixi)=f(i=1Mλixi+λM+1xM+1)=f((1λM+1)i=1Mλi1λM+1xi+λM+1xM+1)(1λM+1)f(i=1Mλi1λM+1xi)+λM+1f(xM+1)(1λM+1)i=1Mλi1λM+1f(xi)+λM+1f(xM+1)=i=1M+1λif(xi)\begin{aligned} f(\sum_{i=1}^{M+1} \lambda_i x_i ) & = f(\sum_{i=1}^{M} \lambda_i x_i + \lambda_{M+1} x_{M+1}) \\ & = f((1-\lambda_{M+1})\sum_{i=1}^{M} \frac{\lambda_i}{1-\lambda_{M+1}} x_i + \lambda_{M+1} x_{M+1}) \\ & \le (1-\lambda_{M+1}) f(\sum_{i=1}^{M} \frac{\lambda_i}{1-\lambda_{M+1}} x_i) + \lambda_{M+1} f(x_{M+1}) \\ & \le (1-\lambda_{M+1}) \sum_{i=1}^{M} \frac{\lambda_i}{1-\lambda_{M+1}} f(x_i) + \lambda_{M+1} f(x_{M+1}) \\ & = \sum_{i=1}^{M+1} \lambda_i f(x_i) \end{aligned}

由此归纳得证。

1.39

这道题理解了书中的相关公式很好做的,书里面几乎把关系全都明摆出来了。

( a ) ln323ln2\ln 3 - \frac{2}{3} \ln 2

( b ) ln323ln2\ln 3 - \frac{2}{3} \ln 2

( c ) 23ln2\frac{2}{3} \ln 2

( d ) 23ln2\frac{2}{3} \ln 2

( e ) ln3\ln{3}

( f ) ln343ln2\ln{3} - \frac{4}{3} \ln 2

Pattern Recognition and Machine Learning: Chapter 01习题详解

1.40

ln(i=1N1Nxi)=ln(1Ni=1Nxi)i=1N1Nlnxi=1Ni=1Nlnxi=1Nlni=1Nxi=ln(i=1Nxi)1N\begin{aligned} \ln ( \sum_{i=1}^N \frac{1}{N} x_i ) = \ln ( \frac{1}{N} \sum_{i=1}^N x_i ) \le \sum_{i=1}^N \frac{1}{N} \ln x_i = \frac{1}{N} \sum_{i=1}^N \ln x_i = \frac{1}{N} \ln \prod_{i=1}^{N} x_i = \ln (\prod_{i=1}^{N} x_i)^{\frac{1}{N}} \end{aligned}
由于ln\ln函数为递增函数,因此
1Ni=1Nxi(i=1Nxi)1N\begin{aligned} \frac{1}{N} \sum_{i=1}^N x_i \le (\prod_{i=1}^{N} x_i)^{\frac{1}{N}} \end{aligned}
从而得证。

1.41

I[x,y]=KL(p(x,y)p(x)p(y))=p(x,y)ln(p(x)p(y)p(x,y))dydx=p(x,y)ln(p(x)p(y)p(yx)p(x))dydx=p(x,y)ln(p(y)p(yx))dydx=H[y]H[yx]=p(x,y)ln(p(x)p(y)p(xy)p(y))dydx=p(x,y)ln(p(x)p(xy))dydx=H[x]H[xy]\begin{aligned} I[\mathbf{x}, \mathbf{y}] &= \operatorname{KL}(p(\mathbf{x}, \mathbf{y})||p(\mathbf{x})p(\mathbf{y})) \\ &= -\iint p(\mathbf{x}, \mathbf{y}) \ln (\frac{p(\mathbf{x})p(\mathbf{y})}{p(\mathbf{x}, \mathbf{y})}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \\ &= -\iint p(\mathbf{x}, \mathbf{y}) \ln (\frac{p(\mathbf{x})p(\mathbf{y})}{p(\mathbf{y}| \mathbf{x}) p(\mathbf{x}) }) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \\ &= -\iint p(\mathbf{x}, \mathbf{y}) \ln (\frac{p(\mathbf{y})}{p(\mathbf{y}| \mathbf{x}) }) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \\ &= \operatorname{H}[\mathbf{y}] - \operatorname{H}[\mathbf{y} | \mathbf{x}] \\ &= -\iint p(\mathbf{x}, \mathbf{y}) \ln (\frac{p(\mathbf{x})p(\mathbf{y})}{p(\mathbf{x}| \mathbf{y}) p(\mathbf{y}) }) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \\ &= -\iint p(\mathbf{x}, \mathbf{y}) \ln (\frac{p(\mathbf{x})}{p(\mathbf{x}| \mathbf{y}) }) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \\ &= \operatorname{H}[\mathbf{x}] - \operatorname{H}[\mathbf{x} | \mathbf{y}] \end{aligned}