PRML_Exercises

Pattern Recognition and Machine Learning习题中文详解

欢迎讨论题目（我把自己做的过程贴出来也是为了更方便讨论），禁止一切形式的转载。

关于排版，实话说我也想把公式排得舒服好看一些，奈何着实费力，这着实不太讨喜，见谅。

Chapter 1

1.1

能够使得式(1.2)给出的误差函数最小的参数 $\mathbf{w}=\{w_i\}$ 就是使得误差为 $0$ 的参数，那么就满足
$\sum_{j=0}^{M}w_jx_n^j=t_n$
而我们要做的这道证明题的右式
$T_i=\sum_{n=1}^{N}(x_n)^it_n$
直接将上述我们已知的 $t_n$ 代入，得
$T_i=\sum_{n=1}^N[(x_n)^i\sum_{j=0}^{M}w_j(x_n)^j]$
又由于 $(x_n)^i$ 不含有与 $j$ 相关的系数，所以可以将其放入后面的求和项，即
$T_i=\sum_{n=1}^N\sum_{j=0}^{M}(x_n)^iw_j(x_n)^j$
再互换一下求和顺序
$T_i=\sum_{j=0}^{M}\sum_{n=1}^N(x_n)^iw_jx_n^j=\sum_{j=0}^{M}\sum_{n=1}^N(x_n)^{i+j}w_j$
其中就可以看到 $\sum_{n=1}^N(x_n)^{i+j}$ 就是题目中的 $A_{ij}$ 了，从而得证。

1.2

已知
$\widetilde{E}(\mathbf{w})=\frac{1}{2} \sum_{n=1}^{N}\left\{y\left(x_{n}, \mathbf{w}\right)-t_{n}\right\}^{2}+\frac{\lambda}{2}\|\mathbf{w}\|^{2}$
其中 $\|\mathbf{w}\|^{2} \equiv \mathbf{w}^{\mathrm{T}} \mathbf{w}=w_{0}^{2}+w_{1}^{2}+\ldots+w_{M}^{2}$ ，这里提一下正则项里面的 $w_0^2$ ，作者说通常来讲这一项要么不放正则项中，要么使用另一个 $\lambda$ 对其进行大小控制，不过咱们这里为了公式的推导方便就不做特殊处理，且让它在这个正则项中。既然题目中要求这个误差函数 $\widetilde{E}(\mathbf{w})$ 最小化，也就意味着该式对各个参数 $w$ 的导数均为 $0$ ，由此可得：
$\frac{\mathrm{d}\widetilde{E}(\mathbf{w})}{\mathrm{d}w_i}=\frac{1}{2}\sum_{n=1}^{N}\{2[\sum_{j=0}^{M}w_j(x_n)^j-t_n](x_n)^i\}+\lambda w_i=0$
所以
$\sum_{n=1}^{N}\{\sum_{j=0}^{M}[(x_n)^{i+j}w_j]-(x_n)^it_n]\}+\lambda w_i=\sum_{n=1}^{N}\sum_{j=0}^{M}\{(x_n)^{i+j}w_j\}-\sum_{n=1}^{N}\{(x_n)^{i}t_n+\frac{\lambda w_i}{N}\}=0$
所以可以看到，题目1.1中的式子基本都可以保持不变，只需将 $T_i$ 修改为 $T_i=\sum_{n=1}^{N}\{(x_n)^{i}t_n+\frac{\lambda w_i}{N}\}$ 。

Tips：上面求导的过程使用了复合函数的求导。

1.3

已知 $p(B=r)=0.2$ ， $p(B=b)=0.2$ ， $p(B=g)=0.6$ ，同时， $p(F=a|B=r)=0.3$ ， $p(F=o|B=r)=0.4$ ， $p(F=l|B=r)=0.3$ ， $p(F=a|B=b)=0.5$ ， $p(F=o|B=b)=0.5$ ， $p(F=l|B=b)=0$ ， $p(F=a|B=g)=0.3$ ， $p(F=o|B=g)=0.3$ ， $p(F=l|B=g)=0.4$ 。第一小问说，抽一次抽出苹果的概率是多少，可通过sum rule和product rule求出，即：
$p(a)=p(a,r)+p(a,b)+p(a,g)=p(a|r)p(r)+p(a|b)p(b)+p(a|g)p(g)=0.34$
第二小问说，在已知抽出的结果是橘子（orange）的情况下，从绿色（green）盒子中抽出这个橘子的概率是多大。这就是一个很典型的由果推因的贝叶斯公式题，相当于求 $p(B=g|F=o)$ ，根据贝叶斯公式，可得 $p(g|o)=\frac{p(o|g)p(g)}{p(o)}$ ，其中分母可以按照第一小问的方式求出，分子中各项均为已知条件，求得 $p(B=g|F=o)=0.5$ 。

1.4

已知 $x=g(y)$ ， $p_y(y)=p_x(x)|\frac{\mathrm{d}x}{\mathrm{d}y}|=p_x(x)|g^{\prime}(y)|$ ，对于两个概率分布而言，能够取到最大值的位置满足导数为 $0$ ，因此 $\frac{\partial p_y(y)}{\partial y}=\frac{\partial p_x(x)|g^{\prime}(y)|}{\partial y}=0$ ，题目中假设 $x=g(y)$ 为线性函数，因此我们假设 $x=g(y)=ay+b$ ，所以可以得到 $\frac{\partial p_y(y)}{\partial y}=\frac{\partial p_x(x)|a|}{\partial x}\frac{\partial x}{\partial y}=\frac{\partial p_x(x)}{\partial x}|a|^2=0$ ，由于 $|a|^2 > 0$ ，（ $a$ 的绝对值不应该为 $0$ ，否则并不能称其为变换了），所以使得 $\frac{\partial p_x(x)}{\partial x}=0$ 的情况下， $\frac{\partial p_y(y)}{\partial y}$ 也等于 $0$ ，也就是说在 $x$ 取值使得 $p_x(x)$ 最大的位置，这个 $x$ 对应的 $y$ 也是使得 $p_y(y)$ 最大的位置，而 $x=g(y)=ay+b$ 同样满足两变量之间的线性关系。

1.5

式(1.38)为 $\operatorname{var}[f]=\mathbb{E}\left[(f(x)-\mathbb{E}[f(x)])^{2}\right]$ ，因此 $\operatorname{var}[f]=\mathbb{E}\left[(f(x)-\mathbb{E}[f(x)])^{2}\right]=\mathbb{E}[f(x)^2-2f(x)\mathbb{E}[f(x)]+(\mathbb{E}[f(x)])^2]$ ，所以 $\operatorname{var}[f]=\mathbb{E}[f(x)^2]-2(\mathbb{E}[f(x)])^2+(\mathbb{E}[f(x)])^2]=\mathbb{E}\left[f(x)^{2}\right]-\mathbb{E}[f(x)]^{2}$ 。

1.6

根据式(1.41)可知， $\begin{aligned} \operatorname{cov}[x, y] &=\mathbb{E}_{x, y}[x y]-\mathbb{E}[x] \mathbb{E}[y] \end{aligned}$ 。设变量 $x$ ， $y$ 独立同分布，对应的分布分别为 $p(x)$ 与 $p(y)$ ，则 $\mathbb{E}_{x, y}[x y]=\iint xyp(xy)\mathrm{d}x\mathrm{d}y=\iint xyp(x)p(y)\mathrm{d}x\mathrm{d}y= \int yq(y)\int xp(x)\mathrm{d}x\mathrm{d}y$ ，由于第二个积分与第一个积分项无关（相互独立，两者之间没有函数关系），因此可以拎出来，得 $\mathbb{E}_{x, y}[x y]=\int xp(x)\mathrm{d}x\int yq(y)\mathrm{d}y=\mathbb{E}[x]\mathbb{E}[y]$ ，所以在两变量互相独立的情况下， $\begin{aligned} \operatorname{cov}[x, y] &=\mathbb{E}_{x, y}[x y]-\mathbb{E}[x] \mathbb{E}[y] \end{aligned}=0$ 。

1.7

令 $x=r \cos \theta$ ， $y=r\sin \theta$ ，满足 $x^2+y^2=r^2$ 且 $r\ge 0$ ，则原来的积分式可以写成 $I^{2}=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \exp \left(-\frac{1}{2 \sigma^{2}} x^{2}-\frac{1}{2 \sigma^{2}} y^{2}\right) \mathrm{d} x \mathrm{d} y=\int_o^{2 \pi}\int_0^{\infty}\exp(-\frac{1}{2\sigma^2}r^2)r\mathrm{d}r\mathrm{d}\theta$ ，使用 $u=r^2$ 代换，

所以 $I^{2}=\frac{1}{2}\int_o^{2 \pi}\int_0^{\infty}\exp(-\frac{1}{2\sigma^2}u)\mathrm{d}u\mathrm{d}\theta=\frac{1}{2}\int_{0}^{2\pi}(-2\sigma^2)\exp(-\frac{1}{2\sigma^2}u)|_0^{\infty}\mathrm{d}\theta=2\pi\sigma^2$ ，所以 $I=\left(2 \pi \sigma^{2}\right)^{1 / 2}$ 。

1.8

式(1.46)为 $\mathcal{N}\left(x | \mu, \sigma^{2}\right)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\}=p(x-\mu)$ ，即要证明 $\int_{-\infty}^{+\infty}x\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\}\mathrm{d}x=\int_{-\infty}^{\infty}xp(x-\mu)\mathrm{d}x=\mu$ 。先抛开该式不谈，我们需要换元，且必须手头拿到一个已知的东西，那么我们首先有 $\int_{-\infty}^{+\infty}(x-\mu)\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\}\mathrm{d}(x-\mu)=0$ ，这个比较简单，根据奇函数积分为 $0$ 可得，然后我们把这个式子在 $(x-\mu)$ 这里展开，可以看到即 $\int_{-\infty}^{\infty}xp(x-\mu)\mathrm{d}(x-\mu)-\mu\int_{-\infty}^{\infty}p(x-\mu)\mathrm{d}(x-\mu)=\int_{-\infty}^{\infty}xp(x-\mu)\mathrm{d}x-\mu=0$ ，所以 $\int_{-\infty}^{\infty}xp(x-\mu)\mathrm{d}x=\mu$ ，亦即 $\mathbb{E}[x]=\int_{-\infty}^{\infty} \mathcal{N}\left(x | \mu, \sigma^{2}\right) x \mathrm{d} x=\mu$ 。

第二小问要求验证式(1.50)的正确性。在题目1.7中我们得到 $\int_{-\infty}^{\infty} \exp \left(-\frac{1}{2 \sigma^{2}} (x-\mu)^{2}\right) \mathrm{d} x = \left(2 \pi \sigma^{2}\right)^{1 / 2}$ ，在等式两边对 $\sigma^2$ 求导可得 $\int_{-\infty}^{\infty}\exp\{-\frac{(x-\mu)^2}{2\sigma^2}\}\frac{2(x-\mu)^2}{(2\sigma^2)^2}\mathrm{d}x=\frac{\pi}{(2\pi \sigma)^{1/2}}$ ，将式子整理后为： $\int_{-\infty}^{\infty}\frac{1}{(2\pi\sigma^2)^{1/2}}\exp\{-\frac{(x-\mu)^2}{2\sigma^2}\}(x-\mu)^2\mathrm{d}x= \sigma^{2}=\mathbb{E}[(x-\mu)^2]$ ，又因为 $\mathbb{E}[(x-\mu)^2]=\mathbb{E}[x^2-2\mu x+\mu^2]=\mathbb{E}[x^2]-2\mu\mathbb{E}[x]+\mu^2$ ，而我们在上一小问已经知道 $\mathbb{E}[x]=\mu$ ，所以全部带进去可得， $\sigma^2=\mathbb{E}[x^2]-\mu^2$ ，所以 $\mathbb{E}[x^2]=\sigma^2+\mu^2$ ，从而证得式(1.50)。这样一来，式(1.51)也就顺理成章地成立了。

1.9

单元高斯分布的极大值可以通过对其概率分布函数求导得到极值对应的坐标 $x=\mu$ ，不做赘述。

多元高斯分布函数为 $\mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma})=\frac{1}{(2 \pi)^{D / 2}} \frac{1}{|\mathbf{\Sigma}|^{1 / 2}} \exp \left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\}$ ，同样进行求导，这里要用到矩阵的求导法则，得 $\frac{\partial\mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma})}{\partial \mathbf{x}}=-\frac{1}{2}\mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma})\nabla_{\mathbf{x}}\left\{(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\}=-\frac{1}{2}\mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma})\nabla_{\mathbf{x}-\boldsymbol{\mu}}\left\{(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\}$ ，利用PRML(C.19)和(C.20)公式，令 $\mathbf{A}=(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}$ ， $\mathbf{B}=\mathbf{x}-\boldsymbol{\mu}$ ，则很容易得到 $\frac{\partial\mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma})}{\partial \mathbf{x}}=-\mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})$ ，在推导过程中需要注意的是 ${\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})=(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}}{\Sigma}^{-1}$ ，这是由于 $\mathbf{x}-\boldsymbol{\mu}$ 是向量所导致的。那么根据求得的导数，同样在 $\mathbf{x}=\boldsymbol{\mu}$ 时取得极值。

1.10

$\mathbb{E}[x+z]=\iint (x+z)p(x,z)\mathrm{d}x\mathrm{d}z=\iint (x+z)p(x)p(z)\mathrm{d}x\mathrm{d}z=\iint xp(x)p(z)\mathrm{d}x\mathrm{d}z+\iint zp(z)p(x)\mathrm{d}x\mathrm{d}z$

对于右侧的式子，由于 $x$ 与 $z$ 相互独立， $p(z)$ 的积分为1，因此第一项即为 $\int xp(x)\mathrm{d}x=\mathbb{E}[x]$ ，同理第二项为 $\mathbb{E}[z]$ ，所以 $\mathbb{E}[x+z]=\mathbb{E}[x]+\mathbb{E}[z]$ 。

$\operatorname{var}[x+z]=\mathbb{E}[(x+z)^2]-(\mathbb{E}[x+z])^2$ ，代入第一小问的结果，得到所求方差为 $\mathbb{E}[x^2+z^2+2xz]-(\mathbb{E}[x]+\mathbb{E}[x])^2=\mathbb{E}[x^2]+\mathbb{E}[z^2]+2\mathbb{E}[xz]-(\mathbb{E}[x])^2-(\mathbb{E}[z])^2-2\mathbb{E}[x]\mathbb{E}[z]$ ，

又根据题目1.6的结论，化简得到 $\operatorname{var}[x+z]=\mathbb{E}[x^2]+\mathbb{E}[z^2]-(\mathbb{E}[x])^2-(\mathbb{E}[z])^2=\operatorname{var}[x]+\operatorname{var}[z]$ 。

1.11

令 $y=\ln p\left(\mathbf{x} | \mu, \sigma^{2}\right)=-\frac{1}{2 \sigma^{2}} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}-\frac{N}{2} \ln \sigma^{2}-\frac{N}{2} \ln (2 \pi)$ ，可以得到 $\frac{\partial y}{\partial \mu}=-\frac{1}{\sigma^2}\sum_{n=1}^{N}(\mu-x_n)=0$ ，所以 $\sum_{n=1}^{N}(\mu-x_n)=0$ ，所以 $\sum_{n=1}^{N}\mu-\sum_{n=1}^{N}x_n=N\mu-\sum_{n=1}^{N}x_n=0$ ，所以 $\mu_{\mathrm{ML}}=\frac{1}{N} \sum_{n=1}^{N} x_{n}$ 。

$\frac{\partial y}{\partial \sigma^2}=-\frac{2}{(2\sigma^2)^2}\sum_{n=1}^{N}(x_n-\mu_{\mathrm{ML}})^2-\frac{N}{2\sigma^2}=0$ ，很容易得到 $\sigma_{\mathrm{ML}}^{2}=\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\mu_{\mathrm{ML}}\right)^{2}$ 。

1.12

这题其实第一小问挺迷的，主要问题在于为什么作者要使用不同的下标来表示是否独立，或者说，如果作者你想表达这个意思，那你就应该明说啊我透。这样子一来就比较简单明了了，若 $n=m$ ，则 $\mathbb{E}[x_n^2]$ 根据式(1.50)很容易得到 $\mathbb{E}[x_n^2]=\mu^2+\sigma^2$ ，下标为 $m$ 时相同。若 $n\ne m$ ，那么按照作者的意思，就是说这俩变量相互独立，所以 $\mathbb{E}[x_nx_m]=\mathbb{E}[x_n]\mathbb{E}[x_m]=\mu^2$ 。

其实作者是想用第一小问作为引子来帮助我们证明式(1.57)和式(1.58)，那么实际上我是觉得没必要这么麻烦，我们直接证明这两个式子即可，无需绕他给的这条弯路。

对于第一个式子，求取最大似然分布的均值的期望，我们这里假设总共取了 $K$ 次数据，每一次都取 $N$ 个数据来进行极大似然估计， $x_{kn}$ 表示第 $k$ 次取的第 $n$ 个数据，那么 $\mathbb{E}[\mu_{\mathrm{ML}}]=\frac{1}{K}\sum_{k=1}^K[\frac{1}{N}\sum_{n=1}^Nx_{kn}]=\frac{1}{KN}\sum_{k=1}^{K}\sum_{n=1}^Nx_{kn}$ ，到这里，我们先停一下，假设我们每次取的数据有限，也就是 $N$ 有限，但是我们一直取一直取，也就是说 $K$ 无限，那么这里就可以看做我对整个分布上所有的 $x$ 都取到了，从而推得 $x_{kn}$ 的均值就是正态分布 $\mathcal{N}\left(x | \mu, \sigma^{2}\right)$ 的均值 $\mu$ ，所以 $\mathbb{E}[\mu_{\mathrm{ML}}]=\mu$ ，这就证明了式(1.57)。

对于式(1.58)，首先依旧采取我们之前的取数据规定，同时将方差的计算公式展开， $\mu_{k\mathrm{ML}}$ 为第 $k$ 次取得的数据的均值，则 $\mathbb{E}[\sigma_{\mathrm{ML}}^2]=\frac{1}{K}\sum_{k=1}^K[\frac{1}{N}\sum_{n=1}^N(x_{kn}-\mu_{k\mathrm{ML}})^2]=\frac{1}{K}\sum_{k=1}^K[\frac{1}{N}\sum_{n=1}^N(x_{kn}^2-2x_{kn}\mu_{k\mathrm{ML}}+ \mu_{k\mathrm{ML}}^2)]$ ，这就可以拆分为三项，其中第一项与 $x_{kn}^2$ 相关，沿用上面的思路，相当于取遍了所有的 $x_{kn}$ ，所以 $\frac{1}{K}\sum_{k=1}^K[\frac{1}{N}\sum_{n=1}^Nx_{kn}^2]=\mathbb{E}[x^2]=\mu^2+\sigma^2$ ，后面两项可以写成 $\frac{1}{K}\sum_{k=1}^K[-2\mu_{k\mathrm{ML}}\frac{1}{N}\sum_{n=1}^Nx_{kn}]+\frac{1}{K}\sum_{k=1}^K[\frac{1}{N}\sum_{n=1}^N( \mu_{k\mathrm{ML}}^2)]$ ，也就是 $\frac{1}{K}\sum_{k=1}^K[-2\mu_{k\mathrm{ML}}^2]+\frac{1}{K}\sum_{k=1}^K[\mu_{k\mathrm{ML}}^2]=-\frac{1}{K}\sum_{k=1}^K[\mu_{k\mathrm{ML}}^2]$ ，这就比较明白了，后面两项就是 $-\mathbb{E}[\mu_{\mathrm{ML}}^2]$ ，因此 $\mathbb{E}[\sigma_{\mathrm{ML}}^2]=\mu^2+\sigma^2-\mathbb{E}[\mu_{\mathrm{ML}}^2]$ ，所以我们就要求这个 $\mathbb{E}[\mu_{\mathrm{ML}}^2]$ ，这个表达式的含义就是每一次取得的数据的均值的平方的平均值（期望），那么就有 $\mathbb{E}[\mu_{\mathrm{ML}}^2]=\sigma_{\mu_{\mathrm{ML}}}^2+(\mathbb{E}[\mu_{\mathrm{ML}}])^2$ ，根据公式(1.57)，我们进一步得到 $\mathbb{E}[\mu_{\mathrm{ML}}^2]=\sigma_{\mu_{\mathrm{ML}}}^2+\mu^2$ ，所以 $\mathbb{E}[\sigma_{\mathrm{ML}}^2]=\mu^2+\sigma^2-\mathbb{E}[\mu_{\mathrm{ML}}^2]=\sigma^2-\sigma_{\mu_{\mathrm{ML}}}^2$ ，所以任务又进一步变为求这个 $\sigma_{\mu_{\mathrm{ML}}}^2=\operatorname{var}[\mu_{\mathrm{ML}}]$ ，而 $\operatorname{var}[\mu_{\mathrm{ML}}]=\operatorname{var}[\frac{1}{N}\sum_{n=1}^N x_n]=\frac{1}{N^2}\sum_{n=1}^N \operatorname{var}[x_n]=\frac{1}{N^2}\sum_{n=1}^N \sigma^2=\frac{\sigma^2}{N}$ 。

所以就有 $\mathbb{E}[\sigma_{\mathrm{ML}}^2]=\mu^2+\sigma^2-\mathbb{E}[\mu_{\mathrm{ML}}^2]=\sigma^2-\frac{\sigma^2}{N}=\frac{N-1}{N}\sigma^2$ 。

PS：我用MATLAB做了一下实验，与理论完全相符，式(1.57)和式(1.58)实际上也可以从直观上进行理解，这里就不详细说了。

1.13

根据题目(1.12)的推导，这题就很简单了，将 $\mathbb{E}[\mu_{\mathrm{ML}}^2]$ 代换为 $\mathbb{E}[\mu^2]=\mu^2$ 即可，那很显然 $\mathbb{E}[\sigma_{\mathrm{ML}}^2]=\mu^2+\sigma^2-\mu^2=\sigma^2$ 。此时，方差的期望也就是无偏的了。

1.14

如果可以写成题目要求的形式（设原矩阵为 $\mathrm{W}$ ，要写成 $\mathrm{W}=\mathrm{S}+\mathrm{A}$ ），那首先可以很容易推断出 $\mathrm{A}$ 的对角线上的元素都是 $0$ ，所以 $\mathrm{S}$ 对角线上的元素就是 $\mathrm{W}$ 对角线上的元素。接着就是要证明 $\mathrm{S}$ 和 $\mathrm{A}$ 的其余元素也是可解出来的，因为 $w_{ij}=w_{ij}^{\mathrm{S}}+w_{ij}^{\mathrm{A}}$ ，同时 $w_{ji}=w_{ji}^{\mathrm{S}}+w_{ji}^{\mathrm{A}}=w_{ij}^{\mathrm{S}}-w_{ij}^{\mathrm{A}}$ ，这就可以得到构成一个二元一次方程组，由于参数对应的矩阵的秩为 $2$ ，因此方程组必然有解，所以可以写成题目要求的形式。

$\sum_{i=1}^{D}\sum_{j=1}^{D}x_i w_{ij}x_j=\mathrm{x^T W x}=\mathrm{x^T (S+A) x}=\mathrm{x^T S x +x^T A x}$ ，现在重点关注一下 $\mathrm{x^T A x}$ 这一项，因为 $\mathrm{x^T A x}=\sum_{i=1}^{D}\sum_{j=1}^{D}x_i w_{ij}^{\mathrm{A}}x_j$ ，那么 $\mathrm{A}$ 的对角线元素皆为 $0$ ，同时对称元素互为相反数，（注意， $\mathrm{A}$ 和另外两个矩阵都是方阵，这是前提条件），相当于 $x_i w_{ij}^{\mathrm{A}}x_j+x_j w_{ji}^{\mathrm{A}}x_i=0$ ，所以 $\mathrm{x^T A x}=0$ ，所以 $\sum_{i=1}^{D}\sum_{j=1}^{D}x_i w_{ij}x_j=\mathrm{x^T W x}=\mathrm{x^T S x +x^T A x}=\mathrm{x^T S x}=\sum_{i=1}^{D}\sum_{j=1}^{D}x_i w_{ij}^{\mathrm{S}}x_j$ 。

最后一小问就相当于问我们矩阵 $\mathrm{S}$ 的对角线以及上（或下）三角部分一共有几个元素，使用数列求和的方式，我们得到 $1+2+3+\dots+D=D(D+1)/2$ ，因此独立的元素数量就是这么多。

1.15

根据题目1.14可知，由所有 $w_{i_{1}i_{2}\dots i _{M}}$ 构成的高维张量也是一个高维对称张量，其中的独立元素使用 $\tilde{w}_{i_{1}i_{2}\dots i _{M}}$ 表示，此时要证明的式子就比较好理解了，由于张量的对称性质，其余元素都是非独立的，因此均可不做考虑，在根据 $i_{1}$ 至 $i_{M}$ 确定了张量的维度顺序后，假设 $i_1 = 1$ ，那么由于剩下的维度中非独立元素所处的维度小于等于第一维的维度，因此 $i_2$ 的上限是 $i_1$ ，同理，剩下的和式也是可以推出来的。由此我们可以得到形式为 $\sum_{i_{1}=1}^{D} \sum_{i_{2}=1}^{i_{1}} \cdots \sum_{i_{M}=1}^{i_{M-1}} \widetilde{w}_{i_{1} i_{2} \cdots i_{M}} x_{i_{1}} x_{i_{2}} \cdots x_{i_{M}}$ 。

Tips：实际上我还是没有想明白对称的高维张量是长啥样的。

接着要证明 $n(D, M)=\sum_{i=1}^{D} n(i, M-1)$ ，这个也很简单，就将上面第一问的结果拿来用，最外围的求和就是在 $i_1$ 从 $1$ 取到 $D$ 的过程中后方所有项的求和，而 $i_2$ 到 $i_M$ 一共有 $M-1$ 项，所以得证。这个递推式还是比较直观的。

第三小问归纳法也很直接， $D=1$ 的情况下， $\sum_{i=1}^{D} \frac{(i+M-2) !}{(i-1) !(M-1) !}=\frac{(M-1)!}{(M-1)!}=1=\frac{(D+M-1) !}{(D-1) ! M !}=\frac{(1+M-1) !}{(1-1) ! M !}=\frac{M!}{M!}$ ，此时等式成立，假设取数字 $D$ 时，等式成立，则 $\sum_{i=1}^{D} \frac{(i+M-2) !}{(i-1) !(M-1) !}=\frac{(D+M-1) !}{(D-1) ! M !}$ ，则取数字 $D+1$ 时， $\sum_{i=1}^{D+1} \frac{(i+M-2) !}{(i-1) !(M-1) !}=\sum_{i=1}^{D} [\frac{(i+M-2) !}{(i-1) !(M-1) !}]+\frac{(D+M-1) !}{D ! (M-1) !}=\frac{(D+M-1) !}{(D-1) ! M !}+\frac{(D+M-1) !}{D ! (M-1) !}=\frac{(D+M)(D+M-1)!}{D!M!}$ ，所以 $\sum_{i=1}^{D+1} \frac{(i+M-2) !}{(i-1) !(M-1) !}=\frac{(D+M)!}{D!M!}=\frac{(D+1+M-1)!}{(D+1-1)!M!}$ ，说明该式在 $D+1$ 时仍旧成立，从而归纳得证。

对于任意 $D \ge 1$ ，取 $M=2$ ，则有 $n(D, M)=\frac{(D+M-1) !}{(D-1) ! M !}=\frac{(D+1) !}{(D-1) !2 !}=\frac{D(D+1)}{2}$ ，正如我们在题目1.14中得到结果一样。现在假设 $M-1$ 时，该式成立，即 $n(D, M-1)=\frac{(D+M-2) !}{(D-1) ! (M-1) !}$ ，而 $n(D, M)=\sum_{i=1}^{D} n(i, M-1)=\sum_{i=1}^{D} \frac{(i+M-2) !}{(i-1) ! (M-1) !}$ ，又因为 $\sum_{i=1}^{D} \frac{(i+M-2) !}{(i-1) !(M-1) !}=\frac{(D+M-1) !}{(D-1) ! M !}$ ，所以 $n(D, M)=\frac{(D+M-1) !}{(D-1) ! M !}$ ，所以在 $M$ 时，该式依旧成立，从而归纳得证。

1.16

第一小问很直观，根据式(1.74)可知， $n(D,M)$ 仅表征了第 $M$ 阶参数的独立元素个数，现在的 $N(D,M)$ 相当于求取所有阶（ $0$ 阶到 $M$ 阶）的独立参数数量，因此 $N(D, M)=\sum_{m=0}^{M} n(D, m)$ 。

第二小问，当 $M=0$ 时， $N(D, M)=\frac{(D+M) !}{D ! M !}=1$ ，这与实际相符，当仅含有 $0$ 阶时，由于 $x$ 无关，所以实际上就一个常数项，因此参数的数量就是 $1$ 。现在假设 $M$ 时成立，即 $N(D, M)=\frac{(D+M) !}{D ! M !}$ ，则取 $M+1$ 时， $N(D, M+1)=\frac{(D+M) !}{D ! M !}+n(D,M+1)=\frac{(D+M) !}{D ! M !}+\frac{(D+M) !}{(D-1) ! (M+1) !}=\frac{(M+1)(D+M)!+D(D+M)!}{D!(M+1)!}=\frac{(D+M+1)!}{D!(M+1)!}$ ，这里使用了式(1.137)的结论，从而归纳得证。

第三小问使用了斯特林公式 $n ! \simeq n^{n} e^{-n}$ ，若 $D \gg M$ ，则 $N(D, M)=\frac{(D+M) !}{D ! M !} \simeq \frac{(D+M)!}{D!} \simeq \frac{(D+M)^{D+M}e^{-(D+M)}}{D^De^{-D}} \simeq \frac{(D+M)^{D+M}}{D^D} \simeq \frac{D^{D+M}}{D^D}=D^M$ ，同理，若 $M \gg D$ ，则有 $N(D, M)=\frac{(D+M) !}{D ! M !} \simeq \frac{(D+M)!}{M!} \simeq \frac{(D+M)^{D+M}e^{-(D+M)}}{M^Me^{-M}} \simeq \frac{(D+M)^{D+M}}{M^M} \simeq \frac{M^{D+M}}{M^M}=M^D$ ，从而得证。

$N(10, 3)=\frac{(10+3) !}{10 ! 3 !}=286$ ， $N(100, 3)=\frac{(100+3) !}{100 ! 3 !}=176851$ 。

1.17

已知 $\Gamma(x) \equiv \int_{0}^{\infty} u^{x-1} e^{-u} \mathrm{d} u$ ，根据分部积分法，可以得到 $\Gamma(x)=\int_{0}^{\infty}-u^{x-1}\mathrm{d}e^{-u}=-u^{x-1}e^{-u}|_0^{\infty}+\int_{0}^{\infty}e^{-u}\mathrm{d}u^{x-1}=\int_{0}^{\infty}e^{-u}\mathrm{d}u^{x-1}$ ，前半部分的积分为 $0$ 不做赘述，简单说明一下就是 $x$ 是有限项，而 $u$ 取无限大项时，无限大的有限次方除以 $e$ 的无限大次方时趋近于 $0$ ，你也可以用MATLAB测试一下。而 $\Gamma(x+1)=\int_{0}^{\infty}e^{-u}\mathrm{d}u^{x}=\int_{0}^{\infty}xe^{-u}\mathrm{d}u^{x-1}=x\Gamma(x)$ ，得证。

$\Gamma(1)=\int_{0}^{\infty}e^{-u}\mathrm{d}u=-e^{-u}|_0^{\infty}=1$ ，得证。

若 $x$ 为整数，那么 $\Gamma(x+1) = \int_{0}^{\infty}e^{-u}\mathrm{d}u^{x}$ ，式子中，微分项 $u^{x}$ 的次幂就可以一直取下来，得到 $\Gamma(x+1) = \int_{0}^{\infty}e^{-u}\mathrm{d}u^{x}=x!\int_{0}^{\infty}e^{-u}\mathrm{d}u=x!$ 。

1.18

有一个疑问，式(1.142)中，为何就称那一项为 $S_D$ 的呢？凭什么那一项所代表的的含义就是 $D$ 维空间中单位球体的表面积呢？我自己想了一下，但是也只是一个头绪，我们看一下题目1.7中的计算过程，其中有一步是算到了 $I^{2}=\int_o^{2 \pi}\int_0^{\infty}\exp(-\frac{1}{2\sigma^2}r^2)r\mathrm{d}r\mathrm{d}\theta$ ，为了和本题结合，我们取 $\sigma^2=1/2$ ，则有 $I^{2}=\int_o^{2 \pi}\int_0^{\infty}\exp(-r^2)r\mathrm{d}r\mathrm{d}\theta$ ，将这个公式对照题目1.18里面的式(1.142)，就可以看到， $S_D$ 就是我们算出来的这个双重积分项 $\int_o^{2 \pi}\int_0^{\infty}\exp(-r^2)r\mathrm{d}r\mathrm{d}\theta$ 除以这个积分项内层的积分，简单来说，通过这么一个除法，原本对于整个平面的积分（ $r$ 从 $0$ 取到 $\infty$ ），变成了单位长度，同时又消除了 $\exp (-r^2)$ 这一项的积分影响，相当于算了一个在极小角度下的单位半径的扇形的面积，那么再对这个扇形进行角度上的积分，转一圈就得到了单位圆的面积。所以式(1.142)就是这个过程在更高维空间的一个推广。这是我的理解。

首先，根据式(1.126)，可以推知， $\prod_{i=1}^{D} \int_{-\infty}^{\infty} e^{-x_{i}^{2}} \mathrm{d} x_{i}=\pi^{D/2}$ ，简单说一下就是，根据式(1.126)，我们知道在 $D=2$ 的时候， $\prod_{i=1}^{2} \int_{-\infty}^{\infty} e^{-x_{i}^{2}} \mathrm{d} x_{i}=\pi$ ，所以就比较明显了。这样子我们就有了左式的值，对于右式，可以转化为 $S_{D} \int_{0}^{\infty} e^{-r^{2}} r^{D-1} \mathrm{d} r=S_D\frac{1}{2}\int_0^{\infty}e^{-r^2}(r^2)^{D/2-1}\mathrm{d}r^2$ ，根据题目1.17，也就可以看出， $S_{D} \int_{0}^{\infty} e^{-r^{2}} r^{D-1} \mathrm{d} r=S_D\frac{1}{2}\Gamma(D/2)$ ，所以 $\pi^{D/2}=S_D\frac{1}{2}\Gamma(D/2)$ ，所以 $S_{D}=\frac{2 \pi^{D / 2}}{\Gamma(D / 2)}$ 。

同样用简单一点的情况来帮助我们理解复杂的高维情况，比如说我们现在知道一个单位圆的周长，如何得到单位圆的面积呢，已知单位圆周长为 $2\pi$ ，面积就相当于这个单位圆向内放缩后直至变成零点的所有圆的周长积分，同时，还需要了解一个基本事实，那就是在一个 $D$ 维空间中，其体积的大小正比于 $r^D$ ，而表面积则正比于 $r^{D-1}$ 。现在我们举的例子是在 $2$ 维空间下，因此二维单位圆面积就等于 $\int_0^1 2\pi r^{2-1}\mathrm{d}r=\pi$ ，这也符合我们已知的先验事实。因此， $V_D=\int_0^1S_D r^{D-1}\mathrm{d}r=S_D \frac{1}{D}r^D|_0^1=\frac{S_D}{D}$ 。

$D=2$ 时， $S_D=2\pi$ ， $V_D=\pi$ ， $D=3$ 时， $S_D=4\pi$ ， $V_D=\frac{4}{3}\pi$ 。

多说一点，PRML书中说在高维空间中，球体体积就几乎完全贴近表面分布，其实在 $2$ 维单位圆中这种现象就已经初现端倪了，在刚刚给出的求出单位圆面积的积分过程中，很明显越靠近圆心的单位圆，其周长越小，对整个圆的表面积贡献越小，而半径越接近 $1$ 的圆其周长越大，对整个圆的表面积贡献就越大，这种效应在高维空间中会表现得更加显著，因为往高维变化的过程中，周长正比于半径的 $D-1$ 次方，次幂会加剧这种拉扯。感性理解一下就好。

1.19

半径为 $a$ 的 $D$ 维超球，体积就是 $\int_0^a S_D r^{D-1}\mathrm{d}r=S_D a^D/D$ ，而边长为 $2a$ 的 $D$ 维超立方体体积很容易求得为 $2^Da^D$ ，因此 $\frac{\operatorname{volume of sphere} }{\operatorname{volume of cube} }=\frac{S_D}{D2^D}=\frac{\frac{2 \pi^{D / 2}}{\Gamma(D / 2)}}{D2^D}=\frac{\pi^{D / 2}}{D 2^{D-1}\Gamma(D / 2)}$ 。因此在超高维空间中，单位超球的体积对于包络住这个单位超球的超立方体而言是微不足道的。

第二小问这个直接带进去，很容易看到趋近于 $0$ ，不做赘述。

$D$ 维空间中，边长为 $2a$ 的超立方体的中心到角落的距离为 $\sqrt{\sum_1^D a^2}=\sqrt{Da^2}=\sqrt{D}a$ ，所以其与半径之比就是 $\sqrt{D}$ 。如果你要问为什么这么求，其实依然是可以从简单的情况出发的，比如说在三维空间中，你为了求出立方体的中心到角落的距离，就是使用两次勾股定理，相当于进行两次降维，最终到达角落所处的点。如果从线性代数的角度来说的话，就是我们沿着标准基的方向走。还是比较好理解的。

1.20

式(1.148)可以直观得到，在使用 $r$ 作为随机变量后，一个随机变量对应的几何形式就是“一周”，例如二维高斯分布中，依题目中均值均为 $0$ ，且方差相等的设置，同一 $r$ 对应的就是以原点为中心的圆形，因此其对应的概率函数就是“周长”乘以对应的概率值，即 $p(r)=\frac{S_D r^{D-1}}{(2\pi \sigma^2)^{D/2}}\exp (-\frac{r^2}{2\sigma^2})$ 。

第二小问 $\frac{\mathrm{d}p(r)}{\mathrm{d}r}=\frac{(D-1)S_D r^{D-2}}{(2\pi \sigma^2)^{D/2}}\exp (-\frac{r^2}{2\sigma^2})+\frac{-S_D r^{D}}{\sigma^2(2\pi \sigma^2)^{D/2}}\exp (-\frac{r^2}{2\sigma^2})=0$ ，等式两边除以一些共有项，则有 $(r^{D-2})(D-1)=\frac{r^{D}}{\sigma^2}$ ，因为 $D$ 足够大，因此可以转化为 $(r^{D-2})D \simeq \frac{r^{D}}{\sigma^2}$ ，所以 $\hat{r}\simeq \sqrt{D}\sigma$ 。

已知 $p(r) \propto r^{D-1} \exp (-\frac{r^2}{2\sigma^2})=\exp \{-\frac{r^2}{2 \sigma^2}+(D-1)\ln (r)\}$ ，需要注意，式子中省略了 $\frac{S_D}{(2\pi \sigma^2)^{D/2}}$ 这一项，在驻点附近，使用泰勒级数展开，以求出 $\ln (\hat{r}+\epsilon)$ ，所以 $p(\hat{r}+\epsilon) \propto\exp \{-\frac{(\hat{r}+\epsilon)^2}{2 \sigma^2}+(D-1)\ln (\hat{r}+\epsilon)\}$ ，而 $\ln (\hat{r}+\epsilon)\simeq \ln(\hat{r})+\frac{1}{\hat{r}}\epsilon-\frac{1}{2\hat{r}^2}\epsilon^2$ ，放进去就可以得到 $p(\hat{r}+\epsilon) \propto\exp \{-\frac{(\hat{r}+\epsilon)^2}{2 \sigma^2}+(D-1)( \ln(\hat{r})+\frac{1}{\hat{r}}\epsilon-\frac{1}{2\hat{r}^2}\epsilon^2)\}=\hat{r}^{D-1}\exp(-\frac{(\hat{r}+\epsilon)^2}{2 \sigma^2}+(D-1)(\frac{1}{\hat{r}}\epsilon-\frac{1}{2\hat{r}^2}\epsilon^2))$ ，在指数项中代入 $\hat{r}\simeq \sqrt{D}\sigma$ ，同时由于 $D$ 很大，因此得到 $p(\hat{r}+\epsilon) \propto\hat{r}^{D-1}\exp(-\frac{(\hat{r}+\epsilon)^2}{2 \sigma^2}+\frac{2\hat{r}\epsilon-\epsilon^2}{2\sigma^2})$ ，也就是 $p(\hat{r}+\epsilon) \propto\hat{r}^{D-1}\exp(-\frac{\hat{r}^2}{2 \sigma^2}-\frac{2\epsilon^2}{2\sigma^2})$ ，所以 $p(\hat{r}+\epsilon)=p(\hat{r})\exp(-\frac{\epsilon^2}{\sigma^2})$ 。这里我算出来和题目给的不一样，我检查了好几遍，级数展开那边是没有问题的。留待观察吧。

$p(||\mathbf{x}||=\mathbf{0})=\frac{1}{(2\pi \sigma^2)^{D/2}}$ ， $p(||\mathbf{x}||=\hat{r})=\frac{1}{(2\pi \sigma^2)^{D/2}}\exp(-D/2)$ ，因此 $p(||\mathbf{x}||=\mathbf{0})=p(||\mathbf{x}||=\hat{r})\exp(-D/2)$ 。

1.21

因为 $0 \le a \le b$ ，所以 $a^2 \le ab$ ，所以 $a \le (ab)^{1/2}$ 。

[外链图片转存失败(img-2amJrAcX-1565057031898)(.\curve.jpg)]

这里我按照书中的Figure 1.24绘制了上图，按照最小化误差率进行了分割，那么可以看到，两条概率曲线是有重合的部分的，我设其对应的随机变量取值分别为 $K_1$ 和 $K_3$ ，而分割处对应的随机变量为 $K_2$ ，由式(1.78)可知， $p(\operatorname{mistake})=\int_{\mathcal{R_1}}p(\mathbf{x, \mathcal{C}_2})\mathrm{d}\mathbf{x}+\int_{\mathcal{R_2}}p(\mathbf{x, \mathcal{C}_1})\mathrm{d}\mathbf{x}$ ，那么根据上面这种图片（左峰是 $p(\mathbf{x}, \mathcal{C}_1)$ ），我们更加精确地表达这个式子，即 $p(\operatorname{mistake})=\int_{K_1}^{K_2}p(\mathbf{x, \mathcal{C}_2})\mathrm{d}\mathbf{x}+\int_{K_2}^{K_3}p(\mathbf{x, \mathcal{C}_1})\mathrm{d}\mathbf{x}=$ $a$ ，而在随机变量取值 $K_1$ 至 $K_3$ 之间的全部面积，其面积大小为 $b=\int_{K_1}^{K_2}p(\mathbf{x, \mathcal{C}_1})\mathrm{d}\mathbf{x}+\int_{K_2}^{K_3}p(\mathbf{x, \mathcal{C}_2})\mathrm{d}\mathbf{x}$ ，可以看到 $0 \le a \le b$ ，因此就有 $p(\operatorname{mistake}) \le (ab)^{1/2}$ ，积分决定了两项之间是否能够相乘，因此就有 $(ab)^{1/2}=\int_{K_1}^{K_3}\{p(\mathbf{x, \mathcal{C}_1})p(\mathbf{x, \mathcal{C}_2})\}^{1/2}\mathrm{d}\mathbf{x}$ ，从而得证。

1.22

根据式(1.80)可知，当损失矩阵按照题目的意思设置时， $\mathbb{E}[L]=\sum_k\sum_{j(j \ne k)}\int_{\mathcal{R}_j}p(\mathbf{x},\mathcal{C}_k)\mathrm{d}\mathbf{x}$ ，此时该式就相当于最小化 $p(\operatorname{mistake})$ 因此也就相当于退化为，谁的后验概率大就取谁的值。简单来说就是，这种损失矩阵对于所有的错误判断都一视同仁，权重都是 $1$ ，那这时候有没有这个损失矩阵都没差别了。也就变成了前一小节所说的最小化错误分类概率。

1.23

对于某一类，如 $\mathcal{C}_j$ ，按照式(1.81)，就相当于对该类最小化 $\sum_k L_{kj}p(\mathcal{C}_k|\mathbf{x})$ ，而 $p(\mathcal{C}_k|\mathbf{x})=\frac{p(\mathbf{x}|\mathcal{C}_k)p(\mathcal{C}_k)}{p(\mathbf{x})}$ ，所以就要最小化 $\sum_k L_{kj}\frac{p(\mathbf{x}|\mathcal{C}_k)p(\mathcal{C}_k)}{p(\mathbf{x})}$ 。

1.24

这题我刚开始做是比较懵逼的，主要是看不懂题目，太难翻译了有木有。来，我给大家准确梳理一下这道题的意思，分类问题中可以引入损失的权重来计算期望损失，并尽可能最小化该值，先不管什么拒绝选项，那我们可以根据式(1.81)知道，当新来了一个 $\mathbf{x}$ 的时候，我要做的就是遍历所有的 $j$ ，然后看哪个 $j$ 带进去的时候， $\sum_kL_{kj}p(\mathcal{C}_k|\mathbf{x})$ 能取到最小值，而且按照书中的说法，决策论干的这些个事都很简单，毕竟推断的阶段，把那些个求解过程中需要的概率分布都给决策论准备好了。那么现在，我们再引入拒绝选项这个概念，所谓拒绝选项的含义就是，比如说在二分类问题中，就比如上面那张图片，在 $K_2$ 处，这俩的概率是完全相同的，如果从后验概率的角度来说，就是这俩“五五开”。这种时候，数学也很为难，拒绝选项就可以在这种接近于五五开的情况下做出拒绝判断的选择。而题目中给出的 $\lambda$ 就是在使用期望分类损失之后引入的“损失阈值”，说实话，光看题目我愣是没有抿出 $\lambda$ 是这个意思，看了solution又悟了好久才把作者的整个思路弄明白。那就很简单了，所谓的决策就是，在能够使得 $\sum_kL_{kj}p(\mathcal{C}_k|\mathbf{x})$ 取得最小值的情况下，如果该值还是超过 $\lambda$ ，就拒绝，其他情况就分类为能够使得 $\sum_kL_{kj}p(\mathcal{C}_k|\mathbf{x})$ 最小的那个第 $j$ 类。在 $L_{kj}=1-I_{kj}$ 的情况下，与题目1.22一致，此时所有后验分布一视同仁，不厚此薄彼，根据sum rule，就可以得到 $\sum_kp(\mathcal{C}_k|\mathbf{x})=1-p(\mathcal{C}_j|\mathbf{x})$ ，这时候，就是最开始我们接触的没有权重的拒绝选项了。对比Figure 1.26，也很容易得到 $\lambda = 1-\theta$ 。

1.25

已知 $\mathbb{E}[L(\mathbf{t},\mathbf{y}(\mathbf{x}))]=\iint||\mathbf{y}(\mathbf{x})-\mathbf{t}||^2p(\mathbf{x},\mathbf{t})\mathrm{d}\mathbf{x}\mathrm{d}\mathbf{t}$ ，所以可得 $\frac{\delta \mathbb{E}[L(\mathbf{t},\mathbf{y}(\mathbf{x}))]}{\delta \mathbf{y}(\mathbf{x})}=2\int \{\mathbf{y}(\mathbf{x})-\mathbf{t} \} p(\mathbf{x},\mathbf{t})\mathrm{d}\mathbf{t}=0$ ，所以可得 $\mathbf{y}(\mathbf{x}) \int p(\mathbf{x},\mathbf{t}) \mathrm{d} \mathbf{t}=\int \mathbf{t} p(\mathbf{x},\mathbf{t}) \mathrm{d} \mathbf{t}$ 。根据sum rule，可推知 $\mathbf{y}(\mathbf{x}) p(\mathbf{x})=\int \mathbf{t} p(\mathbf{x},\mathbf{t}) \mathrm{d} \mathbf{t}$ ，所以 $\mathbf{y}(\mathbf{x})= \frac{ \int \mathbf{t} p(\mathbf{x},\mathbf{t}) \mathrm{d} \mathbf{t} }{ p(\mathbf{x})}= \int \mathbf{t} p(\mathbf{t}|\mathbf{x}) \mathrm{d} \mathbf{t}=\mathbb{E}_{\mathbf{t}}[\mathbf{t} | \mathbf{x}]$ 。很明显，如果目标量由向量 $\mathbf{t}$ 变为标量 $t$ ，则对应的结果就退化为式(1.89)，即 $y(\mathbf{x})=\mathbb{E}_{t}[t | \mathbf{x}]$ 。

1.26

这道题很简单，依葫芦画瓢即可，那些过程和繁杂的公式我宁可不耗费时间去把它打出来，我有一个疑问，那就是为什么中间的那个交叉项消失了？

先来看式(1.90)的推导过程中的那个式子 $\{ y(\mathbf{x}) - t \}^2 = \{ y(\mathbf{x}) - \mathbb{E}[t|\mathbf{x}] \}^2 + 2\{ y(\mathbf{x}) - \mathbb{E}[t|\mathbf{x}] \} \{ \mathbb{E}[t|\mathbf{x}] - t \} + \{ \mathbb{E}[t|\mathbf{x}] - t \}^2$ ，中间的交叉项在积分过程中即 $\iint 2\{ y(\mathbf{x}) - \mathbb{E}[t|\mathbf{x}] \} \{ \mathbb{E}[t|\mathbf{x}] - t \} p(\mathbf{x},t)\mathrm{d}\mathbf{x}\mathrm{d}t$ ，注意，式子中， $\mathbb{E}[t|\mathbf{x}]$ 是 $\mathbb{E}_t[t|\mathbf{x}]$ 的简写，所以 $\mathbb{E}[t|\mathbf{x}]$ 是关于 $\mathbf{x}$ 的表达式，中间项的积分即 $2\iint \{y(\mathbf{x})\mathbb{E}[t|\mathbf{x}] - y(\mathbf{x}) t - (\mathbb{E}[t|\mathbf{x}])^2 + t\mathbb{E}[t|\mathbf{x}] \} p(\mathbf{x},t)\mathrm{d}\mathbf{x}\mathrm{d}t$ ，这里说白了就是四项之和的双重积分，一项一项来看，忽略掉最前面的系数 $2$ ，第一项为 $\iint y(\mathbf{x})\mathbb{E}[t|\mathbf{x}]p(\mathbf{x},t)\mathrm{d}\mathbf{x}\mathrm{d}t=\int y(\mathbf{x})\mathbb{E}[t|\mathbf{x}] \int p(\mathbf{x},t)\mathrm{d}t \mathrm{d}\mathbf{x}=\int y(\mathbf{x}) \mathbb{E}[t|\mathbf{x}]p(\mathbf{x})\mathrm{d}\mathbf{x}$ ，第二项为 $\iint -y(\mathbf{x})t p(\mathbf{x},t) \mathrm{d}\mathbf{x}\mathrm{d}t=\int -y(\mathbf{x})p(\mathbf{x}) \int t\frac{p(\mathbf{x},t)}{p(\mathbf{x})}\mathrm{d}t \mathrm{d}\mathbf{x}=\int -y(\mathbf{x}) p(\mathbf{x})\mathbb{E}[t|\mathbf{x}]\mathrm{d}\mathbf{x}$ ，这样一来，第一项和第二项就抵消了，第三项为 $\iint -(\mathbb{E}[t|\mathbf{x}])^2p(\mathbf{x},t)\mathrm{d}\mathbf{x}\mathrm{d}t=\int -(\mathbb{E}[t|\mathbf{x}])^2 \int p(\mathbf{x},t)\mathrm{d}t \mathrm{d}\mathbf{x}=\int -(\mathbb{E}[t|\mathbf{x}])^2p(\mathbf{x})\mathrm{d}\mathbf{x}$ ，第四项为 $\iint t\mathbb{E}[t|\mathbf{x}]p(\mathbf{x},t)\mathrm{d}\mathbf{x}\mathrm{d}t=\int \mathbb{E}[t|\mathbf{x}] p(\mathbf{x}) \int t \frac{p(\mathbf{x},t)}{p(\mathbf{x})}\mathrm{d}t \mathrm{d}\mathbf{x}=\int (\mathbb{E}[t|\mathbf{x}])^2p(\mathbf{x})\mathrm{d}\mathbf{x}$ ，这样一来，第三项和第四项也抵消了，如此即可得到式(1.90)的结果。

本题实际上是一样的推导过程，只是由于变成了向量，在处理时需要注意中间项变为了 $(\mathbf{y}(\mathbf{x})-\mathbb{E}[\mathbf{t}|\mathbf{x}])^{\operatorname{T}}(\mathbb{E}[\mathbf{t}|\mathbf{x}] - \mathbf{t}) + (\mathbb{E}[\mathbf{t}|\mathbf{x}] - \mathbf{t})^{\operatorname{T}}(\mathbf{y}(\mathbf{x})-\mathbb{E}[\mathbf{t}|\mathbf{x}])$ ，因此最终结果可以写成 $\mathbb{E}[L]=\int ||\mathbf{y}(\mathbf{x}) - \mathbb{E}[\mathbf{t}|\mathbf{x}]||^2p(\mathbf{x})\mathrm{d}\mathbf{x}+\int \operatorname{var}[\mathbf{t}|\mathbf{x}]p(\mathbf{x})\mathrm{d}\mathbf{x}$ 。

1.27

实话说，看到这题的我也是懵逼的，说起来很简单，就是要保证 $\mathbb{E}[L_q]$ 可微，且其微分等于 $0$ 是有解的。但是问题来了，对谁微分呢？考虑到问题中问的是 $y(\mathbf{x})$ 需要满足的条件，而双重积分的微分也是相当棘手，所以最终我还是翻看了solution。作者的意思是既然 $y(\mathbf{x})$ 是由我们选择的，同时 $p(t,\mathbf{x})$ 正比于 $p(t|\mathbf{x})$ ，那么这个双重积分也就可以表达为 $\int |y(\mathbf{{x}})-t|^q p(t|\mathbf{x})\mathrm{d}t$ ，在这个式子基础上，对 $y(\mathbf{x})$ 进行微分，得到 $\int q |y(\mathbf{{x}})-t|^{q-1} \operatorname{sign}(y(\mathbf{{x}})-t)p(t|\mathbf{x})\mathrm{d}t=0$ ，本来走到这一步我觉得我勉强能够理解（其实已经很困难了好嘛），作者又一波神奇操作，将其变为 $q(\int_{- \infty}^{y(\mathbf{x})}|y(\mathbf{{x}})-t|^{q-1}p(t|\mathbf{x})\mathrm{d}t-\int^{\infty}_{y(\mathbf{x})}|y(\mathbf{{x}})-t|^{q-1}p(t|\mathbf{x})\mathrm{d}t)=0$ ，所以要满足的条件就是 $\int_{- \infty}^{y(\mathbf{x})}|y(\mathbf{{x}})-t|^{q-1}p(t|\mathbf{x})\mathrm{d}t=\int^{\infty}_{y(\mathbf{x})}|y(\mathbf{{x}})-t|^{q-1}p(t|\mathbf{x})\mathrm{d}t$ 。真的看不大懂每一步操作的理由是什么。

好了我编不下去了，上面几乎就是把solution翻译了一遍，我选择放弃，再想想看。

看了一段时间，稍微有了一些想法，可以看一下式(1.88)，我们不妨就从这个角度切入。为什么选择这个角度？因为正是式(1.88)到式(1.89)的推导过程，推出了在 $q=2$ 的情况下，条件均值为 $y(\mathbf{x})$ 最优解。因此，我们二话不说依葫芦画瓢进行微分（这里使用到了变分法，不做赘述），得到了 $\frac{\delta \mathbb{E}[L]}{\delta y(\mathbf{x})}=q\int |y(\mathbf{x})-t|^{q-1} \operatorname{sign}(y(\mathbf{{x}})-t) p(\mathbf{x},t)\mathrm{d}t=0$ 。那么之所以要使用 $y(\mathbf{x})$ 来进行区间的划分，也是为了简化该式的符号项，这才有了 $q(\int_{- \infty}^{y(\mathbf{x})}(t-y(\mathbf{{x}}))^{q-1}p(t|\mathbf{x})\mathrm{d}t+\int^{\infty}_{y(\mathbf{x})}(y(\mathbf{{x}})-t)^{q-1}p(t|\mathbf{x})\mathrm{d}t)=0$ ，这样符号关系就对了，之后再转换一下正负号，将两部分分别挪至等号两侧，就有了 $\int_{- \infty}^{y(\mathbf{x})}(y(\mathbf{{x}})-t)^{q-1}p(t|\mathbf{x})\mathrm{d}t=\int^{\infty}_{y(\mathbf{x})}(y(\mathbf{{x}})-t)^{q-1}p(t|\mathbf{x})\mathrm{d}t$ 。

如果 $q=1$ ，则有 $y(\mathbf{x})$ 满足 $\int_{- \infty}^{y(\mathbf{x})}p(t|\mathbf{x})\mathrm{d}t=\int^{\infty}_{y(\mathbf{x})}p(t|\mathbf{x})\mathrm{d}t$ ，也就是说 $p(t|\mathbf{x})$ 在 $t<y(\mathbf{x})$ 的区域中与 $t \ge p(t|\mathbf{x})$ 的区域上积分大小相同，此时 $y(\mathbf{x})$ 所在的位置也就是题目所谓的条件中数的含义。

如果 $q \to 0$ ， $|y(\mathbf{{x}})-t|^{q}$ 趋近于 $1$ ，这样的话 $\int |y(\mathbf{{x}})-t|^q p(t|\mathbf{x})\mathrm{d}t$ 也就趋近于 $1$ 。但是当 $y(\mathbf{{x}})$ 与 $t$ 之间的距离同样非常靠近时， $|y(\mathbf{{x}})-t|^{q}$ 趋近于 $1$ 这一点就要打个问号了，这种情况下， $|y(\mathbf{{x}})-t|^{q}$ 会比 $1$ 还要小一些（可以使用MATLAB进行验证）。这样一来，能够使得这个“小一些”足够小的 $y(\mathbf{{x}})$ 也就要尽可能靠近出现概率最大的 $t$ 值，此时，相当于 $y(\mathbf{{x}})$ 就是条件分布的众数。

1.28

$n$ 为正整数为前提条件下， $h(p^2)=h(p)+h(p)=2h(p)$ ， $h(p^n)=h(p)+\dots+h(p)=nh(p)$ 。

$m$ 为正整数为前提条件下， $h(p^{n/m})=nh(p^{1/m})=\frac{n}{m}mh(p^{1/m})=\frac{n}{m}h(p)$ 。这里你可以将 $p^{1/m}$ 看成上面公式中的 $p$ ，视其为一个整体，因为题中对 $p$ 是没有任何要求的。这样一来，就可以看到，对于任何一个正整数 $x$ ， $h(p^x)=xh(p)$ 。

最后一小问没啥意思，不证了。

1.29

$\mathbf{H}[x]=\sum_{i=1}^M -p(x_i) \ln p(x_i) = \sum_{i=1}^M p(x_i) \ln p(\frac{1}{x_i})$ ， $\ln$ 函数是一个concave函数，因此 $f(\sum_{i=1}^{M}\lambda_ix_i) \ge \sum_{i=1}^{M}\lambda_i f(x_i)$ ，这里 $p(x_i)$ 即 $\lambda_i$ ，满足 $\lambda_i$ 所需的条件，因此 $\sum_{i=1}^{M} p(x_i) \ln(\frac{1}{p(x_i)}) \le \ln(\sum_{i=1}^M p(x_i) \frac{1}{p(x_i)}=\ln M)$ 。
所以 $\mathbf{H}[x] \le \ln M$ 。

1.30

在 $\operatorname{KL}$ 散度的表达中，我一直有一个疑问，就是为什么我们预估的分布 $q(x)$ 的信息熵是 $-\int p(\mathbf{x}) \ln q(\mathbf{x}) \mathrm{d}\mathbf{x}$ ，而不是 $-\int q(\mathbf{x}) \ln p(\mathbf{x}) \mathrm{d}\mathbf{x}$ ，最终觉得这是因为按照后者那样去写的话，所谓的编码平均附加信息量这个表达式，也就是 $\operatorname{KL}$ 散度的数学表达式并不具有良好的数学性质，利用不到convex函数的相关性质。因此才使用了前者那种表达，但是我还想从更加合理的角度来看待这样做的原因。

$\begin{aligned} \operatorname{KL}(p||q)&=-\int p(x) \ln\{ \frac{q(x)}{p(x)} \} \mathrm{d}x \\ &= \int p(x) \{\ln p(x) - \ln q(x) \} \mathrm{d}x \\ &= \int p(x) \{ \ln \frac{1}{(2 \pi \sigma^2)^{1/2}} \exp(-\frac{(x-\mu)^2}{2\sigma^2}) - \ln \frac{1}{(2 \pi s^2)^{1/2}} \exp(-\frac{(x-m)^2}{2s^2}) \} \mathrm{d}x \\ &= \int p(x) \{ - \ln (2 \pi \sigma^2)^{1/2} - \frac{(x-\mu)^2}{2\sigma^2} + \ln (2 \pi s^2)^{1/2} + \frac{(x-m)^2}{2s^2} \} \mathrm{d}x \\ &= \int p(x) \{ \ln \frac{s}{\sigma} \} \mathrm{d}x - \frac{1}{2\sigma^2}\int p(x) (x-\mu)^2 \mathrm{d}x + \frac{1}{2s^2}\int p(x) (x-m)^2 \mathrm{d}x\\ &= \ln \frac{s}{\sigma} + \frac{1}{2s^2}\int p(x) (x-m)^2 \mathrm{d}x - \frac{1}{2}\\ &= \ln \frac{s}{\sigma} + \frac{1}{2s^2}\int p(x) (x^2 - 2mx + m^2) \mathrm{d}x - \frac{1}{2}\\ &= \ln \frac{s}{\sigma} + \frac{1}{2s^2}(\mu^2 + \sigma^2 - 2m \mu + m^2) - \frac{1}{2}\\ &= \ln \frac{s}{\sigma} + \frac{(\mu - m)^2 + \sigma^2}{2s^2} - \frac{1}{2} \end{aligned}$ KL(p∣∣q)=−∫p(x)ln{p(x)q(x)}dx=∫p(x){lnp(x)−lnq(x)}dx=∫p(x){ln(2πσ2)1/21exp(−2σ2(x−μ)2)−ln(2πs2)1/21exp(−2s2(x−m)2)}dx=∫p(x){−ln(2πσ2)1/2−2σ2(x−μ)2+ln(2πs2)1/2+2s2(x−m)2}dx=∫p(x){lnσs}dx−2σ21∫p(x)(x−μ)2dx+2s21∫p(x)(x−m)2dx=lnσs+2s21∫p(x)(x−m)2dx−21=lnσs+2s21∫p(x)(x2−2mx+m2)dx−21=lnσs+2s21(μ2+σ2−2mμ+m2)−21=lnσs+2s2(μ−m)2+σ2−21

1.31

$\begin{aligned} \operatorname{H}[\mathbf{x}, \mathbf{y}] &= -\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{x}, \mathbf{y}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \\ &= -\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{y}| \mathbf{x}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} -\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{x}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \\ &= -\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{y}| \mathbf{x}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} -\int \ln p(\mathbf{x}) \int p(\mathbf{x}, \mathbf{y}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \\ &= \operatorname{H}[\mathbf{y}| \mathbf{x}] - \int \ln p(\mathbf{x}) p(\mathbf{x}) \mathrm{d}\mathbf{x} \\ &= \operatorname{H}[\mathbf{y}| \mathbf{x}] + \operatorname{H}[\mathbf{x}] \\ \end{aligned}$

$\begin{aligned} \operatorname{H}[\mathbf{x}] + \operatorname{H}[\mathbf{y}] &= -\int p(\mathbf{x}) \ln p(\mathbf{x}) \mathrm{d}\mathbf{x} -\int p(\mathbf{y}) \ln p(\mathbf{y}) \mathrm{d}\mathbf{y} \\ &= -\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{x}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} -\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{y}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \\ &= -\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{x})p(\mathbf{y}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \end{aligned}$

要证明 $\operatorname{H}[\mathbf{x}, \mathbf{y}] \le \operatorname{H}[\mathbf{x}] + \operatorname{H}[\mathbf{y}]$ ，即变为证明
$-\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{x}, \mathbf{y}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \le -\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{x})p(\mathbf{y}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x}$

根据互信息的定义，我们有
$\begin{aligned}I[\mathbf{x}, \mathbf{y}] &= \operatorname{KL}(p(\mathbf{x}, \mathbf{y})||p(\mathbf{x})p(\mathbf{y})) \\ &= -\iint p(\mathbf{x}, \mathbf{y}) \ln (\frac{p(\mathbf{x})p(\mathbf{y})}{p(\mathbf{x}, \mathbf{y})}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \end{aligned}$
且 $I[\mathbf{x}, \mathbf{y}] \ge 0$ ，当且仅当两变量互相独立时等号才成立。所以
$\begin{gathered} -\iint p(\mathbf{x}, \mathbf{y}) \ln (\frac{p(\mathbf{x})p(\mathbf{y})}{p(\mathbf{x}, \mathbf{y})}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} =\\ -\iint p(\mathbf{x}, \mathbf{y}) \ln (p(\mathbf{x})p(\mathbf{y})) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} + \iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{x}, \mathbf{y}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \ge 0 \end{gathered}$
所以得到
$-\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{x}, \mathbf{y}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \le -\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{x})p(\mathbf{y}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x}$
结论成立，且只有在两变量相互独立时等号才成立。

实话说我感觉我这个是伪证明，因为利用了互信息这个先验知识，但是其实也没差，互信息本身就是一种 $\operatorname{KL}$ 散度，因此必然大于等于 $0$ 。看了一眼solution给出的解法，我觉得相当奇怪，既然作者已经利用了互信息这个条件，为什么还整得那么绕？

1.32

非奇异的随机变量线性变换不会改变随机变量的概率密度值，因此 $p(\mathbf{Ax}) = p(\mathbf{y})$ ，同时在概率密度一节中有提及： $p(\mathbf{x}) |\delta \mathbf{x}| = p(\mathbf{y}) | \delta \mathbf{y} |$ ，所以有 $p(\mathbf{x}) = p(\mathbf{y}) |\frac{\delta \mathbf{y}}{\delta \mathbf{x}}| = p(\mathbf{y}) | \mathbf{A} |$ ，所以
$\begin{aligned} \operatorname{H}[\mathbf{y}] &= -\int p(\mathbf{Ax}) \ln (p(\mathbf{Ax})) \mathrm{d}\mathbf{x} \\ &= -\int p(\mathbf{x}) \ln (p(\mathbf{x})|\mathbf{A}|^{-1}) \mathrm{d}\mathbf{x} \\ &= -\int p(\mathbf{x}) \ln (\mathbf{x}) \mathrm{d}\mathbf{x} -\int p(\mathbf{x}) \ln (|\mathbf{A}|^{-1}) \mathrm{d}\mathbf{x} \\ &= \operatorname{H}[\mathbf{x}] + \ln (|\mathbf{A}|) \end{aligned}$

1.33

已知 $\operatorname{H}[\mathbf{x}, \mathbf{y}] = \operatorname{H}[\mathbf{y} | \mathbf{x}] + \operatorname{H}[\mathbf{x}]$ 。现在 $\operatorname{H}[\mathbf{y} | \mathbf{x}] = 0$ ，所以 $\operatorname{H}[\mathbf{x}, \mathbf{y}] = \operatorname{H}[\mathbf{x}]$ 。因此
$\begin{aligned} -\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{x}, \mathbf{y}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} = -\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{x}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \end{aligned}$
所以 $p(\mathbf{x}, \mathbf{y}) = p(\mathbf{x})$ ，又因为 $p(\mathbf{x}, \mathbf{y}) = p(\mathbf{y}|\mathbf{x}) p(\mathbf{x})$ ，从而得到 $p(\mathbf{y}|\mathbf{x}) = 1$ ，也就是说，在知道了 $\mathbf{x}$ 的前提条件下， $\mathbf{y}$ 是多少一下子就知道了（因为概率为 $1$ ，所以说明对于一个固定的 $\mathbf{x}$ ，就只有一个固定的 $\mathbf{y}$ 与之对应），也就是说 $\mathbf{y}$ 与 $\mathbf{x}$ 之间有着对应的函数关系。这个函数关系并不一定是一一对应的，而只是要求在 $\mathbf{x}$ 确定了的情况下，只有一个 $\mathbf{y}$ 与之对应，这是不排除一个相同的 $\mathbf{y}$ 对应多个不同的 $\mathbf{x}$ 这种情况的。

1.34

泛函 $F$ 为：
$\begin{aligned} -\int_{-\infty}^{\infty} p(x) \ln p(x) \mathrm{d}x + \lambda_1 (\int_{-\infty}^{\infty} p(x) \mathrm{d}x - 1) + \lambda_2 (\int_{-\infty}^{\infty} xp(x) \mathrm{d}x - \mu) + \lambda_3 (\int_{-\infty}^{\infty} (x-\mu)^2 p(x) \mathrm{d}x - \sigma^2) \end{aligned}$
整理可得：
$\begin{aligned} \int_{-\infty}^{\infty} \{-p(x) \ln p(x) + \lambda_1 p(x) + \lambda_2 xp(x) + \lambda_3 (x-\mu)^2 p(x) \} \mathrm{d}x + \{ - \lambda_1 - \lambda_2 \mu - \lambda_3\sigma^2)\} \end{aligned}$
令
$\begin{aligned} G = -p(x) \ln p(x) + \lambda_1 p(x) + \lambda_2 xp(x) + \lambda_3 (x-\mu)^2 p(x) \end{aligned}$
则有
$\begin{aligned} \frac{\mathrm{d}G}{\mathrm{d}p(x)} &= -\ln p(x) - 1 + \lambda_1 + \lambda_2 x + \lambda_3 (x-\mu)^2 = 0\\ \end{aligned}$
所以 $p(x) = \exp(-1 + \lambda_1 + \lambda_2 x + \lambda_3 (x-\mu)^2)$ 。

这里参考了Appendix D章节的变分法内容。

1.35

$p(x) = \frac{1}{(2 \pi \sigma^2)^{1/2}} \exp \{ -\frac{(x - \mu)^2}{2 \sigma^2} \}$ ，所以有
$\begin{aligned} \operatorname{H}[x] &= -\int p(x) \ln p(x) \mathrm{d}x \\ &= -\int \frac{1}{(2 \pi \sigma^2)^{1/2}} \exp \{ -\frac{(x - \mu)^2}{2 \sigma^2} \} \ln \frac{1}{(2 \pi \sigma^2)^{1/2}} \exp \{ -\frac{(x - \mu)^2}{2 \sigma^2} \} \mathrm{d}x \\ &= \int p(x) (\ln ((2 \pi \sigma^2)^{1/2})) \mathrm{d}x + \int p(x) (\frac{(x - \mu)^2}{2 \sigma^2}) \mathrm{d}x \\ &= \frac{1}{2} \ln (2 \pi \sigma^2) + \frac{1}{2} \\ &= \frac{\ln (2 \pi \sigma^2) + 1}{2} \end{aligned}$
注意其中有一步是由方差的计算公式得来的。

1.36

根据泰勒展开式，可得
$\begin{aligned} f(x) = f(x_0) + f'(x_0)(x-x_0) + \frac{1}{2}f''(x_0)(x-x_0)^2 \end{aligned}$
由于 $f''(x_0) > 0$ ，因此 $\frac{1}{2}f''(x_0)(x-x_0)^2 > 0$ ，所以可得
$\begin{aligned} f(x) > f(x_0) + f'(x_0)(x-x_0) \end{aligned}$
设 $x_0 = \lambda a + (1 - \lambda)b$ 因此可以得到
$\begin{aligned} & f(a) > f(\lambda a + (1 - \lambda)b) + f'(\lambda a + (1 - \lambda)b)((1-\lambda)(a-b)) \\ & f(b) > f(\lambda a + (1 - \lambda)b) + f'(\lambda a + (1 - \lambda)b)(\lambda (b - a)) \\ & \lambda f(a) + (1 - \lambda)f(b) > f(\lambda a + (1 - \lambda)b) \end{aligned}$
从而得证。

1.37

$\begin{aligned} \operatorname{H}[\mathbf{y} | \mathbf{x}] + \operatorname{H}[\mathbf{x}] &= -\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{y}| \mathbf{x}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} - \int p(\mathbf{x}) \ln p(\mathbf{x}) \mathrm{d}\mathbf{x}\\ &= -\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{y}| \mathbf{x}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} -\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{x}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \\ &= -\iint p(\mathbf{x}, \mathbf{y}) \ln \{p(\mathbf{y}| \mathbf{x}) p(\mathbf{x}) \} \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \\ &= -\iint p(\mathbf{x}, \mathbf{y}) \ln p(\mathbf{x}, \mathbf{y}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \\ &= \operatorname{H}[\mathbf{x}, \mathbf{y}] \end{aligned}$

1.38

当项数为 $2$ 时，根据式(1.114)可知
$\begin{aligned} f(\lambda a + (1-\lambda)b) \le \lambda f(a) + (1 - \lambda)f(b) \end{aligned}$
现在假设项数为 $M$ 时满足
$\begin{aligned} f(\sum_{i=1}^{M} \lambda_i x_i ) \le \sum_{i=1}^{M} \lambda_i f(x_i) \end{aligned}$
当有 $M+1$ 项时，则有
$\begin{aligned} f(\sum_{i=1}^{M+1} \lambda_i x_i ) & = f(\sum_{i=1}^{M} \lambda_i x_i + \lambda_{M+1} x_{M+1}) \\ & = f((1-\lambda_{M+1})\sum_{i=1}^{M} \frac{\lambda_i}{1-\lambda_{M+1}} x_i + \lambda_{M+1} x_{M+1}) \\ & \le (1-\lambda_{M+1}) f(\sum_{i=1}^{M} \frac{\lambda_i}{1-\lambda_{M+1}} x_i) + \lambda_{M+1} f(x_{M+1}) \\ \end{aligned}$
很明显， $\sum_{i=1}^M \frac{\lambda_i}{1-\lambda_{M+1}}=1$ ，因此
$\begin{aligned} f(\sum_{i=1}^{M} \frac{\lambda_i}{1-\lambda_{M+1}} x_i) \le \sum_{i=1}^{M} \frac{\lambda_i}{1-\lambda_{M+1}} f(x_i) \end{aligned}$
所以
$\begin{aligned} f(\sum_{i=1}^{M+1} \lambda_i x_i ) & = f(\sum_{i=1}^{M} \lambda_i x_i + \lambda_{M+1} x_{M+1}) \\ & = f((1-\lambda_{M+1})\sum_{i=1}^{M} \frac{\lambda_i}{1-\lambda_{M+1}} x_i + \lambda_{M+1} x_{M+1}) \\ & \le (1-\lambda_{M+1}) f(\sum_{i=1}^{M} \frac{\lambda_i}{1-\lambda_{M+1}} x_i) + \lambda_{M+1} f(x_{M+1}) \\ & \le (1-\lambda_{M+1}) \sum_{i=1}^{M} \frac{\lambda_i}{1-\lambda_{M+1}} f(x_i) + \lambda_{M+1} f(x_{M+1}) \\ & = \sum_{i=1}^{M+1} \lambda_i f(x_i) \end{aligned}$

由此归纳得证。

1.39

这道题理解了书中的相关公式很好做的，书里面几乎把关系全都明摆出来了。

( a ) $\ln 3 - \frac{2}{3} \ln 2$

( b ) $\ln 3 - \frac{2}{3} \ln 2$

( c ) $\frac{2}{3} \ln 2$

( d ) $\frac{2}{3} \ln 2$

( e ) $\ln{3}$

( f ) $\ln{3} - \frac{4}{3} \ln 2$

Pattern Recognition and Machine Learning: Chapter 01习题详解

1.40

$\begin{aligned} \ln ( \sum_{i=1}^N \frac{1}{N} x_i ) = \ln ( \frac{1}{N} \sum_{i=1}^N x_i ) \le \sum_{i=1}^N \frac{1}{N} \ln x_i = \frac{1}{N} \sum_{i=1}^N \ln x_i = \frac{1}{N} \ln \prod_{i=1}^{N} x_i = \ln (\prod_{i=1}^{N} x_i)^{\frac{1}{N}} \end{aligned}$
由于 $\ln$ 函数为递增函数，因此
$\begin{aligned} \frac{1}{N} \sum_{i=1}^N x_i \le (\prod_{i=1}^{N} x_i)^{\frac{1}{N}} \end{aligned}$
从而得证。

1.41

$\begin{aligned} I[\mathbf{x}, \mathbf{y}] &= \operatorname{KL}(p(\mathbf{x}, \mathbf{y})||p(\mathbf{x})p(\mathbf{y})) \\ &= -\iint p(\mathbf{x}, \mathbf{y}) \ln (\frac{p(\mathbf{x})p(\mathbf{y})}{p(\mathbf{x}, \mathbf{y})}) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \\ &= -\iint p(\mathbf{x}, \mathbf{y}) \ln (\frac{p(\mathbf{x})p(\mathbf{y})}{p(\mathbf{y}| \mathbf{x}) p(\mathbf{x}) }) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \\ &= -\iint p(\mathbf{x}, \mathbf{y}) \ln (\frac{p(\mathbf{y})}{p(\mathbf{y}| \mathbf{x}) }) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \\ &= \operatorname{H}[\mathbf{y}] - \operatorname{H}[\mathbf{y} | \mathbf{x}] \\ &= -\iint p(\mathbf{x}, \mathbf{y}) \ln (\frac{p(\mathbf{x})p(\mathbf{y})}{p(\mathbf{x}| \mathbf{y}) p(\mathbf{y}) }) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \\ &= -\iint p(\mathbf{x}, \mathbf{y}) \ln (\frac{p(\mathbf{x})}{p(\mathbf{x}| \mathbf{y}) }) \mathrm{d}\mathbf{y} \mathrm{d}\mathbf{x} \\ &= \operatorname{H}[\mathbf{x}] - \operatorname{H}[\mathbf{x} | \mathbf{y}] \end{aligned}$