正则化和贝叶斯先验

参考自here
事实上如果从贝叶斯的观点,所有的正则化都是来自于对参数分布的先验。现在来看一下为什么Laplace先验会导出L1正则化,Gauss(高斯)先验会导出L2正则化。

高斯分布公式

f(x)=12πδexp((xμ)22δ2)f(x) = \frac{1}{\sqrt{2π}\delta}exp(-\frac{(x-\mu)^2}{2\delta^2})

最大似然估计

如果数据集(X,Y)(X,Y),并且YY是有白噪声(就是与测量得到的YY与真实的YrealY_{real}有均值为零的高斯分布误差),目的是用新产生的XX来得到YY,如果用线性模型来测量,那么有:
f(x)=i(xiθi)+ϵ=XθT+ϵf(x) = \sum_i(x_i\theta_i) + \epsilon = X\theta^T+ \epsilon
其中ϵ\epsilon是白噪声,即ϵ\epsilon服从 N(0,δ2)N(0,\delta^2)分布。
一对数据集(Xi,Yi)(X_i,Y_i)来用,在这个模型中用XiX_i得到YiY_i的概率是YiY_i服从N(f(Xi),δ2)N(f(X_i),δ^2):
P(YiXi,θ)=12πδexp(f(Xi)Yi22δ2)P(Y_i|X_i,\theta) = \frac{1}{\sqrt{2π}\delta}exp(-\frac{||f(X_i)-Y_i||^2}{2\delta^2})
假设数据集中每一对数据都是独立的,那么对于数据集来说由XX得到YY的概率是:
P(YiXi,θ)=i12πδexp(f(Xi)Yi22δ2)P(Y_i|X_i,\theta) = \prod_i \frac{1}{\sqrt{2π}\delta}exp(-\frac{||f(X_i)-Y_i||^2}{2\delta^2})
根据决策论可知,可以使概率P(YX,θ)P(Y|X,\theta)最大的参数θ\theta*就是最好的参数。那么我们可以直接得到最大似然估计的直观理解:对于一个模型,调整参数θ\theta,使得用X得到Y的概率最大。那么θ\theta可由下式得到:

θ=argmaxθ(i12πϵexp(f(Xi)Yi22δ2))=argmaxθ(12δ2if(Xi)Yi2+iln(δ2π=argminθ(if(Xi)Yi2) \begin{aligned} \theta* &= argmax_\theta(\prod_i \frac{1}{\sqrt{2π}\epsilon}exp(-\frac{||f(X_i)-Y_i||^2}{2\delta^2})) \\ &= argmax_\theta(-\frac{1}{2\delta^2}\sum_i||f(X_i)-Y_i||^2+\sum_iln(\delta\sqrt{2π})\\ & =argmin_\theta(\sum_i||f(X_i)-Y_i||^2) \\ \end{aligned}
从最大到最小,中间加了一步L(θ)L(\theta)lnL(θ)lnL(\theta)
这就是最小二乘法计算公式,最小(min)二乘(平方) = 使得平方和最小。

所谓最小二乘,其实也可以叫做最小平方和,其目的就是通过最小化误差的平方和,使得拟合对象无限接近目标对象。换句话说,最小二乘法可以用于对函数的拟合。

拉普拉斯分布

概率密度函数分布为:
f(xμ,b)=12bexp(xμb)f(x|\mu,b) = \frac{1}{2b}exp(-\frac{|x-\mu|}{b})
分布图像为:
正则化和贝叶斯先验
可以看到拉普拉斯分布集中在μ\mu附近,而且b越小,分布越集中。

拉普拉斯先验

P(θi)=λ2exp(λθi)P(\theta_i) = \frac{\lambda}{2}exp(-\lambda|\theta_i|)
其中λ\lambda是控制参数θ\theta集中情况的超采纳数,λ\lambda越大,参数的分布就越集中在0附近。
在前面所说的极大似然估计事实上是假设了θ\theta是均匀分布的,也就是P(θ)=constantP(\theta) = constant,我们要最大化后验估计,就是: