参考自here
事实上如果从贝叶斯的观点,所有的正则化都是来自于对参数分布的先验。现在来看一下为什么Laplace先验会导出L1正则化,Gauss(高斯)先验会导出L2正则化。
高斯分布公式
f(x)=2πδ1exp(−2δ2(x−μ)2)
最大似然估计
如果数据集(X,Y),并且Y是有白噪声(就是与测量得到的Y与真实的Yreal有均值为零的高斯分布误差),目的是用新产生的X来得到Y,如果用线性模型来测量,那么有:
f(x)=∑i(xiθi)+ϵ=XθT+ϵ
其中ϵ是白噪声,即ϵ服从 N(0,δ2)分布。
一对数据集(Xi,Yi)来用,在这个模型中用Xi得到Yi的概率是Yi服从N(f(Xi),δ2):
P(Yi∣Xi,θ)=2πδ1exp(−2δ2∣∣f(Xi)−Yi∣∣2)
假设数据集中每一对数据都是独立的,那么对于数据集来说由X得到Y的概率是:
P(Yi∣Xi,θ)=∏i2πδ1exp(−2δ2∣∣f(Xi)−Yi∣∣2)
根据决策论可知,可以使概率P(Y∣X,θ)最大的参数θ∗就是最好的参数。那么我们可以直接得到最大似然估计的直观理解:对于一个模型,调整参数θ,使得用X得到Y的概率最大。那么θ可由下式得到:
θ∗=argmaxθ(i∏2πϵ1exp(−2δ2∣∣f(Xi)−Yi∣∣2))=argmaxθ(−2δ21i∑∣∣f(Xi)−Yi∣∣2+i∑ln(δ2π)=argminθ(i∑∣∣f(Xi)−Yi∣∣2)
从最大到最小,中间加了一步L(θ) — lnL(θ)。
这就是最小二乘法计算公式,最小(min)二乘(平方) = 使得平方和最小。
所谓最小二乘,其实也可以叫做最小平方和,其目的就是通过最小化误差的平方和,使得拟合对象无限接近目标对象。换句话说,最小二乘法可以用于对函数的拟合。
拉普拉斯分布
概率密度函数分布为:
f(x∣μ,b)=2b1exp(−b∣x−μ∣)
分布图像为:

可以看到拉普拉斯分布集中在μ附近,而且b越小,分布越集中。
拉普拉斯先验
P(θi)=2λexp(−λ∣θi∣)
其中λ是控制参数θ集中情况的超采纳数,λ越大,参数的分布就越集中在0附近。
在前面所说的极大似然估计事实上是假设了θ是均匀分布的,也就是P(θ)=constant,我们要最大化后验估计,就是: