最大似然估计和最小二乘法怎么理解?
数据 是由模型的真实输出
叠加上高斯噪声
得到的,即:
那么对模型参数 的最大似然估计和最小二乘估计是等价的。
-------------------简单的推导--------------------
我们知道,模型的似然函数是
同时,有 , 那么可以得到
因此,去掉后面两项不包含 的常数项,模型参数
的最大似然估计
,就等价于最小二乘估计
。
ridge,lasso正则
用机器学习的语言来统一描述各种不同的正则项,那就是通常在参数估计的时候要防止出现过拟合。
假设你只有1000个数据点,但是有2000个特征,那直接做线性回归最小二乘估计,可以得到无穷种回归系数的组合(线性方程组有2000个未知数,但是只有1000个方程)。根据奥卡姆剃刀原则,我们希望取最简单的那个模型,也就是回归系数距离原点最近的那组解。
但是距离的定义不同,最优解就不同。
如果是欧式距离,那么最优解就是L2正则下的最小二乘估计,或者是ridge回归:
如果是曼哈顿距离,那么最优解就是L1正则下的最小二乘估计,或者是lasso回归:
ridge是高斯先验下的最大后验估计,而lasso是拉普拉斯先验下的最大后验估计。
对于ridge回归的目标函数,看起来特别像带限制条件的凸优化问题进行拉格朗日变换之后的结果。因此我们反向变回去,还原成带限制条件的凸优化问题,那么就是
且
同理,lasso回归可以变化为
且
那么画成几何图形,就是下面的左图(ridge)和右图(lasso)。
<img src="https://pic4.zhimg.com/v2-ffee589b7fca08800fdf249b8b67c42f_b.png" data-rawwidth="687" data-rawheight="297" class="origin_image zh-lightbox-thumb" width="687" data-original="https://pic4.zhimg.com/v2-ffee589b7fca08800fdf249b8b67c42f_r.jpg">