lasso回归、岭回归

目录

L1惩罚 & L2惩罚

 Lasso估计

岭回归 Ridge Regression

 Ridge 估计

图示lasso和Ridge的差异



       从统计学的语言描述,lasso( least absolute shrinkage and selection operator)最小化残差平方和使系数的绝对值之和小于某个常数,即对损失函数添加一个L1罚函数使一些指标的系数为0,从而获得一个精简的模型:

lasso回归、岭回归

lasso回归也等价于,对所有回归系数w的绝对值进行大小限制,也就是缩减技术。L1正则化倾向于将越多的参数变为0,使最终的近似解只依赖于很少的变量

Lasso 和岭回归最重要的区别是,随着惩罚项λ的增加,岭回归中所有回归系数都会减小为非零值,最终模型保留了所有的变量,而lasso回归中越来越多的参数直接变为0.   稀疏的模型变量更具有可解释性。

lasso回归、岭回归

L1惩罚 & L2惩罚

lasso回归、岭回归

 Lasso估计

lasso回归、岭回归

岭回归 Ridge Regression

lasso回归、岭回归

 Ridge 估计

lasso回归、岭回归

图示lasso和Ridge的差异

lasso回归、岭回归
左图为Lasso方法                                                    右图为Ridge方法

以二维数据空间为例说明lasso和Ridge的差异,如上图所示,两个图是对应于两种方法的等高线与约束域

红色的椭圆代表的是随着λ的变化所得到的残差平方和,lasso回归、岭回归 为椭圆的中心点,为对应普通线性模型的最小二乘估计。

左右两个图的区别在于约束域,即对应的蓝色区域。 等高线和约束域的切点就是目标函数的最优解,Ridge方法对应的约束域是圆,其切点只会存在于圆周上,不会与坐标轴相切,则在任一维度上的取值都不为0,因此没有稀疏;对于Lasso方法,其约束域是正方形,会存在与坐标轴的切点,使得部分维度特征权重为0,因此很容易产生稀疏的结果。

所以,Lasso方法可以达到变量选择的效果,将不显著的变量系数压缩至0而Ridge方法虽然也对原本的系数进行了一定程度的压缩,但是任一系数都不会压缩至0。

【论文】Robert Tibshirani ,1996,Regression Shrinkage and Selection via the lasso