机器学习中特征选择、正则化的统计学渊源

有多元线性回归方程： $Y = X β$

其最小二乘估计（无偏估计）为： $\hat{β} = (X^{^{'}} X)^{- 1} X^{^{'}} Y$

其中X必须为列满秩矩阵，否则 $X^{T} X$ 的逆不存在。

（1）估计精度问题：最小二乘法虽然是无偏估计，但是在解释变量【注1：统计学中，自变量常被称为解释变量，又称说明变量、可控制变量。同时，因变量常被称为被解释变量。】存在多重共线性【注2：统计学中，多重共线性（Multicollinearity）是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系。】时， $| X^{^{'}} X | \approx 0$ 。

引入协方差矩阵： $c o v (\hat{β}) = σ^{2} (X^{^{'}} X)^{- 1}$ ，协方差矩阵的对角线元素即为各估计参数的方差 $v a r ({\hat{β}}_{i})$ 【注3：估计参数的方差，如 $v a r ({\hat{β}}_{1})$ ，是对不同样本求得的 $β_{1}$ 估计值求出的方差。】，非对角元素包含所有可能的估计参数对之间的方差。

而 $| X^{^{'}} X | \approx 0$ ，所以 $(X^{^{'}} X)^{- 1}$ 对角线上的值亦即各估计参数的方差 $v a r ({\hat{β}}_{i})$ 很大，估计精度低。即多重共线性使最小二乘估计失真或难以估计准确。
（2）模型的可解释性：自变量个数很多的时候，我们总是希望能够确定一个较小的变量模型来表现较好的结果，但最小二乘估计得到的变量模型则通常过于复杂，其中很有用的变量有限。

（1）估计精度问题通过岭回归可以显著改善，模型的鲁棒性更好；

岭回归损失函数的解析解： $\hat{β} = (X^{^{'}} X + λ I)^{- 1} X^{^{'}} Y$

按照这种方法求取参数的解析解的时候，最后的表达式是在原来的基础上在求逆矩阵内部加上一个对角矩阵，就好像一条“岭”一样，故得名岭回归。加上这条岭以后，各估计参数的方差就变小了。而且， $λ$ 越大，原始数据对参数估计的作用就越小，当 $λ$ 取到一个合适的值，就能在一定意义上解决过拟合的问题，原先过拟合的特别大或者特别小的参数会被约束到正常甚至很小的值，但不会为零。因此岭回归也是解决过拟合的重要方法。
（2）模型的可解释性问题可以通过子集选择或主成分分析（Principe Component Analysis，PCA ）改善，但容易造成模型不稳定。
进化

LASSO（Least Absolute Shrinkage and Selection Operator，最小绝对收缩与选择算子）回归则可能改善估计精度，也可能提高模型的可解释性（概率事件）。【顾名思义，LASSO回归具有收缩与选择两个功能】

如图，圆心所在位置不同，LASSO回归也有所不同。四条虚线内LASSO回归能改善估计精度，虚线外LASSO回归能提高模型的可解释性。