最小二乘法

最小二乘法是勒让德( A. M. Legendre)于1805年在其著作《计算慧星轨道的新方法》中提出的。它的主要思想就是求解未知参数，使得理论值与观测值之差（即误差，或者说残差）的平方和达到最小：
$E=\sum_{m}^{i}e^2=\sum_{m}^{i}(y_i-\hat{y})^2$
其中， $y_i$ 为观测样本， $\hat{y}$ 为我们的期望值， $E$ 即为损失函数，在机器学习中，我们通常最小化 $E$ 来确定昌参数。

直线拟合/多元线性回归

对于多元线性函数，有如下表达式： $h_\theta(x_1,x_2,...,x_n)=\theta_{0}+\theta_{1}x_1+...+\theta_{n}x_n$
故损失函数可以写成如下形式: $J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2=\frac{1}{2}tr((X\theta-Y)^T(X\theta-Y))$
note:对标量进行迹的运算不改变运算结果
于是，对 $\theta$ 求偏导: $\frac{\partial J(\theta)}{\partial \theta}=X^{T}X\theta-X^{T}Y$
令偏导为0，得到： $\theta=(X^{T}X)^{-1}X^{T}Y$
这样，我们便得到了参数的解析解。需要注意的是，最小二乘法是在假定随机误差项服从标准（均值为0即可）的正态分布的特殊情况，即从极大似然的角度，当假定误差项服从均值为0的正态分布时，损失函数与最小二乘完全一致。下面我们来看看极大似然估计

极大似然估计

现在假设我们有m个样本，我们假设有：
【机器学习基础】最小二乘与极大似然估计
假定误差项服从正态分布，我们有：

即有：

那么我们可以写成似然函数：

由极大似然估计的定义，我们需要 $L(\theta)$ 最大，那么我们怎么才能是的这个值最大呢？两边取对数对这个表达式进行化简如下：
【机器学习基础】最小二乘与极大似然估计
需要 $l(\theta)$ 最大，也即最后一项的后半部分最小，也即：

可以看到，损失函数的表达形式与最小二乘完全一致，我们可以直接求偏导得到解析解或利用梯度下降得到全局最优（表达式为凸函数）。

总结

最小二乘和极大似然虽然在形式上一致（损失函数相同），但思考的角度并不一致。

最小二乘法从模型拟合的角度出发，利用残差平方和来衡量拟合的优劣
极大似然估计希望从模型中抽取 $m$ 个样本的概率最大，即似然函数最大。因此，极大似然估计需要知道参数分布，在线性模型中，一般假定残差项服从均值为0的正态分布，此时得到的损失表达式与最小二乘一致。

【机器学习基础】最小二乘与极大似然估计

最小二乘法

直线拟合/多元线性回归

极大似然估计

总结

相关推荐