线性回归这篇文章最后讲到当有多个“学历-工资”数据无法穿过同一条直线的时候，我们最直观的想法就是『折衷』一下，在这三个数据，三条线中间取得某种平衡作为我们的最终结果，类似于图中的红线这样：
目标函数/损失函数 Loss Function（最小二乘法与最小一乘法）
那怎么取平衡呢？那我们现在必须引入误差的存在，也就是我们要承认观测到的数据中有一些因素是不可知的，不能完全的被学历所解释。而这个不能解释的程度，自然就是每个点到红线在Y轴的距离。

但是我们尽管痛苦的承认了有不能解释的因素，但是我们依然想尽可能的让这种『不被解释』的程度最小，于是我们就想最小化这种不被解释的程度。因为点可能在线的上面或者下面，故而距离有正有负，取绝对值又太麻烦，于是我们就直接把每个距离都取一个平方变成正的，然后试图找出一个距离所有点的距离的平方最小的这条线，这就是最小二乘法了，简单粗暴而有效。

最小二乘法

目标函数/损失函数 Loss Function（最小二乘法与最小一乘法）
什么叫最好的模型？最好的模型就是使训练集中每一个真实数据与均值之间的误差的和（假设记作Q）最小（暂不考虑过拟合），那么首先要有个方法来计算Q。下列公式中， $y_{i}$ 就是图中的Actual value， $y_{i e}$ 就是图中的Predicted value。 $y_{i} - y_{i e}$ 就是在计算每一个真实的测量数据与均值之间的误差。

Q = min $\sum_{i}^{n} (y_{i} - y_{i e})^{2}$
目标函数/损失函数 Loss Function（最小二乘法与最小一乘法）

目标函数/损失函数 Loss Function（最小二乘法与最小一乘法）

最小二乘法

相关推荐