目标函数/损失函数 Loss Function(最小二乘法与最小一乘法)
线性回归这篇文章最后讲到当有多个“学历-工资”数据无法穿过同一条直线的时候,我们最直观的想法就是『折衷』一下,在这三个数据,三条线中间取得某种平衡作为我们的最终结果,类似于图中的红线这样:
那怎么取平衡呢?那我们现在必须引入误差的存在,也就是我们要承认观测到的数据中有一些因素是不可知的,不能完全的被学历所解释。而这个不能解释的程度,自然就是每个点到红线在Y轴的距离。
但是我们尽管痛苦的承认了有不能解释的因素,但是我们依然想尽可能的让这种『不被解释』的程度最小,于是我们就想最小化这种不被解释的程度。因为点可能在线的上面或者下面,故而距离有正有负,取绝对值又太麻烦,于是我们就直接把每个距离都取一个平方变成正的,然后试图找出一个距离所有点的距离的平方最小的这条线,这就是最小二乘法了,简单粗暴而有效。
最小二乘法
什么叫最好的模型?最好的模型就是使训练集中每一个真实数据与均值之间的误差的和(假设记作Q)最小(暂不考虑过拟合),那么首先要有个方法来计算Q。下列公式中, 就是图中的Actual value, 就是图中的Predicted value。就是在计算每一个真实的测量数据与均值之间的误差。
Q = min