机器学习系列-线性回归学习

简单线性回归

kNN算法属于分类(Classification),即label为离散的类别型(categorical variable),如:颜色类别、手机品牌、是否患病等。

简单线性回归是属于回归(regression),即label为连续数值型(continuous numerical variable),如:房价、股票价格、降雨量等。

什么是简单线性回归?

所谓简单,是指只有一个样本特征,即只有一个自变量;所谓线性,是指方程是线性的;所谓回归,是指用方程来模拟变量之间是如何关联的。

简单线性回归,其思想简单,实现容易,与其背后强大的数学性质相关。同时也是许多强大的非线性模型(多项式回归、逻辑回归、SVM)的基础。

最小二乘法

“最小二乘法”的核心就是保证所有数据偏差的平方和最小。(“平方”的在古时侯的称谓为“二乘”)

假设我们收集到一些战舰的长度与宽度数据

机器学习系列-线性回归学习

假如我们取前两个点(238,32.4)(152, 15.5)就可以得到两个方程

152*a+b=15.5

328*a+b=32.4

解这两个方程得a=0.197,b=-14.48

那样的话,我们可以得到这样的拟合图:

机器学习系列-线性回归学习

那么如何确定此时的a,b就是最优解呢,a,b满足什么条件才是最优解呢?最优解,指的是保证所有数据偏差的平方和最小,也就是说所有点到拟合线的距离和最小。