机器学习之-线性回归学习笔记

1 什么是线性回归

线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。
其表达形式为y = ax+b,a为误差服从均值为0的正态分布。
一元线性回归分析:只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示。
多元线性回归分析:如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系。

2线性回归的原理

线性回归假设特征和结果满足线性关系。通过一个映射函数将特征变量与预测结果形成关系。这样就可以表达特征与结果之间的非线性关系。这样可以写出一个估计函数:
机器学习之-线性回归学习笔记
其中θ为权重参数,具体含义为所点成的特征变量在整个变量中所占的比重,比重越大,该特征的影响力越大,在实际应用中越值得考虑。

3 线性求解思路

3.1 损失函数

在简单线回归问题中,模型就是我们的直线方程:y = ax + b 。
要想最大的拟合数据,本质上就是找到没有拟合的部分,也就是损失的部分尽量小。损失函数(loss function)定义为:
机器学习之-线性回归学习笔记
因此我们目标是:已知训练数据样本x、y ,找到a和b的值,使损失函数尽可能小,从而得出最佳的拟合方程。
通过分析问题,确定问题的损失函数或者效用函数;通过最优化损失函数或者效用函数,获得机器学习模型。
在很多机器学习的模型中,都是这种原理,比如线性回归、多项式回归、逻辑回归、SVM、神经网络等。

3.2 最小二乘法

找到a和b,使得损失函数尽可能小,也就是最小化误差的平方,是一个典型的最小二乘法问题。
最小二乘法(二乘又叫平方),使“离差平方和为最小”的方法叫最小二乘法。
通过求a和b的偏导,使得偏导为零,能够先求出b,再求出a,最终我们通过最小二乘法得到a、b的表达式:
机器学习之-线性回归学习笔记

4 多元线性回归

4.1 多元线性回归概念

在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。
多元线性回归与一元线性回归类似,可以用最小二乘法估计模型参数,也需对模型及模型参数进行统计检验。
选择合适的自变量是正确进行多元回归预测的前提之一,多元回归模型自变量的选择可以利用变量之间的相关矩阵来解决。

4.2模型求解

假设多元线性回归模型为:
机器学习之-线性回归学习笔记
用最小二乘法求解参数。以二线性回归模型为例,求解回归参数的标准方程组为:
机器学习之-线性回归学习笔记
解此方程可求得b0,b1,b2的数值。亦可用下列矩阵法求得:
机器学习之-线性回归学习笔记
即:
机器学习之-线性回归学习笔记

5 线性回归的评估指标

5.1损失函数

为了找到a和b使得损失函数尽可能小,我们使用了最小二乘法和向量化的方法。
机器学习之-线性回归学习笔记
的大小,是衡量的标准。

5.2均方误差MSE(Mean Squared Error)

机器学习之-线性回归学习笔记
这个均方误差是之前为了保证每项为正,且可导,对式子做了一个平方,会导致量纲的问题,例如房价为万元,平方后会变成万元的平方,所以要改进。

5.3均方根误差RMSE(Root Mean Squared Error)

机器学习之-线性回归学习笔记

5.4平均绝对误差MAE(Mean Absolute Error)

机器学习之-线性回归学习笔记
由于绝对值不是处处可导的,这个误差方式不便用来求极值。

5.5 R Squared

计算方式如下
机器学习之-线性回归学习笔记