阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归
文章目录
1. 回归分析概述
- 变量之间的非严格函数关系
1.1 回归的定义
1.2 线性与非线性
1.3 回归模型的一般形式
在建模时需要考虑扰动项,而在实际预测时,一般不考虑。
1.4 线性回归的几个基本假设
1.5 建立回归模型的流程
- 需求分析明确变量
- 数据收集加工
面积和学校等缺失信息可能会引起偏差。 - 确定回归模型
取对数绘图得: - 模型参数估计
此处以最小二乘法为例分析,其他的方法会在后续的课程中介绍。如图所示,计算所有数据点的真实值(红点)与预测值(蓝线)之间的差取平方,再求和,使得误差的平方和最小,寻找数据的最佳函数匹配,即为最小二乘法。 - 模型检验优化
- 回归方程的显著性检验:即判断方程本身是否有意义。比如,全为随机因素造成的,则没有意义,需要重新建模。
- 回归系数的显著性检验:即检验系数对应的自变量最最终的预测结果有没有影响,这个影响是否为随机因素造成的(比如收集样本时造成的误差)。如果是是随机因素造成的,并且对结果影响不显著,则可以去掉相应的变量,重新建模。
- 拟合优度检验:满不满足方差最小,能否拟合数据点。
- 异方差检验:即判断方差是否有规律的变化。如果有规律变化,则需要将其从模型中去除,重新建模;如果无规律变化,则为期望的结果。(比如满足不相关,零均值,同方差,正态分布等)
- 多重共线性检验:变量之间是否有线性关系,比如,则需要将其中一个变量从模型中去除,重新建模。
- 模型部署应用
1.6 回归模型的特点
注意奥卡姆剃刀原理–“如无必要,勿增实体”,建立回归模型并非越复杂效果越好,要根据业务需求进行设计,同时要注意检查是否符合回归模型的基本假设,否则,可能导致模型表现不好。
总结
- 课程纲要
- 学习目标
前提假设条件非常重要,不符合条件可能导致模型效果不好。
如何选择变量建模是需要考虑的重要问题。
- 思考与练习
2.一元线性回归
2.1 一元线性回归模型
因为随机误差 无法度量,所以认为可以用理论回归模型的期望来表示一元线性回归方程。
回归方程从平均意义上表达了变量 与 的统计规律性。比如拿尺子测量纸袋的长度,每次测量纸袋可能会引入误差,多次测量长度同一个纸袋的长度,最后取平均即,可从平均意义上表达两变量之间的统计规律。
2.2 参数估计:最小二乘估计(LSE)
离差平方和:即离开正确值(实际值)的差异。
求偏导使用链式法则,先不看求和符号,然后,将括号中的多项式看成一个整体求导,求完之后,再对多项式中的求导,可得两个方程。对方程组联立求解推出参数和的表达式。
这个地方可能会有疑惑,查看这篇博客得知,应用了求和的性质,下面是证明过程:
看个例子:
2.3 参数估计:最大似然估计(MLE)
如果该部分的相关知识之前没有学习过,关于推导过程可以暂时跳过,因为需要先修的概率论与数理统计知识。跳过本部分,不影响本课程以后的学习。
2.4 有偏估计与无偏估计
无偏估计,比如等公交车,到站时间为16:00,一系列的预测为15:58,15:59,16:01,16:02…,求平均后大约等于16:00,与真实值的偏差为0,这种情况就是无偏估计。对模型选择来说,只看偏差无法评估模型的波动性,例如预测为14:00,18:00,15:00:,17:00,偏差为0,但波动范围太大,所以还要关注方差。
2.5 参数估计的性质
回归系数 和回归常数 的波动和什么相关?
- 样本数越多越好;
- 自变量取值范围的跨度越大越好
- 本身的随机误差,方差越小越好。
2.6 回归模型的显著性检验
接收备择假设H1,即认为存在线性关系。
2.7 回归方程是否显著:F检验
经过F检验,说明假设是有意义的,可以认为有线性关系。
2.8 相关系数显著性检验:t检验
2.9 决定系数
Anscombe’s Quartet
由上可知,及时通过了一些检验也可能存在不理想的结果。
2.10 残差分析
2.10.1 残差
2.10.2 残差图
2.10.3 残差的性质
2.10.4 残差改进
2.11 模型应用
- 预测
- 新值的区间预测
- 新值的均值区间预测
- 控制
- 预测与控制的例子
总结
-
课程纲要
-
学习目标
-
思考与练习
3. 多元线性回归
3.1 多元线性回归模型
由上式可得矩阵形式: 。
3.2 参数估计:最小二乘估计
3.3 参数估计:最大似然估计
3.4 回归方程是否显著:F检验
3.5 回归系数是否显著:t检验
3.6 自变量的标准化
3.7 简单相关系数
最常用的为皮尔逊相关系数。
3.8 负相关系数与偏相关系数
多元线性回归案例:汽车油耗分析
数据集:
- 建模思路:
- 建模
- 模型评估
- 模型检验:回归方程显著性
- 模型检验:回归系数显著性
总结
- 课程纲要
- 学习目标
- 思考与练习
课程链接:https://edu.aliyun.com/roadmap/ai?spm=5176.13944111.1409070.1.61cc28fcAV0KvR