统计学第十二周,第十三周

知识点:回归分析

本周是统计学学习小组-第二期的第十二周,我们这周的学习内容是【回归分析】,涉及到的二级知识点有两个,分别是:

  • 1、一元线性回归:相关关系、最小二乘法、拟合优度检测、显著性检验、回归预测、残差分析

  • 2、多元线性回归:多重共线性、变量选择与逐步回归

统计学(贾俊平第七版)第十一章、十二章

操作部分:汽车销售数据(看看汽车销量与什么因素有关?)

数据 https://pan.baidu.com/s/1VlTy4nfvgXdDzgimVguZMg

 

理论部分:

    在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。

    在大数据分析中,回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。

1、根据因变量和自变量的个数来分类:一元回归分析和多元回归分析;

2、根据因变量和自变量的函数表达式来分类:线性回归分析和非线性回归分析。

一元线性回归:

例:考察一个人的收入水平(>)和其受教育程度(H)两个变量,它们之间不存在确定的函数关系。也就是说,受教育程度相同的人.他们的收入水平往往不同,同样,收入水平相同的人,受教育程度也可能不同。因为受教育程度尽管与一个人的收入多少有些关系,但它并不是影响收入的唯一因素.还有其他因素(如职业、工作年限等)的影响。因此,收入水平与受教育程度之间是一种相关关系。

统计学第十二周,第十三周

相关系数:通过散点图可以判断两个变量之间有无相关关系,并对变量间的关系形态作岀大致的描述,但散点图不能准确反映变量之间的关系强度。因此,为准确度量两个变量之间的关系强度,需要计算相关系数。相关系数(correlation coefficient)是根据样本数据计算的度量两个变量之间线性关系强度的统计量。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为P;若是根据样本数据计算的,则称为样本相关系数,记为丄样本相关系数的计算公式为:

统计学第十二周,第十三周

(使用Excel中的CORREL或PEARSON函数都可以计算两组数据的相关系数。其语法为CORREL (Ar-rayl, Array2)o Amyl和Array2是两个变量的数据区域。)

一般情况下,总体相关系数p是未知的.通常将样本相关系数r作为p的近似估计值。但由于r是根据样本数据计算出来的,因此会受到抽样波动的影响。由于抽取的样本不同,r的取值也就不同,因此r是一个随机变量。能否根据样本相关系数说明总体的相关程度呢?这就需要考察样本相关系数的可靠性,也就是进行显著性检验。

统计学第十二周,第十三周

例:

统计学第十二周,第十三周

问:根据表11-2计算的相关系数.检验不良贷款与贷款余额之间的相关系数是否显著(a=0.05)。

解:

统计学第十二周,第十三周

得出表11-3的各项相关系数的统计量:

统计学第十二周,第十三周

统计学第十二周,第十三周

回归方程:y = a + bx

最小二乘法:

统计学第十二周,第十三周

一元线性回归的公式推导 这里有一个推导过程

统计学第十二周,第十三周

统计学第十二周,第十三周

统计学第十二周,第十三周

例:

统计学第十二周,第十三周

带入表达式可得出:

统计学第十二周,第十三周

统计学第十二周,第十三周