统计推断——假设检验——简单线性回归分析

一、线性回归描述

• 父亲身高与儿子身高存在相关(相关关系)

• 可否通过父亲身高预测儿子的身高?

• 新生儿的体重与体表面积存在相关

• 可否通过体重预测体表面积?(依存关系)

1、概述

例 为研究大气污染物一氧化氮(NO)的浓度是否受到汽车流量、气候状况等因素的影响,选择24个工业水平相近的城市的一个交通点,统计单位时间过往的汽车数(千辆)、同时在低空的相同高度测定了该时间段平均气温(℃)、空气湿度(%)、风速(m/s)以及空气
中一氧化氮(NO)的浓度(ppm),数据如表所示。

统计推断——假设检验——简单线性回归分析

研究目的

• 通过探讨与一氧化氮(NO)浓度相关的影响因素,为控制空气污染提供依据。

• 研究一个变量的变化(如空气中NO浓度)受到另外一个或一些变量(如车流量)变化的制约。这些问题在统计学中采用线性回归模型(linear regression model)来进行分析。

基本概念

• 回归分析中,若统计推断——假设检验——简单线性回归分析统计推断——假设检验——简单线性回归分析统计推断——假设检验——简单线性回归分析,…,统计推断——假设检验——简单线性回归分析的改变而改变,则称统计推断——假设检验——简单线性回归分析为反应变量(response variable),又称为因变量(dependent
variable);

统计推断——假设检验——简单线性回归分析统计推断——假设检验——简单线性回归分析,…,统计推断——假设检验——简单线性回归分析 为解释变量(explanatory variable),又称为自变量(independent variable),通常我们把自变量看作影响
因素(factors)。

• 简单线性回归(simple linear regression)

• 多重线性回归(multiple linear regression)

统计推断——假设检验——简单线性回归分析 可以是随机变量,也可以是人为选择的数值

• 统计推断——假设检验——简单线性回归分析 是按某种规律变化的连续型随机变量

2、简单线性回归模型

例,只考虑NO浓度与车流量的关系,以NO浓度为因变量,车流量为自变量,采用线性回归分析。问题如下:

问题

1. NO浓度随车流量的增加而增加吗?

2. 是直线趋势还是曲线趋势?

3. 如何采用回归方程定量地描述车流量对大气中NO浓度的影响?

4. 车流量每增加100辆,NO浓度平均会增加多少?

5. 车流量对NO浓度的影响有统计学意义吗?

6. 车流量对NO浓度的影响(贡献)有多大?

7. 如何由车流量预测大气中NO平均浓度?

8. 如何通过控制车流量达到控制空气中NO浓度的目的?

散点图

统计推断——假设检验——简单线性回归分析

简单线性回归方程

统计推断——假设检验——简单线性回归分析

回归系数的含义

统计推断——假设检验——简单线性回归分析的统计学意义是统计推断——假设检验——简单线性回归分析每增加(或减少)一个单位,统计推断——假设检验——简单线性回归分析平均改变统计推断——假设检验——简单线性回归分析个单位(即统计推断——假设检验——简单线性回归分析的均数统计推断——假设检验——简单线性回归分析改变统计推断——假设检验——简单线性回归分析个单位)。统计推断——假设检验——简单线性回归分析越大表示统计推断——假设检验——简单线性回归分析统计推断——假设检验——简单线性回归分析增减变化的趋势越陡。

统计推断——假设检验——简单线性回归分析的意义

统计推断——假设检验——简单线性回归分析>0,表明统计推断——假设检验——简单线性回归分析统计推断——假设检验——简单线性回归分析呈同向线性变化趋势;

统计推断——假设检验——简单线性回归分析<0,表明统计推断——假设检验——简单线性回归分析统计推断——假设检验——简单线性回归分析呈反向线性变化趋势;

统计推断——假设检验——简单线性回归分析=0,表明统计推断——假设检验——简单线性回归分析统计推断——假设检验——简单线性回归分析无线性回归关系,但并不表明没有其它关系。

样本的回归方程

统计推断——假设检验——简单线性回归分析

统计推断——假设检验——简单线性回归分析

最小二乘估计

1. 最小二乘估计(least square estimation,LSE)

2. 其想法是找一条直线,使得实测点至该直线的纵向距离(即残差)的平方和最小,此平方和称为残差平方和,记为 统计推断——假设检验——简单线性回归分析。残差平方和越小,该直线对散点趋势的代表性越好。

统计推断——假设检验——简单线性回归分析

a 和 b 的计算

统计推断——假设检验——简单线性回归分析

二、线性回归的假设检验

回归方程有统计学意义吗?

统计推断——假设检验——简单线性回归分析

• 假设检验包括两个方面:

1. 回归模型是否成立(model test):方差分析

2. 总体回归系数是否为零(parameter test):统计推断——假设检验——简单线性回归分析检验。

总变异的分解

统计推断——假设检验——简单线性回归分析

总变异的分解

统计推断——假设检验——简单线性回归分析

统计推断——假设检验——简单线性回归分析

回归模型的假设检验:

统计推断——假设检验——简单线性回归分析:总体回归方程不成立或总体中自变量统计推断——假设检验——简单线性回归分析对因变量统计推断——假设检验——简单线性回归分析没有贡献

统计推断——假设检验——简单线性回归分析:总体回归方程成立或总体中自变量统计推断——假设检验——简单线性回归分析对因变量统计推断——假设检验——简单线性回归分析有贡献

统计推断——假设检验——简单线性回归分析=0.05

统计推断——假设检验——简单线性回归分析

对例的回归方程 统计推断——假设检验——简单线性回归分析进行方差分析,结果如表所示(假设检验步骤略)。

统计推断——假设检验——简单线性回归分析

由表首行末列可见,统计推断——假设检验——简单线性回归分析<0.0001,按统计推断——假设检验——简单线性回归分析=0.05 水准,可认为 NO 浓度与车流量之间的回归方程具有统计学意义。

回归系数的假设检验:

统计推断——假设检验——简单线性回归分析统计推断——假设检验——简单线性回归分析=0

统计推断——假设检验——简单线性回归分析统计推断——假设检验——简单线性回归分析

统计推断——假设检验——简单线性回归分析=0.05

统计推断——假设检验——简单线性回归分析

接上例,经计算得(假设检验步骤略):

统计推断——假设检验——简单线性回归分析

由统计量统计推断——假设检验——简单线性回归分析统计推断——假设检验——简单线性回归分析 <0.0001,按统计推断——假设检验——简单线性回归分析=0.05水准,拒绝统计推断——假设检验——简单线性回归分析,故可认为该回归系数具有统计学意义。

注意:对于服从双变量正态分布的同样一组资料,若同时做了相关分析和回归分析,则相关系数的统计推断——假设检验——简单线性回归分析检验与回归系数的统计推断——假设检验——简单线性回归分析检验等价,且 统计推断——假设检验——简单线性回归分析

总体回归系数的区间估计:

统计推断——假设检验——简单线性回归分析

车流量对NO浓度的影响有多大?

统计推断——假设检验——简单线性回归分析

线性回归分析的前提条件:LINE

1. 线性(linear):反应变量与自变量的呈线性变化趋势。

2. 独立性(independence):任意两个观察值相互独立,一个个体的取值不受其他个体的影响。

3. 正态性(normal distribution):在给定值统计推断——假设检验——简单线性回归分析时,统计推断——假设检验——简单线性回归分析的取值服从正态分布

4. 等方差性(equal variance): 对应于不同的统计推断——假设检验——简单线性回归分析 值,统计推断——假设检验——简单线性回归分析值的总体变异相同 。

统计推断——假设检验——简单线性回归分析

三、简单线性回归的应用

问题

1. NO浓度随车流量的增加而增加吗?

2. 是直线趋势还是曲线趋势?

3. 如何采用回归方程定量地描述车流量对大气中NO浓度的影响?

4. 车流量每增加100辆,NO浓度平均会增加多少?

5. 车流量对NO浓度的影响有统计学意义吗?

6. 车流量对NO浓度的影响(贡献)有多大?

7. 如何由车流量预测大气中NO平均浓度?

8. 如何通过控制车流量达到控制空气中NO浓度的目的?

统计应用

统计预测

个体的容许区间: 预测是回归分析的重要应用之一,医学上常用在给定统计推断——假设检验——简单线性回归分析值(预报因子)时,计算个体统计推断——假设检验——简单线性回归分析值的容许区间。所谓个体统计推断——假设检验——简单线性回归分析值的容许区间是指总体中统计推断——假设检验——简单线性回归分析为某定值时,个体统计推断——假设检验——简单线性回归分析值的波动范围。

统计推断——假设检验——简单线性回归分析

当车流量为1300辆时,统计推断——假设检验——简单线性回归分析

空气中一氧化氮95%容许区间为

统计推断——假设检验——简单线性回归分析

均数的置信区间:统计推断——假设检验——简单线性回归分析为某定值和在给定置信度的情况下,欲知统计推断——假设检验——简单线性回归分析的总体均数的分布如何?我们可以估计总体中当统计推断——假设检验——简单线性回归分析为某定值统计推断——假设检验——简单线性回归分析时,统计推断——假设检验——简单线性回归分析的总体均数统计推断——假设检验——简单线性回归分析统计推断——假设检验——简单线性回归分析 置信区间 。

统计推断——假设检验——简单线性回归分析

当车流量为1300辆时,统计推断——假设检验——简单线性回归分析

空气中一氧化氮95%置信区间为

统计推断——假设检验——简单线性回归分析

统计推断——假设检验——简单线性回归分析

统计控制

根据空气污染指数分级,当空气质量状况不超过统计推断——假设检验——简单线性回归分析级时,要求空气中氮氧化物含量不超过0.100ppm~0.150ppm。该城市为降低空气中NO的含量,拟对车流量做适当控制。

依据估计的回归方程

统计推断——假设检验——简单线性回归分析和以上标准,分别计算得:

统计推断——假设检验——简单线性回归分析时,统计推断——假设检验——简单线性回归分析(千辆)

统计推断——假设检验——简单线性回归分析时,统计推断——假设检验——简单线性回归分析(千辆)

该城市单位时间内车流量应控制在 1500 辆以内,超过此限可能导致轻度污染;当车流量大于 1800 辆时,可能导致空气中度污染。

结果报告

• 简单线性回归分析通常需要报告以下内容:

1. 分析目的;

2. 拟合简单线性回归方程的估计方法;

3. 是否符合前提条件(LINE);

4. 参数估计结果;

5. 模型的拟合优度及其假设检验;

6. 对结果的专业解释。