2 回归分析
文章目录
第二章 回归分析
-
客观世界中普遍存在着变量之间的关系
-
变量之间的关系可分为确定性的和非确定性的两种
- 变量之间的关系可用函数关系来表达,
- 非确定性关系即所谓的相关关系,涉及的变量是随机变量
-
回归分析是研究相关关系的一种数学工具
2.1一元线性回归
1回归方程的建立
(1)问题的提出
- 如果只研究与的关系,可假设有如下结构
- 和是未知常数,称回归系数
- 表示其他随机因素对的影响
- 模型中假设是随机干扰或随机误差,
- 是个随机变量,满足
- 实际中常假定服从正态分布
- 用谁表示n组观察值。
- 如果他们符合模型(2.1.1),则
- 且
- 常假定相互独立
- (2.1.1)两边求期望得
- 表明,已知时,可精确地算出
- 是不可控的随机因素,
- 通常用作为的估计
- 因此有
- 表示的估计
- (2.1.2)求期望
- 或
- 回归分析的首要任务
- 用n组观察来估计和
- 估计用a、b来表示
- 便得方程
- 称此方程为回归方程
- a和b称为回归系数。
(2)最小二乘原理
- 现在用最小二乘原理求出模型中参数,B的估计。
- 样本带入到(2.1.1),得
- 样本带入到简化后的模型(2.1.4),得
- 一般,因此,要确定一条直线
- 也就是要确定的估计值和,
- 使回归直线与所有数据点都接近
- 为刻画这种“接近”,引入残差
- 残差指
- 观察值与回归值的偏差,用表示
- 几何意义如图2.1.3
- 考虑残差的平方和
- 最小二乘法选择a,b,使其最小
- 带入(2.1.8)得
- 带入到(2.1.9)得
- 用作的估计,得
- (2.1.10)带入得
- 用作的估计,得
- 一元线性回归中,误差的方差称误差方差,反映模型误差大小
- 极小化能求得误差方差的估计,
- 一般用
- 作为的估计
(3)最小二乘估计的性质
- 性质1(线性性)
- 估计量a,b是随机变量的线性函数
- 证明
- 所以,估计量是随机变量的线性函数
- 估计量是随机变量的线性函数。
-
估计的好坏有许多原则,无偏性是其中的一种
- 最小二乘估计是无偏估计
-
性质2(无偏性)
-
估计量是的无偏估计
-
由于
- 所以
- 又因为
- 所以
- 所以
- 所以是的无偏估计
2回归方程的显著性检验
(1)估计量的分布
- 定理2.1.1
- 一元线性回归中
- 知
- 是的线性组合
- 是的线性组合,所以服从正态分布。
- 所以
(3)统计量的构造
- 平方和分解公式看出
-
越小,
- 则占总偏差平方和的比重越大
- 比值反映出回归直线的效果
- 越大,说明回归直线这个因素对Sr的影响越大
- 回归效果越显著
- 为与的相关系数。
- 其中
再构造一个统计量F
- 定理2.1.3
- 一元线性回归中,
- 当时
- 且和独立
-
证明:
-
由2.1.1
-
-
时,
-
由此得
-
得
- 再由定理2.1.2
- 可得
- F这个统计量反映出与的线性关系
- 在下面的回归效果的显著性检验中会用到。
最后,构造一个统计量
(4)回归方程的显著性检验
i) r检验法
- 考虑统计量r,越接近1,x与y之间的线性关系越密切;
- r越接近0,线性关系越微弱
- 假设成立的情况下,x与y应该没有线性关系。
- 此时,计算r的观察值,如果这个观察值很大,说明x与y有线性关系,这与假设矛盾,这时拒绝原假设。
- 如果这个观察值如果不大,说明x与y没有线性系,接受原假设
- 步骤
- 写出原假设
- 给出显著水平
- 计算统计量观察值
- 算出拒绝域
- 结论:
- 若成立,则拒绝原假设
- 否则,接受原假设
i) r检验法
- 考虑统计量
- 假设成立下,x与y应没有线性关系
- 平方和分解公式
ST=Se+SR
SA反映出回归直线因素对Sr的影响,那么
SR的值不应该太大,因此,F的值
- 也不应该太大。
- 如果观察值很大,与假设矛盾,这时拒绝原假设。
- 说明x与y有线性关系。
- 如果这个观察值如果不大,这时接受原假设。
- x与y没有线性系。