2 回归分析

第二章 回归分析

  • 客观世界中普遍存在着变量之间的关系

  • 变量之间的关系可分为确定性的和非确定性的两种

    • 变量之间的关系可用函数关系来表达,
    • 非确定性关系即所谓的相关关系,涉及的变量是随机变量
  • 回归分析是研究相关关系的一种数学工具

2.1一元线性回归

1回归方程的建立

(1)问题的提出

  • 如果只研究xxyy的关系,可假设有如下结构

2 回归分析

  • α\alphaβ\beta是未知常数,称回归系数
  • ε\varepsilon表示其他随机因素对yy的影响
  • 模型中假设ε\varepsilon是随机干扰或随机误差,
    • 是个随机变量,满足

2 回归分析

  • 实际中常假定ε\varepsilon服从正态分布

2 回归分析

  • 用谁表示n组观察值。
  • 如果他们符合模型(2.1.1),则

2 回归分析

2 回归分析

  • 常假定εi\varepsilon_i相互独立

  • (2.1.1)两边求期望得

2 回归分析

  • 表明,xx已知时,可精确地算出E(x)E(x)
  • ε\varepsilon是不可控的随机因素,
  • 通常用E(y)E(y)作为yy的估计
  • 因此有

2 回归分析

  • y^\hat{y}表示yy的估计

  • (2.1.2)求期望

2 回归分析

2 回归分析

  • 回归分析的首要任务
    • 用n组观察来估计α\alphaβ\beta
  • 估计用a、b来表示
  • 便得方程

2 回归分析

  • 称此方程为回归方程
  • a和b称为回归系数。

(2)最小二乘原理

  • 现在用最小二乘原理求出模型中参数,B的估计。
  • 样本带入到(2.1.1),得

2 回归分析

  • 样本带入到简化后的模型(2.1.4),得

2 回归分析

  • 一般yiy^iy_i\not=\hat{y}_i,因此,要确定一条直线
  • 也就是要确定α,β\alpha,\beta的估计值aabb,
    • 使回归直线与所有数据点都接近

  • 为刻画这种“接近”,引入残差
  • 残差指
    • 观察值与回归值的偏差,用eie_i表示
  • 几何意义如图2.1.3

2 回归分析

  • 考虑残差的平方和

2 回归分析

  • 最小二乘法选择a,b,使其最小

2 回归分析

2 回归分析

2 回归分析

  • 带入(2.1.8)得

2 回归分析

  • 带入到(2.1.9)得

2 回归分析

  • 用作ββ的估计,得

2 回归分析

  • (2.1.10)带入α=yβx\alpha=\overline{y}-\beta\overline{x}

2 回归分析

  • 用作α\alpha的估计,得

2 回归分析

  • 一元线性回归中,误差ε\varepsilon的方差σ2\sigma^2称误差方差,反映模型误差大小
  • 极小化QQ能求得误差方差σ2\sigma^2的估计,
  • 一般用

2 回归分析

  • 作为σ2\sigma^2的估计

(3)最小二乘估计的性质

  • 性质1(线性性)
  • 估计量a,b是随机变量yiy_i的线性函数
  • 证明

2 回归分析

2 回归分析

  • 所以,估计量bb是随机变量yiy_i的线性函数

2 回归分析

  • 估计量aa是随机变量yiy_i的线性函数。

  • 估计的好坏有许多原则,无偏性是其中的一种

    • 最小二乘估计是无偏估计
  • 性质2(无偏性)

  • 估计量a,ba,bα,β\alpha,\beta的无偏估计

  • 由于

2 回归分析

  • 所以

2 回归分析

  • 又因为

2 回归分析

  • 所以

2 回归分析

  • 所以

2 回归分析

  • 所以bbβ\beta的无偏估计

2回归方程的显著性检验

(1)估计量的分布

  • 定理2.1.1
  • 一元线性回归中

2 回归分析

2 回归分析

  • yiN(α+βxi,σ2)y_i\sim N(\alpha+\beta x_i,\sigma^2)

2 回归分析

  • yiy_i的线性组合
  • yiy_i的线性组合,所以bb服从正态分布。

2 回归分析

  • 所以

2 回归分析

(3)统计量的构造

  • 平方和分解公式ST=Se+SRS_T=S_e+S_R看出
  • SeS_e越小,
    • SRS_R占总偏差平方和STS_T的比重越大
  • 比值反映出回归直线的效果
  • 越大,说明回归直线这个因素对Sr的影响越大
    • 回归效果越显著

2 回归分析

2 回归分析

  • xxyy的相关系数。
  • 其中

2 回归分析

再构造一个统计量F
  • 定理2.1.3
  • 一元线性回归中,
  • β=0\beta=0

SRσ2χ2(1)\frac{S_R}{\sigma^2}\sim \chi^2(1)

  • SeS_eSRS_R独立

  • 证明:

  • 由2.1.1

  • bN(β,σ2Lxx)b\sim N(\beta,\frac{\sigma^2}{L_{xx}})

  • β=0\beta=0时,bN(0,σ2Lxx)b\sim N(0,\frac{\sigma^2}{L_{xx}})

  • 由此得
    bLxxσN(0,1)\frac{b\sqrt{L_{xx}}}{\sigma}\sim N(0,1)

2 回归分析

  • 再由定理2.1.2

2 回归分析

  • 可得

2 回归分析

  • F这个统计量反映出xxyy的线性关系
  • 在下面的回归效果的显著性检验中会用到。
最后,构造一个统计量

(4)回归方程的显著性检验

i) r检验法

2 回归分析

  • 考虑统计量r,越接近1,x与y之间的线性关系越密切;
  • r越接近0,线性关系越微弱

  • 假设成立的情况下,x与y应该没有线性关系。
  • 此时,计算r的观察值,如果这个观察值很大,说明x与y有线性关系,这与假设矛盾,这时拒绝原假设。
  • 如果这个观察值如果不大,说明x与y没有线性系,接受原假设

  • 步骤
  • 写出原假设H0:β=0H_0:\beta=0
  • 给出显著水平α\alpha
  • 计算统计量rr观察值

2 回归分析

  • 算出拒绝域r>rn2,α2|r|>r_{n-2,\frac{\alpha}{2}}
  • 结论:
    • r>rn2,α2|r|>r_{n-2,\frac{\alpha}{2}}成立,则拒绝原假设
    • 否则,接受原假设
i) r检验法
  • H0:β=0H_0:\beta=0
  • 考虑统计量FF
  • 假设成立下,x与y应没有线性关系
  • 平方和分解公式
    ST=Se+SR
    SA反映出回归直线因素对Sr的影响,那么
    SR的值不应该太大,因此,F的值

2 回归分析

  • 也不应该太大。

  • 如果观察值很大,与假设矛盾,这时拒绝原假设。
    • 说明x与y有线性关系。
  • 如果这个观察值如果不大,这时接受原假设。
    • x与y没有线性系。