本该:9 回归分析

  • 回归分析
    • 研究两个或以上变量间的相互关系的统计方法
  • 不是一种确定性的关系,无法用确定函数表示
  • 回归分析通过建立统计模型来研究这种关系
    • 并由此对相应的变量预测和控制

  • 变量只有两个时,称一元回归分析,
  • 两个以上,多元回归
  • 变量间呈线性关系,线性回归;
    • 不具有线性关系,称为非线性回归

  • 回归分析的方法包括一元线性回归,多元线性回归,非线性回归

本该:9 回归分析

第一节:一元线性回归

一:一元线性回归的数学模型

  • 设变量YY对变量XX的回归有β0+β1X\beta_0+\beta_1 X的形式,则
  • 有一元线性回归数学模型

Y=β0+β1X+ε(9.1)Y=\beta_0+\beta_1 X+\varepsilon\tag{9.1}

  • 通常设

εN(0,1)(9.2)\varepsilon\sim N(0,1)\tag{9.2}

  • β0,β1\beta_0,\beta_1是未知参数
  • X,YX,Y的观测值(x1,y1),(x2,y2),,(xn,yn)(x_1,y_1),(x_2,y_2),…,(x_n,y_n)β0,β1\beta_0,\beta_1作一估计
  • 称方程

本该:9 回归分析

  • YY关于XX的线性回归方程
  • Y^\hat{Y}表示β0^\hat{\beta_0},β1^\hat{\beta_1}确定之后对于给定的XX相应的YY预报值(也称YY的拟合值或回归值)
  • 代入一个XX,就得到对应于这XX的均值的预报Y^\hat{Y}

二、回归系数的最小二乘估计

  • 估计模型的参数,用最小二乘法.
  • n组观测
  • 由式(9.1)

本该:9 回归分析

  • 从而得到偏离真实直线Y=β0+β1XY=\beta_0+\beta_1X的偏差平方和

本该:9 回归分析

  • 现选择估计值使SS最小
  • SS分别求偏导,并令为零

本该:9 回归分析

  • 称式(9.6)为正规方程组,解为

本该:9 回归分析

本该:9 回归分析

  • 用这种方法求出的参数称最小二乘估计(LS)估计

三、回归估计的精度

  • 现讨论回归直线的估计精度,

本该:9 回归分析

  • 残差eie_i由两部分构成
  • 观测值与均值y\overline{y}的偏差
  • 拟合值与均值的偏差

本该:9 回归分析

  • y^i\hat{y}_i的均值与yiy_i均值相等

  • 将(9.10)改写成yiy=(y^iy)+(yiy^i)y_i-\overline{y}=(\hat{y}_i-\overline{y})+(y_i-\hat{y}_i)
  • 两边平方,从1到n求和,得

本该:9 回归分析

  • (9.12)的左边是YY的校正平方和,校正SS
    • yiy_i总变差
  • (y^iy)(\hat{y}_i-\overline{y})
    • ii次观测的预报值与均值的偏差,平方和称回归平方和
      • 简写为回归SS
  • (yiy^i)(y_i-\hat{y}_i)是第ii次观测值与它的预报值的偏差(残差)
    • 其平方和称残差平方和
  • 式(9.12)就说
  • 校正平方和=回归平方和+残差平方和

  • YY关于其均值的方差(校正平方和)分两部分
  • 前部分是由回归线引起的
  • 后部分是由于实际观测值没落在回归线上引起(否则残差平方和为0)
  • 判别回归线拟合程度好坏,即看校正SS中,
    • 包含多少回归SS和残差SS.
  • 如果回归SS远比残差SS大,或

本该:9 回归分析

  • 则可认为回归效果较满意

  • 每一个平方和都与自由度(df)相联系
    • 表示在平方和中独立的项数
  • 校正SS中,yiyy_i-\overline{y}之和为0
    • 只有n-1个是独立的,自由度为n-1
  • 可用y1,y2,...,yny_1,y_2,...,y_n的一个函数β^1\hat{\beta}_1计算回归SS,故它的自由度为1.
  • 用变量变换,可以求出残差SS的自由度为n-2.
    • 表明残差是从需要估计的两个参数的直线模型的拟合中出现的.
  • 残差SS有“观测次数减去需要估计的参数个数”个自由度

本该:9 回归分析

还有一点

四、σ2\sigma^2的估计

  • 残差SS记作QeQ_e则,
  • εN(0,σ2)\varepsilon\sim N(0,\sigma^2)的假定下,可证

本该:9 回归分析

  • 因此E(Qeσ2)=n2E(\frac{Q_e}{\sigma^2})=n-2,即知

本该:9 回归分析

  • σ2\sigma^2的无偏估计

五、线性假设的显蓍性检验

  • 在前面的一元线性模型式(9.1),线性模型的提出
    • 要专业知识根据问题本身的特点提出
    • 但模型是否接近问题本质,
    • 或得到的线性回归方程(及预报方程)是否有价值,
    • 要根据实际观测到的数据,用假设检验判断
  • 若线性假设式(9.1)成立,则β1\beta_1不应为0.
    • 若=0,则yy就不依赖xx
  • 要检验的假设

本该:9 回归分析

  • 可证

本该:9 回归分析