统计学04|线性回归,卡方分布,方差分析

线性回归(简单线性回归)

简单线性回归模型是用于估计一个连续预测变量和一个连续回应变量的线性关系。回归方程或估计回归方程表达为:

f(x)=wx+bf(x)=wx+b

  • x是预测变量
  • f(x)是回应变量的预测值
  • b是回归线在y轴上的截距
  • w是回归线的斜率
  • b和w称为回归系数

问题:只要能求出wwbb,便能得到线性模型,该如何求得wwbb呢?

我们希望预测值f(xi)f(x_{i})和真实值yiy_{i}尽可能接近,该如何衡量它们的差异呢?
直观来说,我们可以有两种方案:

1)f(xi)yi1) |f(x_{i})-y_{i}|
2)(f(xi)yi)22)(f(x_{i})-y_{i})^{2}

第二个方案即最小二乘法法(least square method)。我们把所有个体的预测值和真实值之间的差异加总:

g(w,b)=i=1n(f(xi)yi)2=i=1n(wxi+byi)2g(w,b)=\sum_{i=1}^{n}(f(x_{i})-y_{i})^{2}=\sum_{i=1}^{n}(wx_{i}+b-y_{i})^{2}

我们的目标是求出wwbb,让g(w,b)g(w,b)取得最小值。因此我们可以用偏导数求解: {g(w,b)w=0g(w,b)b=0\left\{\begin{matrix} \frac{\partial g(w,b)}{\partial w}=0\\ \frac{\partial g(w,b)}{\partial b}=0 \end{matrix}\right.
  解出:
{w=i=1nyi(xixˉ)i=1nxi2nxˉ2b=yˉwxˉxˉ=1ni=1nxiyˉ=1ni=1nyi\left\{\begin{matrix} w=\frac{\sum_{i=1}^{n}y_{i}(x_{i}-\bar{x})}{\sum_{i=1}^{n}x_{i}^2-n\bar{x}^{2}}\\ b=\bar{y}-w\bar{x}\\ \bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i}\\ \bar{y}=\frac{1}{n}\sum_{i=1}^{n}y_{i} \end{matrix}\right.

下面通过实例来了解下线性回归的具体应用。

决定系数

r2r^2称为决定系数用来衡量回归线的拟合度,也即最小二乘回归线产生的线性估计与实际观测数据的拟合程度。前面提到回应变量的估计值,实际值与预测值之差y-yˉ\bar{y} 代表预测误差或残差。

假设开始为数据集里的每个记录计算(y-y’)(其中y’为回应变量的平均值),然后计算其平方和,这与计算误差(y-yˉ\bar{y}),然后计算误差平方和类似。这时统计量总体误差平方和SST为:
SST=(y1y)2+(y2+y)2+(y3y)...SST=(y_1-y')^2+(y_2+y')^2+(y_3-y')...

SST,也称为总体平方和(sum of squares total,SST)是在没有考虑预测变量的情况下,衡量回应变量总体变异的统计量。

接下来是衡量估计回归方程能多大程度提高估计的准确度。运用回归线时的估计误差为: y−yˉ\bar{y} 因此改进量是:yˉ\bar{y}−y′ 。 进一步基于yˉ\bar{y}−y′ 构造一个平方和的统计量,这样的统计量被称为回归平方和 (sum of squares of regression,SSR) ,是相对于忽略预测信息,衡量在使用回归线后预测精度提高的统计量,即
SSR=(yˉy)2+(yˉ+y)2+(yˉy)...SSR=(\bar{y}-y')^2+(\bar{y}+y')^2+(\bar{y}-y')...
yy=(yˉy)+(yyˉ)y−y′=(\bar{y}−y′)+(y−\bar{y})两边都进行平方,然后进行总和运算:
SST=SSR+SSE SST=SSR+SSE

SSE可以被认为是衡量不能被x和y之间的回归线所解释的其他变异,包括随机变异。 决定系数 r2r^2,它衡量了用回归线来描述预测变量和回应变量之间线性关系的符合程度,公式表达如下:r2=SSRSST r^2=\frac{SSR}{SST}

卡方分布

卡方分布(也写作χ²分布)是概率论与统计学中常用的一种概率分布。k个独立的标准正态分布变量的平方和服从自由度为k的卡方分布。
统计学04|线性回归,卡方分布,方差分析

方差分析

方差分析是数据分析中常见的统计模型,依靠F-分布为概率分布的依据,利用平方和(Sum of square)与自由度(Degree of freedom)所计算的组间与组内均方(Mean of square)估计出F值,若有显著差异则考量进行事后比较或称多重比较(Multiple comparison),用于探讨其各组之间的差异为何。