统计|如何利用标准残差检测异常值并剔除

本博文源于《商务统计》。旨在解决如何利用标准残差检测异常值并将其剔除。我们在用统计软件做回归分析时终是希望自己的回归曲线能较好地拟合数据。但现实中我们对数据清洗后,有一部分的值不是那么友好。就是感觉怪怪的,如何用数学的语言去描述去把它们一一剔除呢?

问题起源

统计|如何利用标准残差检测异常值并剔除
从图中我们都知道有一种指标叫做残差,我们回归分析核心要领就是将残差控制到最小,但是有一些值偏离这条线很大,如何剔除就是我们要解决的问题。

估计标准误差

估计标准误差的计算就是残差求均值。我们除以的是它的自由度。公式如下:
se=i=1n(yiy^i)2n2=SSEn2=MSE s_e=\sqrt{\frac{\sum_{i=1}^n(y_i-\hat{y}_i)^2}{n-2}}=\sqrt{\frac{SSE}{n-2}}=\sqrt{MSE}

  1. 实际观察值与回归估计值离差平方和的均方根
  2. 反映实际观察值在回归直线周围的分散情况
    统计|如何利用标准残差检测异常值并剔除
    通过残差求平均值,我们想当然可以肯定的第一个回归分析拟合的好。

3σ\sigma准则与估计标准误差的关系

3σ\sigma指的是落在以μ\mu为中心的σ\sigma半径区间的概率,
统计|如何利用标准残差检测异常值并剔除
类比成回归方程里就可以看出,利用残差去代替正态里的σ\sigma就可以判定谁是异常值。在残差分析中,认为超过±3σ^\pm3\hat{\sigma}的残差为异常值.标准化残差计算公式
ZREi=eiσ^ ZRE_i=\frac{e_i}{\hat{\sigma}}

剔除异常值的情形

统计|如何利用标准残差检测异常值并剔除
根据正态情形只需要把3σ\sigma之外的剔除掉就可以了。

总结

我们剔除异常值的理论依据就是根据正态分布的3σ\sigma原则,计算标准残差即可。而标准残差的计算就是:残差除以标准误差
=eise 标准残差=\frac{e_i}{s_e}
在落在大于3的区间里就可以剔除掉。