方差、协方差、四分位差笔记



最近读了一篇paper,文中这么说:has small quartile errors.初次看到很是懵逼,不知道这个是什么东西,后来查了很多资料,没有发现很好讲解这个东东的。

Quartile error:其实就是我们百度的四分位差,百度百科上也叫quartile deviation,我觉得就是一个意思。

了解这个先复习一下,标准差,方差,协方差的概念。 部分内容来自点击打开链接

方差、协方差、四分位差笔记

很显然,均值描述的是样本集合的中间点,它告诉我们的信息是很有限的,而标准差给我们描述的则是样本集合的各个样本点到均值的距离之平均。以这两个集合为例,[0,8,12,20]和[8,9,11,12],两个集合的均值都是10,但显然两个集合差别是很大的,计算两者的标准差,前者是8.3,后者是1.8,显然后者较为集中,故其标准差小一些,标准差描述的就是这种“散布度”。之所以除以n-1而不是除以n,是因为这样能使我们以较小的样本集更好的逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。


协方差就是:from baidu 

协方差(Covariance)在概率论统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
其实很好理解:我们之前学的方差,标准差基本上都是针对一维数据的,也就是看一维数据的离散程度,一般我们现实生活中,常常会有多维的情况,那么就不能很好的用方差和标准差去衡量了,所以现在我们使用另外一个metric来衡量,就是协方差。

直白话理解,就是衡量两个变量之间的相关性大小。计算公式如下所示:

方差、协方差、四分位差笔记

如果出现多维不是两维的,那就是一个协方差矩阵了。

协方差矩阵,正对角线是方差,副对角线就是协方差,衡量变量之间的相关性。


说了那么多,那啥是四分位差呢?

直面理解:四分?啥意思?就是一组数据,我们按照一共100%等分,我们平均把其分为四个等分,也就是每个等分占25%。

方差、协方差、四分位差笔记

四分位差(quartile deviation),它是上四分位数(Q3,即位于75%)与下四分位数(Q1,即位于25%)的差。


计算公式为:Q = Q3-Q1(先记住以下,后面有例子)


四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。四分位差不受极值的影响。此外,由于中位数处于数据的中间位置,因此,四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。四分位差主要用于测度顺序数据的离散程度。对于数值型数据也可以计算四分位差,但不适合分类数据。

四分位数是将一组数据由小到大(或由大到小)排序后,用3个点将全部数据分为4等份,与这3个点位置上相对应的数值称为四分位数,分别记为Q1(第一四分位数),说明数据中有25%的数据小于或等于Q1,Q2(第二四分位数,即中位数)说明数据中有50%的数据小于或等于Q2、Q3(第三四分位数)说明数据中有75%的数据小于或等于Q3。其中,Q3到Q1之间的距离的差的一半又称为分半四分位差,记为(Q3-Q1)/2。

计算方法:

1.未分组数据
首先对数据进行排序,求出QlQ3所在的位置;其次根据位置确定其对应的标志值即QlQ3;最后计算二者差额的一半,即就是四分位差。
Ql的位置= (n + 1) / 4
Q3的位置= 3*(n + 1) / 4

例子:

例1:由7人组成的旅游小团队年龄分别为:17、19、22、24、25、28、34,求其年龄的四分位差。计算步骤为:
①计算Q1,与Q3的位置。
Q1的位置= (n + 1) / 4 = (7 + 1) / 4 = 2
Q3的位置= 3*(n + 1) / 4 = 3*(7 + 1) / 4 = 6
Q1Q3的位置分别为第2位和第6位。
②确定Q1Q3的数值。
Q1=19(岁)
Q3=28(岁)
即第2位和第6位对应年龄分别为19岁和28岁。
③计算四分位差。
Q.D.=Q3 − Q1=28-19=9(岁)
④含义。说明该旅游小团队有50%的人年龄集中在19~28岁之间,最大差异为9岁
还有另外两种计算方式:参照点击打开链接
但是在我们读的paper中 会出现这样的图:

方差、协方差、四分位差笔记


这样的图我们依然可以计算出四分位差:

方差、协方差、四分位差笔记

这组数据显示出:
  • 最小值(minimum)=5
  • 下四分位数(Q1)=7
  • 中位数(Med--也就是Q2)=8.5
  • 上四分位数(Q3)=9
  • 最大值(maximum)=10
  • 平均值=8
  • 四分位间距(interquartile range)={\displaystyle Q3-Q1}=2 (即ΔQ)
在区间 Q3+1.5ΔQ, Q1-1.5ΔQ 之外的值被视为应忽略(farout)。
  • farout: 在图上不予显示,仅标注一个符号∇。
  • 最大值区间: Q3+1.5ΔQ
  • 最小值区间: Q1-1.5ΔQ
最大值与最小值产生于这个区间。区间外的值被视为outlier显示在图上.
  • mild outlier = 3.5
  • extreme outlier = 0.5

看中位线误差,如果中位值误差很小,说明很多的数据点(50%)误差都集中在中位值下面,则误差比较小,有很好的的效果。