方差、协方差、四分位差笔记
最近读了一篇paper,文中这么说:has small quartile errors.初次看到很是懵逼,不知道这个是什么东西,后来查了很多资料,没有发现很好讲解这个东东的。
Quartile error:其实就是我们百度的四分位差,百度百科上也叫quartile deviation,我觉得就是一个意思。
了解这个先复习一下,标准差,方差,协方差的概念。 部分内容来自点击打开链接
很显然,均值描述的是样本集合的中间点,它告诉我们的信息是很有限的,而标准差给我们描述的则是样本集合的各个样本点到均值的距离之平均。以这两个集合为例,[0,8,12,20]和[8,9,11,12],两个集合的均值都是10,但显然两个集合差别是很大的,计算两者的标准差,前者是8.3,后者是1.8,显然后者较为集中,故其标准差小一些,标准差描述的就是这种“散布度”。之所以除以n-1而不是除以n,是因为这样能使我们以较小的样本集更好的逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。
协方差就是:from baidu
直白话理解,就是衡量两个变量之间的相关性大小。计算公式如下所示:
如果出现多维不是两维的,那就是一个协方差矩阵了。
协方差矩阵,正对角线是方差,副对角线就是协方差,衡量变量之间的相关性。
说了那么多,那啥是四分位差呢?
直面理解:四分?啥意思?就是一组数据,我们按照一共100%等分,我们平均把其分为四个等分,也就是每个等分占25%。
四分位差(quartile deviation),它是上四分位数(Q3,即位于75%)与下四分位数(Q1,即位于25%)的差。
计算公式为:Q = Q3-Q1(先记住以下,后面有例子)
四分位数是将一组数据由小到大(或由大到小)排序后,用3个点将全部数据分为4等份,与这3个点位置上相对应的数值称为四分位数,分别记为Q1(第一四分位数),说明数据中有25%的数据小于或等于Q1,Q2(第二四分位数,即中位数)说明数据中有50%的数据小于或等于Q2、Q3(第三四分位数)说明数据中有75%的数据小于或等于Q3。其中,Q3到Q1之间的距离的差的一半又称为分半四分位差,记为(Q3-Q1)/2。
计算方法:
例子:
这样的图我们依然可以计算出四分位差:
- 最小值(minimum)=5
- 下四分位数(Q1)=7
- 中位数(Med--也就是Q2)=8.5
- 上四分位数(Q3)=9
- 最大值(maximum)=10
- 平均值=8
- 四分位间距(interquartile range)={\displaystyle Q3-Q1}=2 (即ΔQ)
- farout: 在图上不予显示,仅标注一个符号∇。
- 最大值区间: Q3+1.5ΔQ
- 最小值区间: Q1-1.5ΔQ
- mild outlier = 3.5
extreme outlier = 0.5
看中位线误差,如果中位值误差很小,说明很多的数据点(50%)误差都集中在中位值下面,则误差比较小,有很好的的效果。