分位数与箱线图的详细理解

最近在读论文时,碰到了箱线图这个东西,之前没见过,所以查了一下资料,发现它跟分位数联系紧密,于是又接着学习了一下分位数,并将相关内容整理如下:

分位数

首先说一下分位数(Quantile)的概念

百度给出的解释:设连续随机变量X的累积分布函数为F,概率密度函数为p。那么,对任意0<p<1的p,称F=p的X为此分布的分位数,或者下侧分位数。简单的说,分位数指的就是连续分布函数中的一个点,这个点的一侧对应概率p。

维基百科的解释:分位数(英语:Quantile),亦称分位点,是指用分割点(cut point)将一个随机变量概率分布范围分为几个具有相同概率的连续区间。换句话说,分位数指的就是连续分布函数中的一个点,这个点对应概率p。

一位知乎大神的解释:分位数就是用概率作为依据将一批数据分开的那个点。链接:如何通俗地理解分位数? - 冯春明的回答 - 知乎 https://www.zhihu.com/question/67763556/answer/394626078

我的理解:分位数本质上就是随机变量的某个取值,它的特殊之处在于,通过分位数,可以知道某个随机变量在某一范围内取值的概率。以我们熟悉的中位数为例(中位数即二分位数),对于一组中位数为30的数据,那么我们可以推知,这组数中大约有50%的数是小于30的。当然中位数有上分位数和下分位数之分,常用的是下分位数。参考链接:统计学分位数怎么理解? - 心缘的回答 - 知乎 https://www.zhihu.com/question/380523957/answer/1088380576

 

常用的分位数有中位数(即二分位数)、四分位数(quartile)、十分位数(decile )、百分位数等。接下来说一下四分位数。

四分位数

四分位数:指将一组数据按从小到大的顺序排列后等分为四等份,处于三个分割点位置的数值就是四分位数。关于这个定义,结合前面提到的中位数的概念,应该不难理解。其中:

第一四分位数 (Q1),又称“较小四分位数”或“下四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。

第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。

第三四分位数 (Q3),又称“较大四分位数”或“上四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range,IQR)。

 

接下来重点说下四分位数的计算方法。首先说结论,那就是四分位数的计算方法不止一种,每种计算方法得到的结果可能有所不同。维基百科对此的说明是:关于四分位数值的选择尚存争议。而Wolfram MathWorld上给出了五种计算方法,如下图:

分位数与箱线图的详细理解

具体链接是:https://mathworld.wolfram.com/Quartile.html。关于为什么有多种方法,它们的之间的具体不同是什么,我没有深究, 有兴趣的小伙伴可以自行深入了解。附上一个相关视频:https://www.youtube.com/watch?v=wIfrzY5swMI

现在说一下我了解的两种方法。

方法一:采用上表中的第一种方法(Mintab)。

第一步:确定四分位数的位置:

Q1的位置= (n+1) × 0.25

Q2的位置= (n+1) × 0.5

Q3的位置= (n+1) × 0.75

n表示数据的个数。(至于为啥用n+1,可以参考:四分位数的位置计算原理? - 甲壳虫的回答 - 知乎 https://www.zhihu.com/question/54858749/answer/1149918297

第二步:根据四分位数的位置,确定其对应的四分位数。话不多说,直接上例子。

假设某车间某月份的工人生产某产品的数量分别为13、13.5、13.8、13.9、14、14.6、14.8、15、15.2、15.4、15.7公斤,则根据第一步中的公式,可以得出三个四分位数的位置分别为:

Q1的位置=3,Q2的位置=6,Q3的位置=9.因此,上面数列中的第三个、第六个、第九个工人的某种产品产量分别为下四分位数、中位数和上四分位数。即:Q1=13.8公斤,Q2=14.6公斤,Q3=15.2公斤。

当然,上例中(n+1)恰好为4的倍数,所以确定四分数较简单,如果(n+1)不为4的整数倍数,按上述分式计算出来的四分位数位置就带有小数,这时,有关的四分位数就应该是与该小数相邻的两个整数位置上的标志值的平均数,权数的大小取决于两个整数位置距离的远近,距离越近,权数越大,距离越远,权数越小,权数之和等于1。

例如:某车间某月份的工人生产某产品的数量分别为13、13.5、13.8、13.9、14、14.6、14.8、15、15.2、15.4公斤,则三个四分位数的位置分别为:

Q1的位置=2.75,Q2的位置=5.5,Q3的位置=8.25。

即变量数列中的第2.75项、第5.5项、第8.25项工人的某种产品产量分别为下四分位数、中位数和上四分位数。即:

Q1=0.25×第二项+0.75×第三项=0.25×13.5+0.75×13.8=13.73(公斤)

Q2=0.5×第五项+0.5×第六项=0.5×14+0.5×14.6=14.3(公斤)

Q3=0.75×第八项+0.25×第九项=0.75×15+0.25×15.2=15.05(公斤)

方法二:来自维基百科https://zh.wikipedia.org/wiki/%E5%9B%9B%E5%88%86%E4%BD%8D%E6%95%B0#cite_note-1

分位数与箱线图的详细理解

有关其他计算四分位数方法的使用,由于暂时没有接触到,所以等以后有机会学习了再补充~~ 

 

箱线图

由于四分位数多应用于统计学中的箱线图绘制,所以上面介绍了半天分位数和四分位数。接下来对箱线图展开介绍。

箱形图(boxplot):又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。常用于品质管理以及快速识别异常值,它可以不受异常值的影响,能够稳定地描绘出数据的离散分布情况,同时也利于数据清洗。接下来重点介绍箱线图的绘制,其实就是对绘制箱线图所要用到的五个关键参数给出解释。

箱线图由以下五个关键的数据点构成:

  • 上须:最大值
  • 下须:最小值
  • 上枢纽:上四分位数Q3
  • 下枢纽:下四分位数Q1
  • 中位数:Q1

分位数与箱线图的详细理解

以上图为例,其中上枢纽,下枢纽,中位数的概念和画法都比较清晰,我就不再赘述了,从图中一看便知。下面重点讲解上须下须

相信查过箱线图资料的小伙伴在很多网站或者博客中都看到:上须=Q3+1.5IQR,下须=Q1-1.5IQR,其中IQR(interquartile range,四分位间距) = Q3-Q1,即上四分位数与下四分位数之间的差,也就是盒子的长度。如果单看上面的箱线图,似乎没啥毛病。但是如果你多看几幅箱线图的实例,你会发现有下面这种的箱线图:

分位数与箱线图的详细理解

有没有发现问题?是的,它上面那段须跟下面那段须长度竟然不一样?按给出的公式来说,它们的长度应该相同,都是1.5IQR。难道是画错了?我又在网上找了很多关于箱形图的实例,发现这种情况很普遍,那说明并不是画错了,应该是对上须和下须的概念理解有误。后来在网上找了半天,终于找到了一个合理的解释:如果数据中没有超过+/– 1.5(IQR)的数,则以实际数据中的最大最小值标上下须,而不是直接用Q3+1.5IQR或Q1-1.5IQR这样的公式来计算。更详细的解释可以参考:https://www.cnblogs.com/space-place/p/7643480.html。有了上线须(或者说是上下限)之后,就可以进行异常值的检测,很明显,在上下限之外的数据就属于异常值。

 

以上内容均属于个人理解,难免存在不足之处,欢迎大家批评指正,以便不断完善~~

补充参考资料:

  1. https://blog.****.net/qq_35318838/article/details/73152563?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.control
  2. https://www.zhihu.com/question/318429550