漫步数理统计三十四——顺序统计量

本篇博文将定义顺序统计量并讨论这种统计量的一些简单性质。近些年来这种统计量在统计推断中占有重要角色,因为他们的某些性质不依赖于得到随意样本的分布。

X1,X2,,Xn表示连续型分布中得到的随机样本,其pdf为f(x)支撑为=(a,b),a<bY1Xi中最小的,Y2Xi次小值的,依次类推Yn是最大的,那么当X1,X2,,Xn按大小增序排列时我们可以用Y1<Y2<<Yn来表示,称Yi,i=1,2,,n为随意样本X1,X2,,Xn的第i个顺序统计量,Y1,Y2,,Yn的联合pdf在下面定理中给出。

1利用上面的符号,Y1<Y2<<Yn表示随机样本X1,X2,,Xn的n个顺序统计量,其中随机样本是从pdf为f(x),支撑为(a,b)的连续型分布中得到的,那么Y1,Y2,,Yn的联合pdf为

g(y1,y2,,yn)={n!f(y1)f(y2)f(yn)0a<y1<y2<<yn<belsewhere

注意到X1,X2,,Xn的支撑映射到Y1,Y2,,Yn的支撑(即{(y1,y2,,yn):a<y1<y2<<yn<b})上可以分布n!个互相不交的集合,这些n!个集合中有一个为a<x1<x2<<xn<b且其他的是通过置换这nx值得到的,变换x1=y1,x2=y2,,xn=yn的雅可比等于1,其余的要么为1要么为-1,所以

g(y1,y2,,yn)=i=1n!|Ji|f(y1)f(y2)f(yn)={n!f(y1)f(y2)f(yn)0a<y1<y2<<yn<belsewhere

得证。||

1X表示pdf为f(x)的连续型随机变量,支撑为=(a,b),a<bX的分布函数F(x)可以写成

F(x)=xaf(w)dw,a<x<b

如果xa,F(x)=0;如果bx,F(x)=1,那么存在唯一的中值m使得F(m)=12,令X1,X2,X3表示该分布的随机样本且Y1<Y2<Y3表示样本的顺序统计量,我们想计算Y2m的概率,这三个顺序统计量的联合pdf为

g(y1,y2,y3)={6f(y1)f(y2)f(y3)0a<y1<y2<y3<belsewhere

那么Y2的pdf为

h(y2)=6f(y2)by2y2af(y1)f(y3)dy1dy3={6f(y2)F(y2)[1F(y2)]0a<y2<belsewhere


P(Y2m)=6ma{F(y2)f(y2)[F(y2)]2f(y2)}dy2=6{[F(y2)]22[F(y2)]33}ma=12

我们很容易看出

xa[F(w)]α1f(w)dw=[F(x)]αα,α>0


by[1F(w)]β1f(w)dw=[1F(y)]ββ,β>0

基于上面的讨论我们很容易得到任意顺序统计量的边缘pdf,假设为Yk,F(x),f(x)的形式,那么通过积分即可:

gk(yk)=ykay2abykbyn1n!f(y1)f(y2)f(yn)dyndyk+1dy1dyk1

得到的结果为

gk(yk)={n!(k1)!(nk)![F(yk)]k1[1F(yk)]nkf(yk)0a<yk<belsewhere

2Y1<Y2<Y3<Y4表示大小为4的随机样本的顺序统计量,随机样本是从pdf为

f(x)={2x00<x<1elsewhere

的分布中得到的,我们用f(x),F(x)表示Y3的pdf后就能计算P(12<Y3),这里F(x)=x2,假设0<x<1,满足

g3(y3)={4!2!1!(y23)2(1y23)(2y3)00<y3<1elsewhere

因此

P(12<Y3)=1/2g3(y3)dy3=11/224(y53y73)dy3=243256

最后考虑任意两个顺序统计量Yi<Yj的联合pdf,依然用f(x),F(x)的形式表示可得

gij(yi,yj)=yiay2ayjyiyjyj2byjbyn1n!f(y1)f(yn)dyndyj+1dyj1dyi+1dy1dyi1

因为对于γ>0

yx[F(y)F(w)]γ1f(w)dw=[F(y)F(w)]γγ|yx=[F(y)F(x)]γγ

所以

gij(yi,yj)=n!(i1)!(ji1)!(nj)![F(yi)]i1[F(yj)F(yi)]ji1×[1F(Yj)]njf(yi)f(yj)0a<yi<yj<belsewhere

顺序统计量Y1,Y2,,Yn的某些函数是非常重要的统计量,例如:(a)YnY1为随机样本的全距;(b)(Y1+Yn)/2为随机样本的中距;(c)如果n为奇数,那么Y(n+1)/2称为随机样本的中位数。

3Y1,Y2,Y3是大小为3的随机样本,它是从pdf为

f(x)={100<x<1elsewhere

的分布中得到的,我们要找出全距Z1=Y3Y1的pdf。因为F(x)=x,0<x<1,所以Y1,Y3的联合pdf为

g13(y1,y3)={6(y30y1)00<y1<y3<1elsewhere

除了Z1=Y3Y1,令Z2=Y3,函数z1=y3y1,z2=y3的逆分别为y1=z2z1,y3=z2,故该一对一变换的雅可比为

J=y1z1y3z1y1z2y3z2=[1011]=1

所以Z1,Z2的联合pdf为

h(z1,z2)={|1|6z1=6z100<z1<z2<1elsewhere

那么随机样本大小为3的全距Z1=Y3Y1的pdf为

h1(z1)={1z16z1dz2=6z1(1z1)00<z1<1elsewhere

X是连续cdf为F(x)的随机变量,对0<p<1,定义X的分位数为ξp=F1(p)。例如ξ0.5,X的中位数为0.5分位数,令X1,X2,,XnX分布的随机样本且Y1<Y2<<Yn是对应的顺序统计量,令k=[p(n+1)],接下来定义ξp的统计量,pdff(x)下面从左到Yk的面积为F(Yk),这个面积的期望值为

E(F(Yk))=baF(yk)gk(yk)dyk

其中gk(yk)是前面定义的Yk的pdf,如果对积分部分进行变换替换z=F(yk),那么得到

E(F(Yk))=10n!(k1)!(nk)!zk(1z)nkdz

将其与贝塔分布的pdf进行比较可得

E(F(Yk))=n!k!(nk)!(k1)!(nk)!(n+1)!=kn+1

平均来讲,Yk左边的面积为k/(n+1),因为p=k/(n+1),所以我们可以取Yk为分位数ξp的估计量。故我们称Yk为第p个样本分位数。

样本分位数是非常有用的统计量,例如如果Yk是第p个分位数,那么我们知道近似有p100%的数据小于等于Yk且近似有(1p)100%的数据大于等于Yk,接下里讨论两个分位数的统计应用。

数据的五个数构成了下面的五个样本分位数:最小值(Y1),四分之一分位数(Y0.25(n+1)),中位数(Y0.5(n+1)),四分之三分位数(Y0.75(n+1))最大值(Yn)。注意我们给出的中位数是奇数的情况,如果是偶数,那么中位数与传统定义一样为(Yn/2+Yn/2+1)/2。接下里的我们用Q1,Q2,Q3分别表示样本的四分之一分位数,中位数,四分之三分位数。

这五个数将数据分开,使得数据更好理解。

4下面的数据是随机变量X大小为15的随机样本顺序观测值


漫步数理统计三十四——顺序统计量

因为n+1=16,所以五个数分别为y1=56,Q1=y4=94,Q2=y8=102,Q3=y12=108,y15=116

这五个数是数据图像的基础,称为数据的盒图,盒子包含了中间50%的数据,线段用来表示中位数。然而顺序统计对离群点非常敏感,所以需要非常小心,为此我们将用box whisker图。为了定义这个图,我们需要定义潜在的离群点,令h=1.5(Q3Q1)且定义lowerfence(LF)upperfence(UF)

LF=Q1h,UF=Q3+h

位于区间(LF,UF)之外的点称为潜在离群点,在盒图中用0表示。

5考虑例4给出的数据,h=1.5(10894)=21,LF=73,UF=129,这里观测值56,70为潜在的离群点,盒图如图1Panel A所示。


漫步数理统计三十四——顺序统计量

实际中,我们常假设数据服从某个分布,例如假设X1,,Xn是正态分布的随机样本,分布的均值与方差未知,那么X的形式已知但参数未知,这样的假设需要进行验证并且存在许多统计测试方法。另一个分位数的应用就是诊断图。

我们考虑位置与尺度家族,假设X是cdf为f((xa)/b)的随机变量,其中F(x)已知但a,b>0未知,令Z=(Xa)/b,那么Z的cdf为F(z)。令0<p<1,ξX,pXp分位数,ξZ,pZ=(Xa)/bp分位数,因为F(z)已知,所以ξZ,p已知,但是

p=P[XξX,p]=P[ZξX,pab]

由此得到线性关系

ξX,p=bξZ,p+a

那么如果X有形如F((xa)/b)形式的cdf,那么X的分位数是Z分位数的线性函数,当然在实际中我们不知道X的分位数,但是我们可以估计它们。令X1,,XnX分布的随机样本且Y1<<Yn是顺序统计量,对于k=1,,n,pk=k/(n+1),那么YkξX,pk的一个估计量。相应的cdfF(z)分位数表示为ξZ,pk=F1(pk)Yk,ξZ,pk的图像成为qq图,它描述的是样本的分位数集合与理论cdf为F(z)的分位数集合的关系。基于上面的讨论,图像中的线性就表明X的cdf的形式为F((xa)/b)

X是cdf为F(X)的随机变量,对于0<p<1,我们用ξp表示分位数,其中F(ξp)=p,对于X上大小为n的样本,Y1<Y2<<Yn是顺序统计量,令k=[(n+1)p],那么Ykξp的点估计。

我们现在推导ξp的分布自由置信区间,也就是说ξp的置信区间雨F(x)的任何假设无关,除了连续型外。令i<[(n+1)p]<j并考虑顺序统计量Yi<Yj与事件Yi<ξp<Yj,因为第i个统计量Yi小于ξp,所以至少有iX值小于ξp,进一步因为第j个统计量Yj大于ξp,所有不到jX值小于ξp,现在考虑二项分布的情况,成功的概率为P(X<ξp)=F(ξp)=p,进一步事件Yi<ξp<Yj等价于n个独立实验中i(包含)j(不包含)之间成功,因此

P(Yi<ξp<Yj)=w=ij1(nw)pw(1p)nw

是至少有i但不到j次成功的概率。当n,i,j都指定后,就能算出这个概率。假设找到了γ=P(Yi<ξp<Yj),那么p分位数落在区间(Yi,Yj)之间的概率为γ。如果Yi,Yj的实验值为yi,yj,那么(yi,yj)ξp100γ的置信区间。

注意由于二项分布的离散型,只存在某些置信水平。但是如果我们进一步假设f(x)关于ξ对称,那么离散就不是问题了。