Kolmogorov–Smirnov test(K-S检验)
主要参考资料:
(1)https://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test
(2)https://wenku.baidu.com/view/ccfa573a3968011ca30091d6.html
Kolmogorov–Smirnov statistic
-
累计分布函数:
其中 为indicator function(指示函数), -
Kolmogorov–Smirnov statistic:
对于一个样本集的累计分布函数和一个假设的理论分布,Kolmogorov–Smirnov statistic定义为:
是距离的上确界(supremum), 基于Glivenko–Cantelli theorem,若服从理论分布,则当n趋于无穷时趋于0。
Kolmogorov distribution
-
准备知识:
(1)独立增量过程
顾名思义,就是指其增量是相互独立的。严格定义如下:
(2)维纳过程(英语:Wiener process)
大概可以理解为一种数学化的布朗运动,严格定义如下:
(3)布朗桥(英文:Brownian bridge)
一种特殊的维纳过程,严格定义如下:
就是说一个在区间上,且的维纳过程。
如图:
红色和绿色的都是“布朗桥”。 -
Kolmogorov distribution
(1)Kolmogorov distribution
Kolmogorov distribution定义为:
即是通过求布朗运动上确界得到的随机变量的分布。
它的累积分布函数可以写为:
(2)单样本K-S检验
单样本K-S检验即是检验样本数据点是否满足某种理论分布。
注意!若该理论分布的参数是由样本点估计的,该方法无效!
我们从零假设出发。(即假设样本点不满足理论分布)
此时,若理论分布是一种连续分布,则有:
也就是说在有无限多的样本点的时候,不论F的具体形式,将趋向于一个Kolmogorov distribution。(好像也叫做“依分布收敛”)
然而事实上,我们既不可能有无穷多样本点,也不是为了证明样本点和完全不满足理论分部。
K-S检验给出了零假设被拒绝的可能性的一种衡量方法(即样本点满足理论分布的可能性):
其中,由以下方式给出:
可以这样定性的理解,样本点越偏离理论分布,它的Kolmogorov–Smirnov statistic就会越大,那么我们找到的就越大,就越小,反之亦然。
PS:
wiki上给出的并不是这样,而是:
但按照我的理解这种提法有些问题。因为我们知道;而几乎总是成立的。那岂不是对于任何样本点,总有?
也可能是我的理解有问题,欢迎留言指出。
- 当理论分布函数非连续时
这里直接引用wiki上的内容
双样本集K-S检验
双样本K-S检验即是检验两个样本集是否满足同样的潜在分布。
其零假设被否定的可能性仍然以给出:
其中:
PS:
wiki上的提法与此不同,此处采用此种提法的原因与单样本K-S检验相同。