Kolmogorov–Smirnov test(K-S检验)

主要参考资料
(1)https://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test
(2)https://wenku.baidu.com/view/ccfa573a3968011ca30091d6.html
Kolmogorov–Smirnov test(K-S检验)

Kolmogorov–Smirnov statistic

  • 累计分布函数:
    Kolmogorov–Smirnov test(K-S检验)
    其中 I[inf,x] 为indicator function(指示函数),
    I[inf,x](Xi)={1,Xix;0,Xi>x;
  • Kolmogorov–Smirnov statistic:
    对于一个样本集的累计分布函数Fn(x)和一个假设的理论分布F(x),Kolmogorov–Smirnov statistic定义为:
    Kolmogorov–Smirnov test(K-S检验)
    supx是距离的上确界(supremum), 基于Glivenko–Cantelli theorem,若Xi服从理论分布F(x),则当n趋于无穷时Dn趋于0。

Kolmogorov distribution

  • 准备知识:
    (1)独立增量过程
    顾名思义,就是指其增量是相互独立的。严格定义如下:
    Kolmogorov–Smirnov test(K-S检验)
    (2)维纳过程(英语:Wiener process)
    大概可以理解为一种数学化的布朗运动,严格定义如下:
    Kolmogorov–Smirnov test(K-S检验)
    (3)布朗桥(英文:Brownian bridge)
    一种特殊的维纳过程,严格定义如下:
    Kolmogorov–Smirnov test(K-S检验)
    就是说一个在[0,T]区间上,且WT=0的维纳过程。
    如图:
    Kolmogorov–Smirnov test(K-S检验)
    红色和绿色的都是“布朗桥”。
  • Kolmogorov distribution
    (1)Kolmogorov distribution
    Kolmogorov distribution定义为:
    Kolmogorov–Smirnov test(K-S检验)
    即是通过求布朗运动上确界得到的随机变量的分布。
    它的累积分布函数可以写为:
    Kolmogorov–Smirnov test(K-S检验)
    (2)单样本K-S检验
    单样本K-S检验即是检验样本数据点是否满足某种理论分布。
    注意!若该理论分布的参数是由样本点估计的,该方法无效!
    我们从零假设出发。(即假设样本点不满足理论分布)
    此时,若理论分布是一种连续分布,则有:
    Kolmogorov–Smirnov test(K-S检验)
    也就是说在有无限多的样本点的时候,不论F的具体形式,nDn将趋向于一个Kolmogorov distribution。(好像也叫做“依分布收敛”)
    然而事实上,我们既不可能有无穷多样本点,也不是为了证明样本点和完全不满足理论分部。
    K-S检验给出了零假设被拒绝的可能性的一种衡量方法(即样本点满足理论分布的可能性)α:
    α=min([α|nDn>Kα])

    其中,Kα由以下方式给出:
    Kolmogorov–Smirnov test(K-S检验)
    可以这样定性的理解,样本点越偏离理论分布,它的Kolmogorov–Smirnov statistic就会越大,那么我们找到的Kα就越大,α就越小,反之亦然。
    PS:
    wiki上给出的并不是这样,而是:
    Kolmogorov–Smirnov test(K-S检验)
    但按照我的理解这种提法有些问题。因为我们知道K1=0;而nDn>0几乎总是成立的。那岂不是对于任何样本点,总有α=1

    也可能是我的理解有问题,欢迎留言指出。
  • 当理论分布函数非连续时
    这里直接引用wiki上的内容

Kolmogorov–Smirnov test(K-S检验)

双样本集K-S检验

双样本K-S检验即是检验两个样本集是否满足同样的潜在分布。
其零假设被否定的可能性仍然以α给出:

α=min([α|Dn,m>c(α)n+mnm])

其中:
Kolmogorov–Smirnov test(K-S检验)
Kolmogorov–Smirnov test(K-S检验)
PS:
wiki上的提法与此不同,此处采用此种提法的原因与单样本K-S检验相同。