多重比较偏误及三种调整方式:Benferroni/Holm/BHY Adjustment
这是一篇文献阅读笔记,文献为:
这篇文章总结了多重比较谬误的成因和三种主要解决方式: Benferroni’s Adjustment、Holm’s adjustment 以及Benjamini, Hochberg, and Yekutieli’s adjustment,并在考虑了多重比较偏误的前提下对1962年以来Top Journal中提到的313个因子进行了多重检验,认为5%显著性水平下的 值临界值至少应为2.80,而非目前的1.96。
文章目录
- Introduction
- An Intuitive Sample about Multiple Comparison Bias
- Topic
- What we do
- Related Research
- Goal
- Limitations
- The Search Process
- Factor Taxonomy
- Adjusted t-statistics in Multiple Testing
- Why multiple testing?
- A multiple testing framework
- Type I and Type II Errors
- FWER(Family-wise error rate) Adjustment
- FDR(False discovery rate) Adjustment
- p-value adjustment: Three approaches
- Summary statistics
- p-value adjustment when all tests are published(m=R)
- 主要参考链接
Introduction
An Intuitive Sample about Multiple Comparison Bias
在一次假设检验中,我们使用显著性水平 和 值得出结论。显著性水平 一般取0.05或0.01,可以保证一次假设检验中犯 I 类错误的概率和决策错误的风险小于 。
但是在 次假设检验中,假设 和 ,假设检验之间相互独立,不犯错误的概率为 ,而至少犯一次错误的概率高达 。举个实际的例子,假如有一种诊断艾滋病的试剂,试验验证其准确性为99%(每100次诊断就有一次false positive)。对于一个被检测的人来说(single test),这种准确性足够了。但对于医院来说(multiple test),这种准确性远远不够,因为每诊断10000个人,就会有100个非艾滋病病人被误诊为艾滋病,这显然是不能接受的。所以,对于多重检验,如果不进行任何控制,犯一类错误的概率便会随着假设检验的个数迅速增加。
Topic
跨期回报因子研究中显著性水平的临界值
What we do
We present a new framework that allows for multiple tests and derive recommended statistical significance levels for current research in asset pricing.
-
313 papers published in a selection of journals that study cross-sectional return patterns.回顾了研究跨期回报的313篇文献
-
provide recommended test thresholds from the first empirical tests in 1967 to present day 提供了1967年至今实证检验中推荐的显著性水平阈值
-
We present a taxonomy of historical factors, as well as definitions 建立了一个历史因子的分类系统
数据窥视( data-snooping )是指从数据中发现统计上显著但实际并不存在的关系,是金融分析里面非常普遍和严重的一个问题。在金融分析中,因为我们可以对同一个数据集进行无数次的实证研究,如果有足够的时间、足够的尝试和足够的想象力,我们可以不需要考虑经济上的合理性而直接寻找金融变量统计上的关系,这样我们几乎能从任何数据集中推断出任何规律。通过数据窥探,我们可以让数据分析结果更显著来支持自己的立场,这些行为往往让实验无法重复。
Related Research
- McLean and Pontiff (2015): 股票市场异像(可能是由统计偏误导致)
- Lewellen, Nagel, and Shanken (2010): 跨期回报研究中的统计偏误和无效率
- Sullivan, Timmermann, and White (1999, 2001) and White (2000): 使用多重检验(Multiple Testing)来检验和校正数据窥视偏差
- Foster, Smith, and Whaley (1997), Cooper and Gulen (2006), and Lynch
and Vital-Ahuja (2012): 回归预测中的数据窥视偏差和变量选择问题 - Shanken (1990), Ferson and Harvey (1999), Boudoukh et al. (2007), and Patton and Timmermann (2010): 金融文献中多重检验方法的应用
- Barras, Scaillet, and Wermers (2010),Bajgrowicz and Scaillet (2012), and Kosowski et al. (2006): 研究量化交易和共同基金表现的多重检验
总结:在大量公司特征、会计、金融、高频交易文献中普遍存在数据窥视问题,而多重检验是发现并缓解这个问题的一个方法。
Goal
- use a multiple testing framework to both re-evaluate past research and to
provide a new benchmark for current and future research: 使用一个多重检验的框架来重新评估以往文献的准确性,并为现在和未来的研究提供一个Benchmark - 最常见的几种假设检验/贝叶斯方法/变量选择
Limitations
- 是否应该在目前发现的所有因子的检验上"一视同仁"
- 阈值和金融因子的重要性在不同的经济情形下而有所不同
The Search Process
- 目的主要在于学者们提出的市场因子、账面市值比因子之外的各种新因子的合理性,主要基于提出新因子的理论文献,以及第一篇提供检验显著性的实证文献
- 有时不同的文献会针对同一因子提供不同的代理变量,我们都会纳入
- 我们目的在于研究对股票回报规律有普适意义的因子,因此会忽略哪些只聚焦于特定市场、特定时间段的文献
- 有些理论文献提出的因子暂时没有合适的代理变量,不纳入研究范围
- 250 Pubulished on top journals / 63 Working papers suspected being in review at top journals
- 局限性:只看top journals/可能遗漏了那些曾经被检验过,但是不显著,因此从未被发表的因子
Factor Taxonomy
将因子分类:
Adjusted t-statistics in Multiple Testing
Why multiple testing?
Given that so many papers have attempted to explain the same cross-section of expected returns, statistical inference should not be based on a “single” test perspective. 认为许多文献都是在对同一段时间的跨期收益做回归,存在多重比较偏误,即随着回归次数的增加,犯 I 类错误的概率也越来越大,只要跑的次数足够多,总有一次是显著的。因此,对因子进行 Single Test 不再可取,需要将随着检验次数增加而带来的 I 类错误发生的频率增加考虑在内。
大多文献的研究时间段随不尽相同,但是总有重叠的时间,如果认为时间序列是平稳的,则时间区间理论上应该对结果并无影响
有两种方法解决多重检验带来的偏误:
- 样本外检验(Out-of-sample Validation)
- eg:McLean and Pontiff (2015) 通过这种方法排除了97个异像中的12个(本文作者认为这个结果是低估了)
- 优点:当这种方法可行时,是一种干净地排除伪显著的操作
- 缺点:不能实时使用,只能站在"事后"的视角来看,没有时效性
- 使用一个统一的统计框架(A statistical framework) √
多重假设检验
顾名思义,多重假设检验就是多个假设检验。如果有 个人,那么 个假设检验就是一个例子。 个假设检验的结果可以表示为:
Null hypothesis is true(H0) Alternative hypothesis is true(H1) Total Test is declared significant V(假正例) S(真反例) R Test is declared non-significant U(真正例) T(假反例) m-R Total m
- m 表示假设检验的个数
- 表示原假设为正的个数
- 表示备择假设为真的个数
- 表示实际上不应拒绝原假设,而统计检验拒绝了原假设的个数(Type I Error)
- 表示实际和检验都没有拒绝原假设的个数
- 表示实际和检验都拒绝了原假设的个数
- 表示实际上应该拒绝原假设,而统计检验没有拒绝的个数(Type II Error)
假如在某次实验中拒绝原假设,表明发现了一个新的定价因子,无论实际上这个因子是真因子还是假因子,都记为一次发现(Discovery)。R=V+S 表示发现的个数,V表示错误发现的个数,用Q表示错误发现的比例,即Q=V/R=V/(V+S)。FWER定义为V大于或等于1的概率,即 。FDR定义为Q的期望,即 。
由于在 m 个检验中,V,S,U,T 都是随机变量,所以FDR需要用期望的形式来表示。如果R=0,则认为Q=0。为了包含这种情况, 通俗理解,可以认为 。
综上,FWER(Family-wise error rate) 为多重假设检验中发现至少一个 I 类错误的概率,FDR(False discovery rate) 为多重假设检验中 I 类错误的比例。针对这两个变量,分别有 Adjusted FWER / Adjusted FDR,分别指 FWER 校正方法和 FDR 校正方法。两类校正方法都用来控制多重假设检验中犯 I 类错误的概率,使其低于显著性水平 。FWER 校正有多种实现,其中最经典的是 Bonferroni correction;FDR 校正也有多种实现,其中最经典的是 Benjamini-Hochberg procedure。
在一次假设检验中,我们使用显著性水平 和 值得出结论。显著性水平 一般取0.05或0.01,可以保证一次假设检验中犯 I 类错误的概率和决策错误的风险小于 。
但是在 次假设检验中,假设 和 ,假设检验之间相互独立,不犯错误的概率为 ,而至少犯一次错误的概率高达 。举个实际的例子,假如有一种诊断艾滋病的试剂,试验验证其准确性为99%(每100次诊断就有一次false positive)。对于一个被检测的人来说(single test),这种准确性足够了。但对于医院来说(multiple test),这种准确性远远不够,因为每诊断10000个人,就会有100个非艾滋病病人被误诊为艾滋病,这显然是不能接受的。所以,对于多重检验,如果不进行任何控制,犯一类错误的概率便会随着假设检验的个数迅速增加。
FWER 和 FDR 校正都可以使多重假设检验整体犯 I 类错误的概率低于预先设定的显著性水平 。FWER 显得较为保守,它主要是依靠减少假阳性的个数,同时也会减少检测出阳性的个数 TDR(true discovery rate)。而FDR方法是一种更加新颖靠谱的方法,它会对每个测试用例使用校正后的 值,达到了更好的效果:在检验出尽可能多的阳性结果的同时将错误发现率控制在可以接受的范围。
A multiple testing framework
多重检验在医学领域引起了很多关注,但是在金融学领域的发展并不大。使用了多重检验的文献主要关注于Bonferroni adjustment(Boudoukh et al., 2007),而这个调整的假设太强。
-
介绍一个假定的例子(Example A)来激发一个更一般化的框架
-
将多重检验可能的结果进行分类(Table 2)
Panel A: 假如有100个发表的因子®,其中50个是真正显著的。同时,学者们试了600个其他的未被发表的因子,虽然在学者们的测试中认为这600个因子都不显著,但实际上其中有100个因子是显著的、真正的因子。所以总共的因子数M是700。这其中有两类错误:
-
Type I Error(False Positive) - 50个因子被错误地认为是真因子
-
Type II Error(False Negative) - 100个真因子由于未达到显著性检验的阈值而被忽略
在多重检验语境下通常都倾向于减少Type I Error,因为Type II Error很难被观察到。
Panel B: 在一个正式的统计检验框架下定义了各个变量。在因子检验中,通常的原假设是因子不显著。因此,因子不显著意味着原假设为"真",拒绝原假设则认为因子显著。据此,可以定义Type I Error和Type II Error发生的频率。
-
Type I and Type II Errors
在单个检验中,通常用 来代表第一类错误发生的概率, 也通常被称为"显著性水平"。在一个多重检验的框架下,限制每个单个检验的 并不能控制总体发生误判的概率。背后的经济学直觉是,在所有因子都不显著的原假设下,很有可能其中一个以 概率发生的事件导致整体显著。因此,在多重检验中,我们需要一个不同于单个检验的衡量第一类错误的代理变量。
在多重检验情景下,外推的第一类错误被称为"联合第一类错误"(Joint Occurence)。文献中有两种方法识别:
- 对所有的 事件进行计数。 大于 0 意味着联合检验显示的显著性可能是错误的。因此, 发生的概率应该是我们需要控制的。
- 当认为是真的样本数 R 很大时,一个或几个误判是可以容许的。在这种情况下, 不再是一个合适的指标, 的期望在这种情况下更有效。
FWER(Family-wise error rate) Adjustment
至少有一个 I 类错误发生的概率:
FWER 衡量的是不管总的检验数有多少,至少发生一次 I 类错误的概率。比如,学者们可能会对100个因子进行测试,FWER衡量了错误地将至少一个假因子识别为真因子的概率。给定显著性水平 ,我们使用两种已知的方法 Bonferroni 和 Holm’s Adjustment 来确保 FWER 不会超过 。
FDR(False discovery rate) Adjustment
The Fasle discovery proportion (FDP) 定义为 I 型错误发生的频率占总的阳性观测的比例:
False discovery rate (FDR) 则为:
FDR 衡量了假阳性(false discoveries)在所有阳性检测(all discoveries)中的比例。相对于 FWER,FDR相对限制要弱一些。因此,在同样的多重检验中使用FDR标准往往会比FWER标准检验出跟多阳性结果,这是因为FDR允许 I 类错误发生数量 随着阳性样本总数 的增长而增长,而 FWER 则不允许。
在 Table2 所述的例子中,,显然早已到达 FWER 标准的临界值,而实际的 FDP 已经达到 。这意味着假阳性(False Discovery)的概率FWER和期望假阳性比率(FDR)在这个例子中都非常高。相应地,FWER adjustment 和 FDR adjustment 能做的补救措施是降低假设检验的阈值 ,这种调整下可以使得部分假阳性观测变得不显著,减少 I 类错误。
另一方面,II 类错误(将真阳性观测误判为隐性)在多重检验中也同样重要。类似于 I 类错误,所有的假隐性观测 以及假阴性在所有阴性观测中的比例 经常用来描述 II 类错误的严重性。理想化下,我们希望同时减少I 类错误和 II 类错误。在我们的语境下,我们的策略是:
- 纳入更少的不显著的因子 (减少 I 类错误)
- 纳入更多显著的因子 (减少 II 类错误)
但是这种策略并不可行:在单个假设检验中,I 类错误和 II 类错误往往此消彼长。因此我们试图寻求两类错误之间的平衡。一个标准的做法是指定一个 I 类错误发生的概率,即显著性水平 ,然后推导致力于最小化 II 类错误的检验步骤。
然而,在多重检验下,II 类错误的发生概率往往取决于一系列未知的参数,也因此难以衡量。为了克服这个问题,学者们通常采用实际的 I 型错误发生频率与预设的显著性水平之间的差距作为检验有效性的标准。直觉上来讲,如果一个检验的 I 型错误率严格低于显著性水平 ,我们可以通过提高 值的阈值来使二者变得接近。通过这样做,根据 I 型概率和 II 型概率此消彼长的关系,II 型错误率理论上来说应该被降低。综上,平衡 I 类错误和 II 类错误的最好办法是使得实际 I 类错误发生概率无限接近显著性水平。
FWER 在大样本情况下可能会显得过于严格,并导致非常有限的样本被判定为阳性,可能会增加 II 类错误的概率。在小样本情况下,FWER 则往往是优选。
在本文300余篇样本的情境中,我们很难判断这个样本数是"大"还是"小",因此会同时提供FWER 和 FDR 的adjusted p-values。
p-value adjustment: Three approaches
提供3种最常见的 FWER/FDR Adjustments 方法:
- Bonferroni (Control FWER, Single-Step Procedure)
- Holm (Control FWER, Sequential Procedure)
- Benjamini, Hochberg and Yetkutieli(BHY) (Control FDR, Sequential Procedure)
根据它们进行 Adjustment 的方式,可以分为两类:
-
“Single-Step” Correction: 对于每个 p 值进行同样的调整
-
“Sequential” Correction: 逐个调整 p 值,一种取决于整个 p 值分布的适应性调整方法
Bonferroni’s adjustment
在 次多重假设检验中,每一次的原假设记为 ,对应 值记为 ,设定显著性水平。
Bonferroni’s adjustment 认为只要 ,就拒绝 。可以看出,Bonferroni’s adjustment 直接把 Single Test 的显著性水平降低到了 。FWER 为发现至少一个 I 类错误的概率,即 ,可证:
这样就能控制多重假设检验整体犯 I 类错误的概率低于预先设定的显著性水平 。另外,FWER Control 不需要假设所有原假设之间彼此独立,也不需要对原假设为真的个数做出设定。当任何一个 时,拒绝 且拒绝 {j=1,…,m}。当所有的,不拒绝。
Bonferroni’s adjustment 检验步驟 拒绝 1 2 3 … m
Holm’s adjustment
将检验 所对应的 值由小到大排列,逐步检验,并根据排序的大小调整每个检验的显著性水平。
从最小的 开始,如果检验结果为拒绝原假设,则检验次小的 ,以此类推,知道出现第一个 无法被拒绝为止,则停止检验,并拒绝 ,不拒绝。
Holm’s adjustment 检验步驟 拒绝 1 2 3 … i … m
Benjamini, Hochberg, and Yekutieli’s adjustment
与 Holm 方法相似,,但是检验顺序相反。首先将检验 所对应的 值由大到小排列,并根据排序的大小调整单个检验的显著性水平。
其中, 是总检验数 m 的函数。c(m) 越大,检验越严格。 Benjamini and Yekutieli (2001)将 设定为:
我们会讨论 的这种设定以及其他设定。与 Holm 方法不同,BHY 方法对 值的检验是由大到小的。从最大的 开始检验,如果不能拒绝原假设,则检验次大的 ,直到出现第一个 可以被拒绝为止,并认为不能拒绝 ,可以拒绝。
BHY adjustment 检验步驟 拒绝 m m-1 m-2 … i … 1
一个集合三种调整方式的例子:
Example A 与三种调整方式
Summary statistics
本文统计的发表(以及工作论文中)的316个因子,大部分将1.96作为5%显著性水平的临界值。
p-value adjustment when all tests are published(m=R)
现在将三种调整方法应用于316个因子中。
- 将 值转换成 值
- 基于转换得来的 值分别进行 3 种调整,得到 benckmark 的 值
- 将 benchmark 值转回 值
选择将 (Holm, FWER) 的显著性水平 定为 5%,将 (BHY, FDR) 的显著性水平定为 1%。
Figure 3 给出了 3 套 benchmark 值,Bonferroni 和 Holm Adjustment 的 benchmark 值都随着多重检验次数 的增大而单调增加。对于 Bonferroni Adjustment,benchmark 值从1.96开始,一直增加到2012年的3.78,到2032年可能会增加到4.00,而在 Singer Test 中其 值分别为 0.02% 和 0.01%。Holm 的 值总是低于 Bonferroni 值,这与 Bonferroni 倾向于拒绝阳性结果是一致的。
综上,如果将多重比较偏误考虑在内,我们认为 值在5%显著性水平下的临界值至少应为2.8,这一临界值在 SIngle Test 下的显著性水平为 0.5%。
为了看出多重检验方法的优越性,在 Figure3 中标出了代表性的一些因子。在这些因子中, HML,MOM,DCG,SRV,MRT在各种类型的 值调整下均是显著的。EP,LIQ,CVOL有时显著,其他的都不显著。
The dark crosses mark selected factors proposed by the literature. They are MRT
(market beta; Fama and MacBeth 1973), EP (earnings-price ratio; Basu 1983), SMB and HML (size and book-to-market; Fama and French (1992)), MOM (momentum; Carhart 1997), LIQ(liquidity; Pastor and Stambaugh 2003), DEF (default likelihood; Vassalou and Xing 2004), IVOL (idiosyncratic volatility; Ang et al. 2006); DCG (durable consumption goods; Yogo 2006),SRV and LRV (short-run and long-run volatility; Adrian and Rosenberg 2008), and CVOL (consumption volatility; Boguth and Kuehn 2012). t-statistics over 4.9 are truncated at 4.9.
Concerns:
- 因子在不同时间发现,当时所用的检验方法也不尽相同
- 理论上来说,应该是最新样本、同样检验方法
Alleviate this concern:
- 将样本限定于2000年后发现的因子
- 限定使用 Fama-MacBeth 检验方法的因子
- 要求因子检验应该跨越 1970-1995,并且至少控制了 Fama-MacBeth 三因子
经过以上处理,筛选出了124个因子,截止到2012年,Bonferroni 和 Holm 在5%显著性水平下的 值分别为3.54和3.20。BHY在 1% 和 5% 显著性水平下的 值分别为3.23和2.67。显然,这些 值小于全样本下的 值。
总之,我们在多重检验时总是需要更高的 值临界值。