多重比较谬误浅解

多重比较谬误是对多个指标进行检验时常出现的谬误，这里我就用一个或许更容易理解的例子来说明吧。

假设有某甲在猜硬币玩，连猜五次后我们发现他次次都猜中。于是我们认为他在做假，因为如果他没做假的话，连续猜对五次的概率只有 $1/32=0.03125$，小于我们预先定义的小概率（比如说0.05）。（如果知道什么是p值的话，这里我们定义的零假设H0为某甲没有做假，$p=0.03125$ 表示我们拒绝H0只有约3%的犯错几率。）

上面这个判断没有问题，但如果涉及到多重比较（multiple comparison）的话就不一样了。前面的例子只用了一枚硬币，而这次我们改用100枚不同颜色的硬币（这就是所谓的多重比较），有红色硬币、黄色硬币、绿色硬币、粉色硬币、紫色硬币等等。实验中，我们让某甲每枚硬币各猜五次，然后我们发现，在猜其他颜色的硬币时某甲都有猜错，但在猜绿色硬币时他连猜五次都猜对了。那么，我们是不是能像前面一样，认为他虽然在猜其他硬币时没做假，但在猜绿色硬币时做假了呢？简单计算一下就可以发现，当我们用100枚硬币做实验时，出现一枚或以上硬币五次都猜对的概率为 $1-(1-1/32)^{100} = 0.958$。显然，这时我们就不能再说某甲在猜绿色硬币时做假了，即便单就那一枚绿色硬币来说，连续猜对五次的概率还是只有0.03125。

要避免此问题的话，可以试图控制FWER（Familywise error rate）、FDR（False discovery rate）等。最简单的控制FWER的方法是Bonferroni校正，是指p值应该除以比较的次数。上面的例子中次数为100，相应的p值是0.0005。此时 $\log_2(1/0.005)\approx 11$，也就是说只有当某甲连续十一次猜中硬币，我们才有理由说他做假了。

注：本文首发于知乎问题如何通俗地解释多重比较谬误？