统计检验中的p值
本文选自《中国统计》2021年第9期文章,原文已获出版社和作者授权。
引 言
统计学的重要性逐渐被社会所认识,目前很多统计方法已经列入中小学课本,正确理解统计思想和统计概念更加重要。我的一个在做中学教师的学生问我,p值解释成原假设命题成立的概率,还是解释成否定对立假设成立的概率?刚开始认为这是一个容易回答的问题,答案也很显然。在思考之后,感觉要想把这个问题完全回答清楚并不那么容易。这个问题在统计学中很重要,是一个非常基础的问题,需要我们认真对待并加以厘清。在本文中我们分别在频率统计和贝叶斯统计框架下对问题进行了探讨,发现p值在任何情况下都无法解释成原假设成立的概率,在文章末尾我们对p值建议了中文翻译名称。
我们先看一个从正面解释并且不能引起误解的答案。
p值是用来判定假设检验结果的一个值,是当原假设命题成立时,总体比所得到的样本更偏离原假设的情况出现的概率。p值的概念是R.A.,Fisher首先提出来的。如果p值很小,则根据小概率事件在一次试验或观察中不太可能发生的理论,则要怀疑原假设命题,在需要采取决策的问题中则可以判定原假设命题不成立。
一般情况下我们事先给定检验水平ɑ,当p≤ɑ时,则否定原假设,否则不否定原假设。检验水平ɑ也是第一类错误,即当原假设为真时否定原假设的最大概率,称为以真为假的错误概率。第二类错误是指当原假设为假时不否定原假设的错误概率,通常记为β,称为以假为真的错误。
我们下面在频率统计框架和贝叶斯统计框架下分别探讨p值和原假设命题成立的概率之间的关系。
频率统计框架的探讨
如果说到原假设成立的概率,则首先要有一个概率空间,得有一个集合,在其中包含若干种情形,有些情形原假设成立,有些情形原假设不成立,其次还需要在这个集合上定义一个概率。但我们在做假设检验的时候,往往并没有在关于原假设和备择假设的概率定义,我们只是说原假设和备择假设是否成立,没有概率的含义。因此,在传统意义的统计框架下,关于p值是原假设命题成立的概率这个说法是错误的。
贝叶斯框架下的探讨
如果在贝叶斯框架下,则可以有原假设命题成立的概率这个说法。但p值是否就是这个概率呢?这需要我们进一步研究。
在贝叶斯框架下,我们可以有原假设命题有关的一个概率空间。我们假设原假设命题成立的概率为r,备择假设成立的概率为1-r.则在这种情形下,我们是要检视p=r是否成立。根据p值的定义,它是当原假设命题成立时,总体比所得到的样本更偏离原假设的情况出现的概率,显然p和r这两个量是可以独立变化的,互不受影响。所以说等式p=r一般是不成立的。也就是说,即使在贝叶斯框架下,也不能认为p值是原假设命题成立的概率。
不否定原假设时原假设的后验条件概率
根据前面的说法,无论是在频率统计框架下,还是在贝叶斯统计框架下都不能认为p值是原假设命题成立的概率。如果假设检验的两类错误分别为ɑ和β,则在不否定原假设时,此时p>ɑ,原假设成立的概率为r(1-ɑ)与r(1-ɑ)+(1-r)β的比值。可以看出这个比值与p值无直接关系,更不能肯定其等于p值。
比样本更偏离原假设的后验概率
那么能否解释成总体在比所得到的样本更偏离原假设的条件下原假设成立的后验条件概率呐?利用贝叶斯公式,我们容易计算出这个后验条件概率是rp与rp+(1-r)q之比,其中q是备择假设成立时,总体比所得到的样本更偏离原假设的情况出现的概率,通常情形下p≤q。由于r,p,q这三个量可以相对独立变化,所以这个比值一般也不会等于p,所以说p值也不是这个后验概率。
虽然p值也不是这个后验条件概率,但p值的大小确实能够反映这个后验概率的大小。从rp与rp+(1-r)q的比值看,这个后验条件概率是p值的单调增函数,并且当p值趋于0时,这个比值也趋于0;当p趋近于q时,这个比值趋于r.所以虽然p值不等于这个后验条件概率,但p值的大小反映了这个后验条件概率的大小。
作为随机变量的p值
由于p值是样本的函数,本质上p值在样本随机变化时可以看成随机变量。那么p值服从什么样的分布呐?在检验统计量是连续型随机变量时,则在原假设成立条件下,p值可以表示为一个随机变量的分布函数,因此它的分布此时是服从(0,1)上的均匀分布。在检验统计量是服从离散型随机变量时,则在原假设条件下,p值往往是取值[0,1]上的离散型分布,而且在离散取值点上,分布函数值等于坐标值。例如在正态分布相关的检验问题上,检验统计量往往是服从t分布的随机变量,则此时的p值就服从(0,1)上的均匀分布。在二项分布和泊松分布相关的检验问题中,统计量是服从离散部分的随机变量,则p值就是服从离散分布的,其取值为相应分布的累积概率值,而p值的概率分布函数值也等于相应的累计概率值。
系列检验中的错误发现率(FDR)
与假设检验的p值相关的另外的一个指标是错误发现率(简称FDR)它定义为在一系列检验中错误拒绝原假设占所有拒绝原假设的比率的数学期望值。FDR这个概念是1995年由Benjamini和Hochberg首次提出,并给出了在系列检验中对它的控制方法。
在贝叶斯框架下,当检验个数比较大,并且每个检验水平是固定且相同时,则FDR接近于一个后验概率,即拒绝原假设的条件下原假设成立的条件后验概率。如果用前面的符号表示,则等于rɑ与rɑ+(1-r)(1-β)的比值。因为第一类错误的概率是原假设成立条件下拒绝原假设的概率,所以FDR是一个与第一类错误概率在条件和事件交替互换后的一个概念。
通常在一些医学或者其它应用研究中,拒绝原假设意味着一项发现,FDR就相当于衡量所有研究发现中错误发现的比例。假设检验允许一定犯错误的概率,因此世界上科学研究中的FDR是大于0的.当这些研究数量很大时,错误发现的数量也是惊人的。但由于很多研究都是由不相关的机构或者个人完成的,论文也都是各位独立完成的,他们不会协调统一假设检验的水平,因此也无法控制科学研究中总的FDR。但当一系列检验是由同一个人或者同一个机构进行时,则可以通过控制检验水平控制FDR.此类研究在生物信息学领域较多。
由Benjamini和Hochberg给出的控制方法,是假定待检验假设个数是有限的,而且各个检验的检验水平是依赖于所有检验中样本对应的所有p值和给定的FDR控制值。通过p值的次序统计量与控制值的线性函数比较,给出系列检验的检验水平,可以使得系列检验的FDR不超过给定的控制值。由于Benjamini和Hochberg最初提出的方法仅适用于检验系列独立的场合以及方法的保守型,Benjamini以及其他学者之后有了很多改进的工作。
总 结
统计假设检验中的p值在统计学中是一个非常基础的概念,但对于它的理解却是一个不容易的问题。很多的文献资料都认为它就是可以解释为原假设成立的概率。经过我们在文中的梳理,我们发现无论在频率统计框架下还是在贝叶斯统计框架下,都无法将其等同于原假设的概率,甚至也无法找到一个原假设成立的后验概率可以等同。但在贝叶斯框架下,p值的大小可以反映当总体比样本偏离原假设的后验概率大小。当p值增加则这个后验概率增加,当p值减少则这个后验概率减小。从这个意义上我们可以说p值确实能够反映原假设成立的这个后验概率。
最后一段内容我们想解决p值名称的翻译问题。p值一直以来没有很好的翻译词语,因此大家都沿用至今使用这个字母p。虽然在使用中也没有问题,但在中文名词中一直有个英文字母,读写起来总感觉不很顺畅。我们借此机会也希望讨论一下这个问题。经过前文的探讨得知,虽然p值不等价于原假设成立的概率,但可以看成判断原假设命题成立与否的一个客观指标。我们建议把p值翻译成“庇值”,意思是对原假设的庇护或者保护之意,读音也没有太大改变。另一个原因是因为在很多假设检验问题中的原假设往往是一个不会被轻易否定的命题,也有庇护和保护之意。所以“庇值”也能反映这层意思。这个翻译是否合适呢?请大家参与讨论给出好的建议。
作者简介
房祥忠教授 在北京大学数学科学学院曾任概率统计系主任,中国现场统计研究会理事长,IMS-China主席。现兼任教育部统计学类教学指导委员会主任委员,中国统计学会副会长,全国应用统计专业学位研究生教育指导委员会委员,北京企业评价协会理事长等职。研究兴趣包括:生存分析,可靠性,纵向数据,基尼系数,时空统计,人工智能中的统计方法等。在《中国科学》《JRSP》《Reliability on IEEE》等期刊发表论文50余篇。曾获国防科技奖二等奖(2011)、北京市科技进步二等奖(2002)和教育部第六届高等教育国家级教学成果二等奖(2012)。
敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:[email protected]),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都微信二维码。
统计之都:专业、人本、正直的中国统计学社区。
关注方式:扫描下图二维码。或查找公众号,搜索 统计之都 或 CapStat 即可。
往期推送:进入统计之都会话窗口,点击右上角小人图标,查看历史消息即可。
编辑|李萧纹
微信扫码关注该文公众号作者