统计的学问# ChineseMed - 中医
W*r
1 楼
在微观层次上,一种化学药品进入人体后会发生什么化学反应和带来什么生理变化,没
有人能彻底研究清楚。因此,检验药品的安全性和有效性基本上是用统计的方法。中医
之所以不被主流承认,其中很重要的一个原因也是因为中医缺乏统计分析。那么用统计
方法得出的结论有多可靠呢?我们一起来探讨一下。
(1) H0 VS. H1
在假设检验中,零假设H0是处于被保护的位置的,需要很强的证据才能把它推翻。药品
的安全性通常就是对应于两个组没有显著差别的零假设,处于受保护的位置。有一点经
常被人忽略,那就是如果p-value大于阈值,这个时候的结论应该是没有结论,也就是
既不能得出H0不成立的结论,也不能得出H0成立的结论。事实上,如果p-value是0.1左
右,common sense还是应该倾向于认为H0是不成立的,只是没有明显到可以推翻H0的程
度。
举个例子。一个赌场的庄家邀请你和他玩一个游戏。规则很简单:抛硬币。如果硬币正
面朝上,他给你10块钱;如果硬币反面朝上,你给他10块钱。庄家claim说硬币是均匀
的,正面朝上和反面朝上的概率都是0.5。你是一个精明的人。你决定先在旁边观察一
下别人玩的情形。你观察了30次抛硬币,只有11次是正面朝上的。正面朝上的频率只有
1/3多一点。你非常怀疑庄家在作弊。于是你用观察到的数据做一个假设检验
H0: p=0.5 VS. H1: p<0.5
其中p是正面朝上的概率。
在R里面敲入命令
binom.test(11, 30, p = 0.5, alternative ="less")
结果显示p-value=0.1002>0.05。用他们专业的术语来说,就是没有足够的证据显示庄
家在作弊。但是你会不会和庄家赌呢?我是不会。
(2) p-value VS. 样本大小
我们来分析一下检验两个正态分布总体的均值是否相等的t-检验。在实际应用中,两个
总体的均值不会刚好相等,总会有一点差别。举个例子,两个总体分别是N(100,1)和N(
100.01,1)。从直观上看,这两个总体在实践上应该是认为没有差别的。但是t-检验的
零假设H0是两个总体的均值绝对相等,不能有丝毫差别。从实践上看,H0总是错的,问
题只是所使用的检验够不够power把这个微小的差别检测出来。一个检验的power最重要
的影响因素就是样本大小。为简单起见,我们假定两个正态总体具有相同的方差,相同
的样本大小。
t-统计量的公式是
t=(m1-m2)/sqrt((s1^2+s2^2)/n)
其中m1,m2是样本均值,s1^2,s2^2是样本方差,n是样本大小。
令n趋于无穷,m1-m2近似就是总体均值的差0.01,s1^2,s2^2近似就是总体方差,所以t
也趋于无穷,从而p-value趋于0。
我们来做一个小实验,随机产生N(100,1)和N(100.01,1)的大小为100的样本,然后做一
个t-检验。
xyt.test(x,y)
结果显示p-value = 0.8872,正好就是我们所预料的。
现在我们把样本大小增加到1000000。
xyt.test(x,y)
结果显示p-value戏剧性地变化到了0.0000001764。只要样本足够大,任何细小的差别
都会被检测出来。
在这个例子我是故意把样本取得很大以显示样本大小对p-value的影响。在实际应用中
,对于一些临界的情形,你总可以通过调整样本大小来得到你想要的结论。
我以前学统计的时候,老师是一个真正懂得思考的人。他说了一句对我影响很大的话。
他说:“这些检验基本上就是在检验样本够不够大。如果样本足够大,就几乎总是拒绝
;如果样本不够大,就几乎总是接受。”这种现象在检验两个分布是否相同的时候更是
表现得淋漓尽致。
生物信息的论文动不动就是10的负几十次方的p-value,其实那主要是大样本造成的,
实际上并没有那么显著,甚至可能根本就不显著。
(3) 高尔夫球落点原理
你把高尔夫球打出去,高尔夫球最终总会停下来。于是你得出结论说:“高尔夫球场那
么大,高尔夫球偏偏在这一小块草地上停下来。这是一个概率非常小的事件。可见这一
小块草地必定有某种神秘的力量可以吸引高尔夫球。”这就是高尔夫球落点原理。
一般地,高尔夫球落点原理是指在试验前不事先确定要研究的对象或方法,而是在试验
之后看到了结果,再按照某种规则挑选出研究对象和确定方法,然后讨论这个对象的显
著性。Nature那篇质疑叶诗文比赛成绩的文章就是一个典型的例子。
我们来做一个实验,随机产生一个长度为20的随机向量x,再独立地随机产生20000个长
度为20的随机向量,然后把这20000个随机向量分别和x计算相关系数,挑选出相关度最
高的。
max(abs(cor(matrix(rnorm(20000*20),20),rnorm(20))))
结果显示相关系数绝对值的最大值高达0.7848。但是记住,所有数字都是独立随机地产
生的。
人有20000多个基因。主流医学动不动就把一种疾病说成是遗传的。就连近视他们都说
是遗传的,和某某基因有关。这当中有多少是高尔夫球落点原理呢?
(4) mining syndrome
mining syndrome是指用历史数据建立起来的模型或多或少会使用历史数据的某些独特
性质,反映的是过去,对未来不一定适用。
mining syndrome在股票交易领域表现得极为明显。所有市场的模型都是用历史数据建
立起来的,但是要应用于未来的交易。这也从一个侧面说明了为什么股市大部分人会亏
钱。
有些药品上市之后才发现并没有试验阶段那么有效。抗药性可能是最主要的原因。但是
我大胆猜测,mining syndrome可能也会是其中一个原因。
(5) training VS. testing
统计里面使用一种简单的方法来对付mining syndrome,那就是把样本分为training和
testing两部分。用training样本来建立模型和优化参数,然后用testing样本来对模型
进行测试和评估。
这个方法似乎解决了问题,除了容易被忽略的一点:有些优化是可以implicit地进行的
,不需要像参数优化那样explicit。对同一个问题可以从不同的角度作不同的假设,建
立不同的模型;数据的收集可以有多种不同的方式;可以有不同的评分标准对模型进行
评估;可以对数据做各种各样的预处理和变换;把样本分为training和testing也可以
有多种不同的划分方法。最重要的是,一次attemp不成功可以做下一次。这是一个庞大
的组合,如果对每一个这样的组合都用training和testing的方法做分析,极有可能会
有两种组合得出截然相反的结论。所以在统计学上有一个很重要的原则,那就是做统计
分析的人必须保持中立。也就是说,统计检验的目的应该是要搞清楚一个假设是不是对
的,而不应该是试图证明或推翻某个假设。如果做统计分析的人一心想要证明某个结论
,他就会有意无意地选择对这个结论有利的设置,从而得出有偏的结论。但是现实情况
是怎么样的呢?一个结论能够发论文或者带来巨额利润,另一个结论不仅徒劳无功,还
有可能带来赔偿责任。有多少人能做到中立呢?
(6) file drawer effect
同一个问题可能有多个团队独立地研究。由于随机因素的影响,有些团队会成功,有些
团队会失败。失败了的团队可能会觉得没有发表价值,于是把研究扔进抽屉里;成功的
团队则会把结果发表。所以即使每一个做研究的人都诚实(一个奢侈的假设),我们在
学术杂志上看到的结果仍然可能是片面的、有偏的。
(7) 文科统计
研究疫苗的有效性通常是把数据和几年前甚至十几年前的数据进行比较。这么长的时间
里社会环境和卫生条件各方面都会发生巨大变化,病毒也有其自身兴衰的周期,根本就
无法建立一个数理统计意义上的模型。这种统计只能算是文科统计,这里就不赘述了。
(8) 统计模型
统计分析是建立在假设和模型的基础上的。模型是对现实世界的抽象和近似,只能包含
现实问题的一部分主要特征,而忽略掉其他特征。在被忽略掉的特征当中可能有一些是
至关重要的。例如检验药品的安全性,在比较两组人的时候,通常是测量少数几个指标
。而真正的问题可能很隐蔽,根本就不在测量的范围之内。一种药品安不安全,有没有
效,和两组数据有没有统计意义上的显著差别根本就是两码事。只要你能抛开先入为主
的观念,用心去思考,就不难明白这个道理。
小结
统计只不过是一个数字游戏,有非常大的可以回旋的余地。只要你有足够多的钱,能够
控制足够多的资源,你就总能做出你想要的结论。药厂和工业界财雄势大,人才济济,
交游广阔。他们想要做出一个能够带来利润或者能够推卸责任的结论简直是易如反掌。
我们要学会独立思考,不盲从。要学会保护自己和保护身边的人,不能盲目依赖于官方
权威机构。在做重大决定的时候一定不能忘记common sense。
当然,如果使用得当,统计可以是一个非常有力的工具。这要求我们必须诚实和中立,
不能带着功利心和主观偏见来做研究。使用一个统计方法之前要彻底搞清楚这个方法的
原理和机制,了解它的可靠程度和可能存在的问题,而不是机械化地把数据输入到统计
软件里然后盲目地相信软件的计算结果。得出结论之后要用所在领域的知识和common
sense再加以检验。如果一个结论和common sense相反,就必须加倍谨慎。
有人能彻底研究清楚。因此,检验药品的安全性和有效性基本上是用统计的方法。中医
之所以不被主流承认,其中很重要的一个原因也是因为中医缺乏统计分析。那么用统计
方法得出的结论有多可靠呢?我们一起来探讨一下。
(1) H0 VS. H1
在假设检验中,零假设H0是处于被保护的位置的,需要很强的证据才能把它推翻。药品
的安全性通常就是对应于两个组没有显著差别的零假设,处于受保护的位置。有一点经
常被人忽略,那就是如果p-value大于阈值,这个时候的结论应该是没有结论,也就是
既不能得出H0不成立的结论,也不能得出H0成立的结论。事实上,如果p-value是0.1左
右,common sense还是应该倾向于认为H0是不成立的,只是没有明显到可以推翻H0的程
度。
举个例子。一个赌场的庄家邀请你和他玩一个游戏。规则很简单:抛硬币。如果硬币正
面朝上,他给你10块钱;如果硬币反面朝上,你给他10块钱。庄家claim说硬币是均匀
的,正面朝上和反面朝上的概率都是0.5。你是一个精明的人。你决定先在旁边观察一
下别人玩的情形。你观察了30次抛硬币,只有11次是正面朝上的。正面朝上的频率只有
1/3多一点。你非常怀疑庄家在作弊。于是你用观察到的数据做一个假设检验
H0: p=0.5 VS. H1: p<0.5
其中p是正面朝上的概率。
在R里面敲入命令
binom.test(11, 30, p = 0.5, alternative ="less")
结果显示p-value=0.1002>0.05。用他们专业的术语来说,就是没有足够的证据显示庄
家在作弊。但是你会不会和庄家赌呢?我是不会。
(2) p-value VS. 样本大小
我们来分析一下检验两个正态分布总体的均值是否相等的t-检验。在实际应用中,两个
总体的均值不会刚好相等,总会有一点差别。举个例子,两个总体分别是N(100,1)和N(
100.01,1)。从直观上看,这两个总体在实践上应该是认为没有差别的。但是t-检验的
零假设H0是两个总体的均值绝对相等,不能有丝毫差别。从实践上看,H0总是错的,问
题只是所使用的检验够不够power把这个微小的差别检测出来。一个检验的power最重要
的影响因素就是样本大小。为简单起见,我们假定两个正态总体具有相同的方差,相同
的样本大小。
t-统计量的公式是
t=(m1-m2)/sqrt((s1^2+s2^2)/n)
其中m1,m2是样本均值,s1^2,s2^2是样本方差,n是样本大小。
令n趋于无穷,m1-m2近似就是总体均值的差0.01,s1^2,s2^2近似就是总体方差,所以t
也趋于无穷,从而p-value趋于0。
我们来做一个小实验,随机产生N(100,1)和N(100.01,1)的大小为100的样本,然后做一
个t-检验。
xyt.test(x,y)
结果显示p-value = 0.8872,正好就是我们所预料的。
现在我们把样本大小增加到1000000。
xyt.test(x,y)
结果显示p-value戏剧性地变化到了0.0000001764。只要样本足够大,任何细小的差别
都会被检测出来。
在这个例子我是故意把样本取得很大以显示样本大小对p-value的影响。在实际应用中
,对于一些临界的情形,你总可以通过调整样本大小来得到你想要的结论。
我以前学统计的时候,老师是一个真正懂得思考的人。他说了一句对我影响很大的话。
他说:“这些检验基本上就是在检验样本够不够大。如果样本足够大,就几乎总是拒绝
;如果样本不够大,就几乎总是接受。”这种现象在检验两个分布是否相同的时候更是
表现得淋漓尽致。
生物信息的论文动不动就是10的负几十次方的p-value,其实那主要是大样本造成的,
实际上并没有那么显著,甚至可能根本就不显著。
(3) 高尔夫球落点原理
你把高尔夫球打出去,高尔夫球最终总会停下来。于是你得出结论说:“高尔夫球场那
么大,高尔夫球偏偏在这一小块草地上停下来。这是一个概率非常小的事件。可见这一
小块草地必定有某种神秘的力量可以吸引高尔夫球。”这就是高尔夫球落点原理。
一般地,高尔夫球落点原理是指在试验前不事先确定要研究的对象或方法,而是在试验
之后看到了结果,再按照某种规则挑选出研究对象和确定方法,然后讨论这个对象的显
著性。Nature那篇质疑叶诗文比赛成绩的文章就是一个典型的例子。
我们来做一个实验,随机产生一个长度为20的随机向量x,再独立地随机产生20000个长
度为20的随机向量,然后把这20000个随机向量分别和x计算相关系数,挑选出相关度最
高的。
max(abs(cor(matrix(rnorm(20000*20),20),rnorm(20))))
结果显示相关系数绝对值的最大值高达0.7848。但是记住,所有数字都是独立随机地产
生的。
人有20000多个基因。主流医学动不动就把一种疾病说成是遗传的。就连近视他们都说
是遗传的,和某某基因有关。这当中有多少是高尔夫球落点原理呢?
(4) mining syndrome
mining syndrome是指用历史数据建立起来的模型或多或少会使用历史数据的某些独特
性质,反映的是过去,对未来不一定适用。
mining syndrome在股票交易领域表现得极为明显。所有市场的模型都是用历史数据建
立起来的,但是要应用于未来的交易。这也从一个侧面说明了为什么股市大部分人会亏
钱。
有些药品上市之后才发现并没有试验阶段那么有效。抗药性可能是最主要的原因。但是
我大胆猜测,mining syndrome可能也会是其中一个原因。
(5) training VS. testing
统计里面使用一种简单的方法来对付mining syndrome,那就是把样本分为training和
testing两部分。用training样本来建立模型和优化参数,然后用testing样本来对模型
进行测试和评估。
这个方法似乎解决了问题,除了容易被忽略的一点:有些优化是可以implicit地进行的
,不需要像参数优化那样explicit。对同一个问题可以从不同的角度作不同的假设,建
立不同的模型;数据的收集可以有多种不同的方式;可以有不同的评分标准对模型进行
评估;可以对数据做各种各样的预处理和变换;把样本分为training和testing也可以
有多种不同的划分方法。最重要的是,一次attemp不成功可以做下一次。这是一个庞大
的组合,如果对每一个这样的组合都用training和testing的方法做分析,极有可能会
有两种组合得出截然相反的结论。所以在统计学上有一个很重要的原则,那就是做统计
分析的人必须保持中立。也就是说,统计检验的目的应该是要搞清楚一个假设是不是对
的,而不应该是试图证明或推翻某个假设。如果做统计分析的人一心想要证明某个结论
,他就会有意无意地选择对这个结论有利的设置,从而得出有偏的结论。但是现实情况
是怎么样的呢?一个结论能够发论文或者带来巨额利润,另一个结论不仅徒劳无功,还
有可能带来赔偿责任。有多少人能做到中立呢?
(6) file drawer effect
同一个问题可能有多个团队独立地研究。由于随机因素的影响,有些团队会成功,有些
团队会失败。失败了的团队可能会觉得没有发表价值,于是把研究扔进抽屉里;成功的
团队则会把结果发表。所以即使每一个做研究的人都诚实(一个奢侈的假设),我们在
学术杂志上看到的结果仍然可能是片面的、有偏的。
(7) 文科统计
研究疫苗的有效性通常是把数据和几年前甚至十几年前的数据进行比较。这么长的时间
里社会环境和卫生条件各方面都会发生巨大变化,病毒也有其自身兴衰的周期,根本就
无法建立一个数理统计意义上的模型。这种统计只能算是文科统计,这里就不赘述了。
(8) 统计模型
统计分析是建立在假设和模型的基础上的。模型是对现实世界的抽象和近似,只能包含
现实问题的一部分主要特征,而忽略掉其他特征。在被忽略掉的特征当中可能有一些是
至关重要的。例如检验药品的安全性,在比较两组人的时候,通常是测量少数几个指标
。而真正的问题可能很隐蔽,根本就不在测量的范围之内。一种药品安不安全,有没有
效,和两组数据有没有统计意义上的显著差别根本就是两码事。只要你能抛开先入为主
的观念,用心去思考,就不难明白这个道理。
小结
统计只不过是一个数字游戏,有非常大的可以回旋的余地。只要你有足够多的钱,能够
控制足够多的资源,你就总能做出你想要的结论。药厂和工业界财雄势大,人才济济,
交游广阔。他们想要做出一个能够带来利润或者能够推卸责任的结论简直是易如反掌。
我们要学会独立思考,不盲从。要学会保护自己和保护身边的人,不能盲目依赖于官方
权威机构。在做重大决定的时候一定不能忘记common sense。
当然,如果使用得当,统计可以是一个非常有力的工具。这要求我们必须诚实和中立,
不能带着功利心和主观偏见来做研究。使用一个统计方法之前要彻底搞清楚这个方法的
原理和机制,了解它的可靠程度和可能存在的问题,而不是机械化地把数据输入到统计
软件里然后盲目地相信软件的计算结果。得出结论之后要用所在领域的知识和common
sense再加以检验。如果一个结论和common sense相反,就必须加倍谨慎。