统计的学问 - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>ChineseMed - 中医

统计的学问

统计的学问# ChineseMed - 中医

W*r2012-10-09 07:10

1 楼

在微观层次上，一种化学药品进入人体后会发生什么化学反应和带来什么生理变化，没
有人能彻底研究清楚。因此，检验药品的安全性和有效性基本上是用统计的方法。中医
之所以不被主流承认，其中很重要的一个原因也是因为中医缺乏统计分析。那么用统计
方法得出的结论有多可靠呢？我们一起来探讨一下。
(1) H0 VS. H1
在假设检验中，零假设H0是处于被保护的位置的，需要很强的证据才能把它推翻。药品
的安全性通常就是对应于两个组没有显著差别的零假设，处于受保护的位置。有一点经
常被人忽略，那就是如果p-value大于阈值，这个时候的结论应该是没有结论，也就是
既不能得出H0不成立的结论，也不能得出H0成立的结论。事实上，如果p-value是0.1左
右，common sense还是应该倾向于认为H0是不成立的，只是没有明显到可以推翻H0的程
度。
举个例子。一个赌场的庄家邀请你和他玩一个游戏。规则很简单：抛硬币。如果硬币正
面朝上，他给你10块钱；如果硬币反面朝上，你给他10块钱。庄家claim说硬币是均匀
的，正面朝上和反面朝上的概率都是0.5。你是一个精明的人。你决定先在旁边观察一
下别人玩的情形。你观察了30次抛硬币，只有11次是正面朝上的。正面朝上的频率只有
1/3多一点。你非常怀疑庄家在作弊。于是你用观察到的数据做一个假设检验
H0: p=0.5 VS. H1: p<0.5
其中p是正面朝上的概率。
在R里面敲入命令
binom.test(11, 30, p = 0.5, alternative ="less")
结果显示p-value=0.1002>0.05。用他们专业的术语来说，就是没有足够的证据显示庄
家在作弊。但是你会不会和庄家赌呢？我是不会。
(2) p-value VS. 样本大小
我们来分析一下检验两个正态分布总体的均值是否相等的t-检验。在实际应用中，两个
总体的均值不会刚好相等，总会有一点差别。举个例子，两个总体分别是N(100,1)和N(
100.01,1)。从直观上看，这两个总体在实践上应该是认为没有差别的。但是t-检验的
零假设H0是两个总体的均值绝对相等，不能有丝毫差别。从实践上看，H0总是错的，问
题只是所使用的检验够不够power把这个微小的差别检测出来。一个检验的power最重要
的影响因素就是样本大小。为简单起见，我们假定两个正态总体具有相同的方差，相同
的样本大小。
t-统计量的公式是
t=(m1-m2)/sqrt((s1^2+s2^2)/n)
其中m1,m2是样本均值，s1^2,s2^2是样本方差，n是样本大小。
令n趋于无穷，m1-m2近似就是总体均值的差0.01，s1^2,s2^2近似就是总体方差，所以t
也趋于无穷，从而p-value趋于0。
我们来做一个小实验，随机产生N(100,1)和N(100.01,1)的大小为100的样本，然后做一
个t-检验。
xyt.test(x,y)
结果显示p-value = 0.8872，正好就是我们所预料的。
现在我们把样本大小增加到1000000。
xyt.test(x,y)
结果显示p-value戏剧性地变化到了0.0000001764。只要样本足够大，任何细小的差别
都会被检测出来。
在这个例子我是故意把样本取得很大以显示样本大小对p-value的影响。在实际应用中
，对于一些临界的情形，你总可以通过调整样本大小来得到你想要的结论。
我以前学统计的时候，老师是一个真正懂得思考的人。他说了一句对我影响很大的话。
他说：“这些检验基本上就是在检验样本够不够大。如果样本足够大，就几乎总是拒绝
；如果样本不够大，就几乎总是接受。”这种现象在检验两个分布是否相同的时候更是
表现得淋漓尽致。
生物信息的论文动不动就是10的负几十次方的p-value，其实那主要是大样本造成的，
实际上并没有那么显著，甚至可能根本就不显著。
(3) 高尔夫球落点原理
你把高尔夫球打出去，高尔夫球最终总会停下来。于是你得出结论说：“高尔夫球场那
么大，高尔夫球偏偏在这一小块草地上停下来。这是一个概率非常小的事件。可见这一
小块草地必定有某种神秘的力量可以吸引高尔夫球。”这就是高尔夫球落点原理。
一般地，高尔夫球落点原理是指在试验前不事先确定要研究的对象或方法，而是在试验
之后看到了结果，再按照某种规则挑选出研究对象和确定方法，然后讨论这个对象的显
著性。Nature那篇质疑叶诗文比赛成绩的文章就是一个典型的例子。
我们来做一个实验，随机产生一个长度为20的随机向量x，再独立地随机产生20000个长
度为20的随机向量，然后把这20000个随机向量分别和x计算相关系数，挑选出相关度最
高的。
max(abs(cor(matrix(rnorm(20000*20),20),rnorm(20))))
结果显示相关系数绝对值的最大值高达0.7848。但是记住，所有数字都是独立随机地产
生的。
人有20000多个基因。主流医学动不动就把一种疾病说成是遗传的。就连近视他们都说
是遗传的，和某某基因有关。这当中有多少是高尔夫球落点原理呢？
(4) mining syndrome
mining syndrome是指用历史数据建立起来的模型或多或少会使用历史数据的某些独特
性质，反映的是过去，对未来不一定适用。
mining syndrome在股票交易领域表现得极为明显。所有市场的模型都是用历史数据建
立起来的，但是要应用于未来的交易。这也从一个侧面说明了为什么股市大部分人会亏
钱。
有些药品上市之后才发现并没有试验阶段那么有效。抗药性可能是最主要的原因。但是
我大胆猜测，mining syndrome可能也会是其中一个原因。
(5) training VS. testing
统计里面使用一种简单的方法来对付mining syndrome，那就是把样本分为training和
testing两部分。用training样本来建立模型和优化参数，然后用testing样本来对模型
进行测试和评估。
这个方法似乎解决了问题，除了容易被忽略的一点：有些优化是可以implicit地进行的
，不需要像参数优化那样explicit。对同一个问题可以从不同的角度作不同的假设，建
立不同的模型；数据的收集可以有多种不同的方式；可以有不同的评分标准对模型进行
评估；可以对数据做各种各样的预处理和变换；把样本分为training和testing也可以
有多种不同的划分方法。最重要的是，一次attemp不成功可以做下一次。这是一个庞大
的组合，如果对每一个这样的组合都用training和testing的方法做分析，极有可能会
有两种组合得出截然相反的结论。所以在统计学上有一个很重要的原则，那就是做统计
分析的人必须保持中立。也就是说，统计检验的目的应该是要搞清楚一个假设是不是对
的，而不应该是试图证明或推翻某个假设。如果做统计分析的人一心想要证明某个结论
，他就会有意无意地选择对这个结论有利的设置，从而得出有偏的结论。但是现实情况
是怎么样的呢？一个结论能够发论文或者带来巨额利润，另一个结论不仅徒劳无功，还
有可能带来赔偿责任。有多少人能做到中立呢？
(6) file drawer effect
同一个问题可能有多个团队独立地研究。由于随机因素的影响，有些团队会成功，有些
团队会失败。失败了的团队可能会觉得没有发表价值，于是把研究扔进抽屉里；成功的
团队则会把结果发表。所以即使每一个做研究的人都诚实（一个奢侈的假设），我们在
学术杂志上看到的结果仍然可能是片面的、有偏的。
(7) 文科统计
研究疫苗的有效性通常是把数据和几年前甚至十几年前的数据进行比较。这么长的时间
里社会环境和卫生条件各方面都会发生巨大变化，病毒也有其自身兴衰的周期，根本就
无法建立一个数理统计意义上的模型。这种统计只能算是文科统计，这里就不赘述了。
(8) 统计模型
统计分析是建立在假设和模型的基础上的。模型是对现实世界的抽象和近似，只能包含
现实问题的一部分主要特征，而忽略掉其他特征。在被忽略掉的特征当中可能有一些是
至关重要的。例如检验药品的安全性，在比较两组人的时候，通常是测量少数几个指标
。而真正的问题可能很隐蔽，根本就不在测量的范围之内。一种药品安不安全，有没有
效，和两组数据有没有统计意义上的显著差别根本就是两码事。只要你能抛开先入为主
的观念，用心去思考，就不难明白这个道理。
小结
统计只不过是一个数字游戏，有非常大的可以回旋的余地。只要你有足够多的钱，能够
控制足够多的资源，你就总能做出你想要的结论。药厂和工业界财雄势大，人才济济，
交游广阔。他们想要做出一个能够带来利润或者能够推卸责任的结论简直是易如反掌。
我们要学会独立思考，不盲从。要学会保护自己和保护身边的人，不能盲目依赖于官方
权威机构。在做重大决定的时候一定不能忘记common sense。
当然，如果使用得当，统计可以是一个非常有力的工具。这要求我们必须诚实和中立，
不能带着功利心和主观偏见来做研究。使用一个统计方法之前要彻底搞清楚这个方法的
原理和机制，了解它的可靠程度和可能存在的问题，而不是机械化地把数据输入到统计
软件里然后盲目地相信软件的计算结果。得出结论之后要用所在领域的知识和common
sense再加以检验。如果一个结论和common sense相反，就必须加倍谨慎。

s*n2012-10-09 07:10

2 楼

:-)

u*i2012-10-09 07:10

3 楼

b*g2012-10-09 07:10

4 楼

好帖！

m*e2012-10-09 07:10

5 楼

通篇bullshit，明显是没学过统计的，或是统计没学好的。

i*e2012-10-09 07:10

6 楼

没时间逐条来讨论。就回复你的第一条和题二条。
1.统计学能检验的是，11/30是不是小概率事件，而非对方主观上有没有作弊的可能。
对方有没有作弊，用监视器比统计管用得多。打个比方，你这个属于脱裤子放屁，然后
说脱裤子不能对放屁带来什么好处。
2.你是哪个专业的？你经常伪造数据吗？你认为两组数据，每组50个，一个平均值为
100，另一个为100.01，和另外两组数据，每组5000个，一个平均值100，另个100.01
是一回事吗？打个比方，你认为两个学生考试，考了2次成绩平均值差一分，和考了200
次成绩成绩差一分是一回事吗？不用统计你也能想明白，第二种的可能性要比第一种小
得多。因此，也更能检测出细微的差别。记住，现实生活中的数据不是在R里面
generate出来的，你是在编造数据。
一知半解MD是最难打交道的。你知道你说的是在否决统计学这门学科，你觉得自己有这
么牛吗？文中你提到了你老师，我不知道是你上课没听明白，还是你的统计老师真的这
么给你解释，这些是对统计基础的最基本的理解。你会的是算数，但是对统计的common
sense很差，没理解统计学的含义。

【在 W******r 的大作中提到】

: 在微观层次上，一种化学药品进入人体后会发生什么化学反应和带来什么生理变化，没
: 有人能彻底研究清楚。因此，检验药品的安全性和有效性基本上是用统计的方法。中医
: 之所以不被主流承认，其中很重要的一个原因也是因为中医缺乏统计分析。那么用统计
: 方法得出的结论有多可靠呢？我们一起来探讨一下。
: (1) H0 VS. H1
: 在假设检验中，零假设H0是处于被保护的位置的，需要很强的证据才能把它推翻。药品
: 的安全性通常就是对应于两个组没有显著差别的零假设，处于受保护的位置。有一点经
: 常被人忽略，那就是如果p-value大于阈值，这个时候的结论应该是没有结论，也就是
: 既不能得出H0不成立的结论，也不能得出H0成立的结论。事实上，如果p-value是0.1左
: 右，common sense还是应该倾向于认为H0是不成立的，只是没有明显到可以推翻H0的程

a*02012-10-09 07:10

7 楼

皮毛，楼主需要学习，实践才能深刻理解统计。

【在 W******r 的大作中提到】

k*42012-10-09 07:10

8 楼

hehe, agree, both him and his professor do not
really understand statistics. BTW, if u know
u have only one day left to live, be sure to
take some statistics classes... that will make
it feel like forever.

【在 a*****0 的大作中提到】

: 皮毛，楼主需要学习，实践才能深刻理解统计。

W*r2012-10-09 07:10

9 楼

对方有没有作弊，用监视器比统计管用得多。打个比方，你这个属于脱裤子放屁，然后
说脱裤子不能对放屁带来什么好处。
我所说的庄家在作弊是指p<0.5。
100，另一个为100.01，和另外两组数据，每组5000个，一个平均值100，另个100.01
是一回事吗？打个比方，你认为两个学生考试，考了2次成绩平均值差一分，和考了200
次成绩成绩差一分是一回事吗？不用统计你也能想明白，第二种的可能性要比第一种小
得多。因此，也更能检测出细微的差别。记住，现实生活中的数据不是在R里面
generate出来的，你是在编造数据。
你好像没有理解我的意思。这个例子我是编造出来的。这是一个prototype，又有何不
可？记住，样本大小是一个可以人为控制的因素，而这个可以人为控制的因素对统计结
论起了决定性的作用。
么牛吗？文中你提到了你老师，我不知道是你上课没听明白，还是你的统计老师真的这
么给你解释，这些是对统计基础的最基本的理解。你会的是算数，但是对统计的common
sense很差，没理解统计学的含义。
我没有在否决统计学这门学科。我想说的是统计太容易被误用了，而且有些机构是故意
在误用统计以得出对他们有利的结论。请参考原帖最后一段。
一个人牛不牛和他说的话有没有道理有必然联系吗？不懂思考又死抱着先入为主的观念
不放的人才是最难打交道的。

【在 i****e 的大作中提到】

: 没时间逐条来讨论。就回复你的第一条和题二条。
: 1.统计学能检验的是，11/30是不是小概率事件，而非对方主观上有没有作弊的可能。
: 对方有没有作弊，用监视器比统计管用得多。打个比方，你这个属于脱裤子放屁，然后
: 说脱裤子不能对放屁带来什么好处。
: 2.你是哪个专业的？你经常伪造数据吗？你认为两组数据，每组50个，一个平均值为
: 100，另一个为100.01，和另外两组数据，每组5000个，一个平均值100，另个100.01
: 是一回事吗？打个比方，你认为两个学生考试，考了2次成绩平均值差一分，和考了200
: 次成绩成绩差一分是一回事吗？不用统计你也能想明白，第二种的可能性要比第一种小
: 得多。因此，也更能检测出细微的差别。记住，现实生活中的数据不是在R里面
: generate出来的，你是在编造数据。

m*b2012-10-09 07:10

10 楼

赫赫，统计要是这么好manipulate，新药岂不是个个批准。

01
200

【在 W******r 的大作中提到】

:
: 对方有没有作弊，用监视器比统计管用得多。打个比方，你这个属于脱裤子放屁，然后
: 说脱裤子不能对放屁带来什么好处。
: 我所说的庄家在作弊是指p<0.5。
: 100，另一个为100.01，和另外两组数据，每组5000个，一个平均值100，另个100.01
: 是一回事吗？打个比方，你认为两个学生考试，考了2次成绩平均值差一分，和考了200
: 次成绩成绩差一分是一回事吗？不用统计你也能想明白，第二种的可能性要比第一种小
: 得多。因此，也更能检测出细微的差别。记住，现实生活中的数据不是在R里面
: generate出来的，你是在编造数据。
: 你好像没有理解我的意思。这个例子我是编造出来的。这是一个prototype，又有何不

m*e2012-10-09 07:10

11 楼

可以这么说，你没有学会统计，而是学会了统计里的数学和公式。
和鹦鹉学舌一样，你会jjww什么p-value, hypothesis test, 但你完全没明白这些概念
背后的意义和用法。可悲的是，你觉得你全透彻了，有资格批判了。
人还是谦虚点比较好，学了点皮毛就开始大篇幅点论，真的是丢人。

b*n2012-10-09 07:10

12 楼

楼主对统计的理解太偏颇。

p*e2012-10-09 07:10

13 楼

学习！

W*r2012-10-09 07:10

14 楼

无论怎么引导都不会思考才是最可悲的。我们生活在一个充满谎言的世界。不学会独立
思考，人云亦云，盲目相信卫生部门的官方安全性研究报告，不懂得保护自己，吃亏的
是你自己。

【在 m******e 的大作中提到】

: 可以这么说，你没有学会统计，而是学会了统计里的数学和公式。
: 和鹦鹉学舌一样，你会jjww什么p-value, hypothesis test, 但你完全没明白这些概念
: 背后的意义和用法。可悲的是，你觉得你全透彻了，有资格批判了。
: 人还是谦虚点比较好，学了点皮毛就开始大篇幅点论，真的是丢人。

m*e2012-10-09 07:10

15 楼

谢谢你证明我的论点：
不要受人引导，大家要独立思考：在这个充满谎言的世界里，长篇大论往往是bullshit。
继续你的恐吓战术吧，你也就这点伎俩了。

【在 W******r 的大作中提到】

: 无论怎么引导都不会思考才是最可悲的。我们生活在一个充满谎言的世界。不学会独立
: 思考，人云亦云，盲目相信卫生部门的官方安全性研究报告，不懂得保护自己，吃亏的
: 是你自己。

u*i2012-10-09 07:10

16 楼

T*I2012-10-09 07:10

17 楼

“t-检验的零假设H0是两个总体的均值绝对相等，不能有丝毫差别。”这句话表明作者
甚至连假设检验在检验什么都没搞清楚。这个是在胡说八道。
假设检验中的t-检验是在检验两个样本均值的绝对差中由抽样变异引起的随机误差发生
的可能性是否显著，因为这个绝对差有且只有两个来源：一个是由于总体中个体的随机
变异而引起的抽样随机误差，另一个就是由定义两个总体的不同子系统属性所引起的系
统误差。但是，我们的问题是无法通过一次抽样直接测量这两类误差的绝对大小，这才
有了用概率来判断两类误差在此次抽样研究中发生可能性的假设检验问题。
还有就是拿关于疫苗回顾性比较研究的例子归纳出“文科统计”的概念，又是一个绝对
的无知或偏见。

【在 W******r 的大作中提到】

W*r2012-10-09 07:10

18 楼

你要把t-检验的原理彻底搞清楚才能明白这句话。

【在 T*******I 的大作中提到】

: “t-检验的零假设H0是两个总体的均值绝对相等，不能有丝毫差别。”这句话表明作者
: 甚至连假设检验在检验什么都没搞清楚。这个是在胡说八道。
: 假设检验中的t-检验是在检验两个样本均值的绝对差中由抽样变异引起的随机误差发生
: 的可能性是否显著，因为这个绝对差有且只有两个来源：一个是由于总体中个体的随机
: 变异而引起的抽样随机误差，另一个就是由定义两个总体的不同子系统属性所引起的系
: 统误差。但是，我们的问题是无法通过一次抽样直接测量这两类误差的绝对大小，这才
: 有了用概率来判断两类误差在此次抽样研究中发生可能性的假设检验问题。
: 还有就是拿关于疫苗回顾性比较研究的例子归纳出“文科统计”的概念，又是一个绝对
: 的无知或偏见。

T*I2012-10-09 07:10

19 楼

这句话适合你自己。
统计学家从来不会将一个H0假设建立在一个绝对的确定性等式上，因为统计面对的问题
是绝对的不确定。
那个H0假设就是在假定两个样本均数的绝对之差中由个体变异引起的抽样误差大到不可
忽视，而不是说，它们所来源的各自总体的期望绝对相等。
你很可能在写这篇文章之前甚至没搞清楚那两个样本均数之差是由什么构成的。而你对
那个H0的理解表明了你的确定性数学思维在统计领域的残余痕迹。
关于你所谓的“文科统计”。其实，你可能不知道，任何一个统计方法的诞生都首先是
一个文科思维而非数学思维。正是这个文科思维过程形成了统计算法以及决定了如何应
用数学计算技能。因此，只有正确的思维逻辑才会带给我们一个正确的统计方法，而一个
错误的逻辑必然带给我们一个错误的统计方法。
此外，你很可能不知道统计学的诞生并非在数学领域，而是在人文科学领域。

【在 W******r 的大作中提到】

: 你要把t-检验的原理彻底搞清楚才能明白这句话。

W*r2012-10-09 07:10

20 楼

t-统计量的分布是在两个正态总体的均值绝对相等的假设下推导出来的。如果两个正态
总体的均值不是绝对相等，哪怕只有一点点差别，你不妨思考一下当样本大小n趋于无
穷的时候t-统计量会是什么样的分布。你是统计高手，一定能想明白的。

一个

【在 T*******I 的大作中提到】

: 这句话适合你自己。
: 统计学家从来不会将一个H0假设建立在一个绝对的确定性等式上，因为统计面对的问题
: 是绝对的不确定。
: 那个H0假设就是在假定两个样本均数的绝对之差中由个体变异引起的抽样误差大到不可
: 忽视，而不是说，它们所来源的各自总体的期望绝对相等。
: 你很可能在写这篇文章之前甚至没搞清楚那两个样本均数之差是由什么构成的。而你对
: 那个H0的理解表明了你的确定性数学思维在统计领域的残余痕迹。
: 关于你所谓的“文科统计”。其实，你可能不知道，任何一个统计方法的诞生都首先是
: 一个文科思维而非数学思维。正是这个文科思维过程形成了统计算法以及决定了如何应
: 用数学计算技能。因此，只有正确的思维逻辑才会带给我们一个正确的统计方法，而一个

a*e2012-10-09 07:10

21 楼

这篇文章真是搞笑统计学。所谓高尔夫球落点原理，你如果连续打一百次都落在同一地
点，才说明这个地点是特殊的。这是现代医学统计原理。你如果打一次就说这个地点特
殊，这是常见的中医证明药效方式，比如我(大爷, 邻居，同学，同事）吃了某中药癌
症好了。
所谓相关系数绝对值的最大值高达0.7848。你在20000*20×20多个随机数里面取最大值
，0.7848一点也不奇怪。这种极值（最大值最小值）在统计学里叫做不稳定统计值。没
人会用极值做统计。稳定值比如均值或者中位值才有意义。

W*r2012-10-09 07:10

22 楼

你没看明白我的意思。

【在 a***e 的大作中提到】

: 这篇文章真是搞笑统计学。所谓高尔夫球落点原理，你如果连续打一百次都落在同一地
: 点，才说明这个地点是特殊的。这是现代医学统计原理。你如果打一次就说这个地点特
: 殊，这是常见的中医证明药效方式，比如我(大爷, 邻居，同学，同事）吃了某中药癌
: 症好了。
: 所谓相关系数绝对值的最大值高达0.7848。你在20000*20×20多个随机数里面取最大值
: ，0.7848一点也不奇怪。这种极值（最大值最小值）在统计学里叫做不稳定统计值。没
: 人会用极值做统计。稳定值比如均值或者中位值才有意义。

t*r2012-10-09 07:10

23 楼

I have a PhD in Statistics and I think most of these points are valid.
It is of course possible to manipulate your data to achieve any conclusions
using statistics. That is why when you report your results, you need to also
report in details how you get your results. That is also why FDA hires so m
any statisticians to catch those cheaters.
Statisitcs is a powerful tool. But more importantly, it is the people who us
es it determines how powerful it could be.

【在 W******r 的大作中提到】

w*l2012-10-09 07:10

24 楼

I think this is an interest post.
In general I kind of agree with what the original post suggests: Statistics
is just one of the approach to understand the world, medicine included; but
not the only one!
However, Chemistry/Biochemistry and Statistics is the building block of
western medicine. Statistics is for group, not personalized medicine.
Chinese medicine is personalized medicine. They are two different approaches
. They may meet each other somewhere, but in some situations one approach is
more efficient.
One example: Metformin, a diabetes medicine, can be used for Polycystic
Ovarian Syndrome, a female reproductive system syndrome/disease: first from
single case observation, then clinical trial, statistic show it works. A
drug for metabolic disease works in reproductive system disease, verified by
statistics. However, Chinese medicine will deal with it naturally by
connecting metabolic system and reproductive system together, with higher
success rate and less adverse effect.