没有统计常识的搞生物就是捣糨糊 - 未名空间MITBBS历史存档

没有统计常识的搞生物就是捣糨糊# Biology - 生物学

OE2012-08-29 07:08

1 楼

有没有用过Jingchen的同学？回我信箱吧。

D*g2012-08-29 07:08

2 楼

有wsn/v 说统计是伪科学。尼玛，什么是科学，怎么搞科学你搞清楚没？没有统计支持
的生物学，最有资格算伪科学。不懂统计的生物男，连巫师都不如。
做试验，离不开比较和结论。没有统计常识的生物学家会怎么做比较呢？拿两个样品，
跑个western，看个条带粗细就敢下结论了。一个microarray的样品就敢代表一个试验
或对照组。为什么这么多搞生物的搞得这么惨？因为门槛低啊，找个纯文科生，连标准
曲线是什么都不知道也可以给你Elisa的数据，比较随便比，结论随便下，搞科研跟写
小说似的，故事讲的似是而非就可以了。一个故事好编，搞连载就惨了。
为什么生物学离不开统计？一个最简单的理由就是，任何试验都只可能用有限的样本，
生物学家的最终目的是通过有限的样本去揭示样本代表的群体的规律。只有克服随机误
差，bias 和confounding的干扰，我们才有可能逼近事实真相。你想说你和你老婆谁高
谁矮，这不需要统计。但你想知道中国某个年龄段男女的平均身高差异多大，光在家里
量你老婆肯定是不行的。

g*g2012-08-29 07:08

3 楼

狗屎

【在 OE 的大作中提到】

: 有没有用过Jingchen的同学？回我信箱吧。

r*m2012-08-29 07:08

4 楼

相当多的经典的生物发现还真跟统计没有半毛钱关系。
发现DNA双螺旋是靠统计手段？
发明PCR靠统计？
很多实验结论黑白分明，肉眼可辨，根本不需要统计。
只有当结果不是那么黑白分明时，才需要统计来捣捣浆糊，多做几组争取来个“
statistically significant”。

OE2012-08-29 07:08

5 楼

知道了，多谢。

【在 g*****g 的大作中提到】

: 狗屎

f*g2012-08-29 07:08

6 楼

顶这个，
我觉得统计才是真正捣捣浆糊的，弄一堆p值出来，谁都担心是p值外的那个样品。

【在 r*m 的大作中提到】

: 相当多的经典的生物发现还真跟统计没有半毛钱关系。
: 发现DNA双螺旋是靠统计手段？
: 发明PCR靠统计？
: 很多实验结论黑白分明，肉眼可辨，根本不需要统计。
: 只有当结果不是那么黑白分明时，才需要统计来捣捣浆糊，多做几组争取来个“
: statistically significant”。

d*u2012-08-29 07:08

7 楼

统计也不仅仅是假设检验
或者experimental design
比如套用一个Hidden Markov Model，也可以算是统计
基本上需要从（一定数量的）数据做inference的，就需要统计
不需要数据的，就不需要统计
很简单

【在 r*m 的大作中提到】

: 相当多的经典的生物发现还真跟统计没有半毛钱关系。
: 发现DNA双螺旋是靠统计手段？
: 发明PCR靠统计？
: 很多实验结论黑白分明，肉眼可辨，根本不需要统计。
: 只有当结果不是那么黑白分明时，才需要统计来捣捣浆糊，多做几组争取来个“
: statistically significant”。

D*a2012-08-29 07:08

8 楼

我感觉统计一个重要用处其实是给发现设限的，而不是企图用各种牛逼test搞出显著性
来。
比如ANOVA的用处是为了使结论更严格，不要搞一堆student两两比较，比较得不显著的
都显著了，比如GWAS的p值修正也应该是为了只关注有最大变化的那几个基因。
另外一个现在确实统计很重要啊，比如你测两组老年痴呆或者癌症老鼠，每天重复test
一个指标，然后再怎么给药弄一下，只有靠统计手段才能说两条曲线是不是差异显著。
如果肉眼可见了，两条区分太开，我感觉老鼠模型要后续应用有点问题，因为病人发病
很少是马上发病到病重的，药物治疗老年痴呆或者癌症这种病也不可能是立竿见影的。

a*n2012-08-29 07:08

9 楼

很多学生物的也就在自己的一亩三分地YY的乐趣了，有什么他们不鄙视的

D*g2012-08-29 07:08

10 楼

搞生物的还真是门槛低，逻辑再差都可以run PCR。肯定不可能是每一个发现都是统计
得直接结果，离了统计，双螺旋结构跟小孩子得lego一样的用处。双螺旋往后面应用，
能不要统计？现在动辄海量的测序数据，你以为搞这些的是在过家家？说到PCR, 你如
果对PCR的使用还只停留在一个条带的粗细和有无之类肉眼可辨，我为你感到悲哀。
生物学是个系统科学，单个试验可能有黑白分明的时候，放回到系统里就复杂了。你给
两个老鼠试药，吃药的死了，没吃的活着，黑白太分明了，不用肉眼都可辩，你会下结
论么？你可以说这个例子跟你半毛钱关系都没有，但对统计如此不屑的你，怎么知道你
现在做的研究，不会有这样设计上的错误？要不介绍一下你的工作，让我们膜拜一下搞
现代生物的，是怎样可以做到不懂统计也可以混下去的

【在 r*m 的大作中提到】

: 相当多的经典的生物发现还真跟统计没有半毛钱关系。
: 发现DNA双螺旋是靠统计手段？
: 发明PCR靠统计？
: 很多实验结论黑白分明，肉眼可辨，根本不需要统计。
: 只有当结果不是那么黑白分明时，才需要统计来捣捣浆糊，多做几组争取来个“
: statistically significant”。

D*g2012-08-29 07:08

11 楼

补充一下，统计不是伪科学，但是由于统计理论的存在，让很多搞生物的觉得自己在跳
大神。

b*r2012-08-29 07:08

12 楼

这个帖很好，彰显一些非生物专业人士（如果你真是做生物的我就要大跌眼镜了）对生
物的认识
很多实验确实黑白分明，但是比起总体的生物研究那还真是少得可怜
就打比方你这个生物体，每天都运行中有多少是非黑即白的，比如你每天饭量如果减1/
4，一周后体重是不是减少？恐怕如果只看你一个人还真看不出来，还非得靠统计来捣
浆糊才能证明饭量减少和体重下降的联系

【在 r*m 的大作中提到】

: 相当多的经典的生物发现还真跟统计没有半毛钱关系。
: 发现DNA双螺旋是靠统计手段？
: 发明PCR靠统计？
: 很多实验结论黑白分明，肉眼可辨，根本不需要统计。
: 只有当结果不是那么黑白分明时，才需要统计来捣捣浆糊，多做几组争取来个“
: statistically significant”。

r*m2012-08-29 07:08

13 楼

请大家注意看原帖的标题。
“没有统计常识的搞生物就是捣糨糊”。
逻辑上讲我只需要举出几个反例就可以说明这句话不对了，是吧？
我没说统计没用。我的观点是，到目前为止的生物界，正真牛逼的深刻的发现，还都不
是靠统计得来的。统计主要在一些类似老鼠实验，药物试验等等不那么黑白分明的领域
，发挥作用。

y*82012-08-29 07:08

14 楼

Statistics can tell something wrong, but cannot do the opposite.

test

【在 D*a 的大作中提到】

: 我感觉统计一个重要用处其实是给发现设限的，而不是企图用各种牛逼test搞出显著性
: 来。
: 比如ANOVA的用处是为了使结论更严格，不要搞一堆student两两比较，比较得不显著的
: 都显著了，比如GWAS的p值修正也应该是为了只关注有最大变化的那几个基因。
: 另外一个现在确实统计很重要啊，比如你测两组老年痴呆或者癌症老鼠，每天重复test
: 一个指标，然后再怎么给药弄一下，只有靠统计手段才能说两条曲线是不是差异显著。
: 如果肉眼可见了，两条区分太开，我感觉老鼠模型要后续应用有点问题，因为病人发病
: 很少是马上发病到病重的，药物治疗老年痴呆或者癌症这种病也不可能是立竿见影的。

P*P2012-08-29 07:08

15 楼

你发到物理版数学版看看，搞统计的就是捣糨糊

k*12012-08-29 07:08

16 楼

哈哈大家都没讨论对地方。
（1）
统计真正兴起是在70年代计算机开始普及了以后。因为如果没有计算机的辅助，统计学
这个学科几乎在实践当中没有任何价值。你能想象如果用笔去做数据分析会是什么场景
吗？但是在70年代之前，科学已经存在了很多年了....
（2）切记：统计不能去“证明”任何东西，只能去“解释”看到的。这个“证明”和
“解释”之间差多远，你能告诉我吗？

r*m2012-08-29 07:08

17 楼

nod，这其实也是我想说的。

【在 k*****1 的大作中提到】

: 哈哈大家都没讨论对地方。
: （1）
: 统计真正兴起是在70年代计算机开始普及了以后。因为如果没有计算机的辅助，统计学
: 这个学科几乎在实践当中没有任何价值。你能想象如果用笔去做数据分析会是什么场景
: 吗？但是在70年代之前，科学已经存在了很多年了....
: （2）切记：统计不能去“证明”任何东西，只能去“解释”看到的。这个“证明”和
: “解释”之间差多远，你能告诉我吗？

C*m2012-08-29 07:08

18 楼

还有啊，没有生物常识的（生物）统计也是捣糨糊.
最近看一个片，Sugar - The Bitter Truth.里面就讲到说 fat 和心血管疾病的关联是
怎么用统计学方法捣鼓出来的。30年后，人们发现其实那个文章有问题，不过作者已经
死了，死无对证。但是这30年很多卫生政策都是基于这个文章制定的，结果就是肥胖，
糖尿病越来越多，这些政策都不得要领。

【在 k*****1 的大作中提到】

: 哈哈大家都没讨论对地方。
: （1）
: 统计真正兴起是在70年代计算机开始普及了以后。因为如果没有计算机的辅助，统计学
: 这个学科几乎在实践当中没有任何价值。你能想象如果用笔去做数据分析会是什么场景
: 吗？但是在70年代之前，科学已经存在了很多年了....
: （2）切记：统计不能去“证明”任何东西，只能去“解释”看到的。这个“证明”和
: “解释”之间差多远，你能告诉我吗？

D*a2012-08-29 07:08

19 楼

没见过这么会表功的。。。
按你的逻辑，我也可以说，不懂dna双螺旋也可以搞生物，理由是像达尔文巴斯德都不
懂DNA生物也搞得挺好啊

【在 r*m 的大作中提到】

: nod，这其实也是我想说的。

k*12012-08-29 07:08

20 楼

统计学一个最基本的要求就是建立在数据量上：也就是只有sample size足够大，统计
出来的结果才有意义。但是什么叫“足够大”，就有点自欺欺人的意思：因为只有你知
道某个东西是怎么回事，你才能判断什么样的sample size 才是“足够”的；这就好比
“必须得先知道结果，你才能预测结果”。所以，绝大部分的统计结果，都或多或少有
点扯淡:你要不是预先知道答案，你怎么就知道手里的sample size就足够了？所以统
计学的重要性，就是有总比没有强。就像前面一个网友说的，好歹你也有个数学模型
在，比定性的分析还是要好。
事实上，从严格的统计学的角度上来看，绝大部分单篇文章里的生物数据是没什么意义
。这涉及到实验目的和（所能证明这个目的）所需要的数据量的问题。
统计学有个概念，叫做 "curse of dimensionality", “维度的诅咒”。意思就是说
，越复杂的数据构成，如果想揭示其本质的话，就必须要有和这种复杂度成正比的数据
量：
比如说，如果生物学上想测量细胞内的某个分子的作用机理，你可以先设想一下，这
个作用机理大概会和那些因素相关。假设每个因素你要花10个细胞的数据量来证明，那
么，根据curse of dimensionality 原理，
（1）如果该机理只和一个因素（比如说温度）相关，那么数据量为10.
（2）该机理如果和两个因素相关，比如说温度和细胞内某离子浓度A，那么数据量就是
10*10=100！
（3）如果和三个因素相关，比如说温度，某离子A，某分子B，那么数据量就应该是10*
10*10=1000！
由此类推。所以生物学上要想解决一个系统性的问题，按照举证式的推理方法，几乎
是不可能的，因为这就意味着需要“例举出”几十万上百万的细胞数据量。所以从这
个角度上来讲，如果一篇文章，题目起的越大，就越不可信--因为文中的数据量绝对支
持不了这么大的一个topic。

【在 C*********m 的大作中提到】

: 还有啊，没有生物常识的（生物）统计也是捣糨糊.
: 最近看一个片，Sugar - The Bitter Truth.里面就讲到说 fat 和心血管疾病的关联是
: 怎么用统计学方法捣鼓出来的。30年后，人们发现其实那个文章有问题，不过作者已经
: 死了，死无对证。但是这30年很多卫生政策都是基于这个文章制定的，结果就是肥胖，
: 糖尿病越来越多，这些政策都不得要领。

d*u2012-08-29 07:08

21 楼

数据量大，按照law of large numbers，样本均值会逼近随机变量的期望
按照central limit theorem，样本均值会逼近成正态分布
但有些统计问题并不是研究期望的，也不关心正态分布
比如研究某种刺激对人的行为的影响
一次刺激是一种影响，两次刺激又是另一种影响
统计学（特别是bayes学派）也研究posterior distribution的这些变化

【在 k*****1 的大作中提到】

: 统计学一个最基本的要求就是建立在数据量上：也就是只有sample size足够大，统计
: 出来的结果才有意义。但是什么叫“足够大”，就有点自欺欺人的意思：因为只有你知
: 道某个东西是怎么回事，你才能判断什么样的sample size 才是“足够”的；这就好比
: “必须得先知道结果，你才能预测结果”。所以，绝大部分的统计结果，都或多或少有
: 点扯淡:你要不是预先知道答案，你怎么就知道手里的sample size就足够了？所以统
: 计学的重要性，就是有总比没有强。就像前面一个网友说的，好歹你也有个数学模型
: 在，比定性的分析还是要好。
: 事实上，从严格的统计学的角度上来看，绝大部分单篇文章里的生物数据是没什么意义
: 。这涉及到实验目的和（所能证明这个目的）所需要的数据量的问题。
: 统计学有个概念，叫做 "curse of dimensionality", “维度的诅咒”。意思就是说

k*12012-08-29 07:08

22 楼

这个大数定理我还真没仔细考虑过。
他对数据的维度有要求吗？

【在 d*****u 的大作中提到】

: 数据量大，按照law of large numbers，样本均值会逼近随机变量的期望
: 按照central limit theorem，样本均值会逼近成正态分布
: 但有些统计问题并不是研究期望的，也不关心正态分布
: 比如研究某种刺激对人的行为的影响
: 一次刺激是一种影响，两次刺激又是另一种影响
: 统计学（特别是bayes学派）也研究posterior distribution的这些变化

l*y2012-08-29 07:08

23 楼

唉，不懂统计的后果啊。总共说了两条，都似是而非。
第一个问题建议去上统计课，顺便做一个关于 piloting study 的 project；第二个问
题建议去上 design of experiments 课，尤其是好好学习一下 factorial design。前
一门课恰好是后一门的 prerequisite。
从这个课程设计上说，不懂统计的，设计实验时也是拍脑袋瞎搞。过去小作坊解决简单
问题时或许也就混过去了。现在再这么搞，未必好混了。

【在 k*****1 的大作中提到】

: 统计学一个最基本的要求就是建立在数据量上：也就是只有sample size足够大，统计
: 出来的结果才有意义。但是什么叫“足够大”，就有点自欺欺人的意思：因为只有你知
: 道某个东西是怎么回事，你才能判断什么样的sample size 才是“足够”的；这就好比
: “必须得先知道结果，你才能预测结果”。所以，绝大部分的统计结果，都或多或少有
: 点扯淡:你要不是预先知道答案，你怎么就知道手里的sample size就足够了？所以统
: 计学的重要性，就是有总比没有强。就像前面一个网友说的，好歹你也有个数学模型
: 在，比定性的分析还是要好。
: 事实上，从严格的统计学的角度上来看，绝大部分单篇文章里的生物数据是没什么意义
: 。这涉及到实验目的和（所能证明这个目的）所需要的数据量的问题。
: 统计学有个概念，叫做 "curse of dimensionality", “维度的诅咒”。意思就是说

d*u2012-08-29 07:08

24 楼

维数大也是一样的
因为期望也可以是多维的
但在现实中，维数大，样本数量又多的数据不好找

【在 k*****1 的大作中提到】

: 这个大数定理我还真没仔细考虑过。
: 他对数据的维度有要求吗？

l*y2012-08-29 07:08

25 楼

肯定听说过正态分布吧？正态分布的前提条件之一就是高维度。large number of
trivial and independent factors。

【在 k*****1 的大作中提到】

: 这个大数定理我还真没仔细考虑过。
: 他对数据的维度有要求吗？

l*y2012-08-29 07:08

26 楼

microarray 啊。几万维的数据，GEO 上一堆堆的数据。我们的一个合作者就在做关于
这个的一个 clustering 问题，他们正在 finalize manuscript，估计再过几个月，
nature 上就可以见文章了。

【在 d*****u 的大作中提到】

: 维数大也是一样的
: 因为期望也可以是多维的
: 但在现实中，维数大，样本数量又多的数据不好找

p*62012-08-29 07:08

27 楼

这位仁兄对统计如此一知半解就能码这么多字，佩服。
楼下已经给出建议了，所以不再赘述，希望你真正了解统计之后再来发表看法不迟。
再说两点：1.现代统计学的鼻祖就是搞生物/农业出身的。其在农学，遗传学的学术贡
献都很大。2.牛逼哄哄的物理学界当年对统计也不屑一顾。现在物理学里研究复杂系统
必须要用统计。

【在 k*****1 的大作中提到】

: 统计学一个最基本的要求就是建立在数据量上：也就是只有sample size足够大，统计
: 出来的结果才有意义。但是什么叫“足够大”，就有点自欺欺人的意思：因为只有你知
: 道某个东西是怎么回事，你才能判断什么样的sample size 才是“足够”的；这就好比
: “必须得先知道结果，你才能预测结果”。所以，绝大部分的统计结果，都或多或少有
: 点扯淡:你要不是预先知道答案，你怎么就知道手里的sample size就足够了？所以统
: 计学的重要性，就是有总比没有强。就像前面一个网友说的，好歹你也有个数学模型
: 在，比定性的分析还是要好。
: 事实上，从严格的统计学的角度上来看，绝大部分单篇文章里的生物数据是没什么意义
: 。这涉及到实验目的和（所能证明这个目的）所需要的数据量的问题。
: 统计学有个概念，叫做 "curse of dimensionality", “维度的诅咒”。意思就是说

p*62012-08-29 07:08

28 楼

弄一堆p-value出来，也是生物学家搞出来的。统计学家对p-value的关注比你想象的小
得多。倒是不懂统计的人才喜欢用一个pvalue来说明一切。

【在 f******g 的大作中提到】

: 顶这个，
: 我觉得统计才是真正捣捣浆糊的，弄一堆p值出来，谁都担心是p值外的那个样品。

p*62012-08-29 07:08

29 楼

被人点名了还在抬杠。我看你才是在捣糨糊。
lz当然是说现在的生物学研究，你偏要讲几十年前统计学还未兴起的时候。
而且告诉你，现在的生物学可以发展到今天的地步，离不开统计学。最简单的一点，制
造生物研究使用的仪器所用到的信息学和工程学，哪个也离不开统计学的支持。

【在 r*m 的大作中提到】

: 请大家注意看原帖的标题。
: “没有统计常识的搞生物就是捣糨糊”。
: 逻辑上讲我只需要举出几个反例就可以说明这句话不对了，是吧？
: 我没说统计没用。我的观点是，到目前为止的生物界，正真牛逼的深刻的发现，还都不
: 是靠统计得来的。统计主要在一些类似老鼠实验，药物试验等等不那么黑白分明的领域
: ，发挥作用。

k*12012-08-29 07:08

30 楼

牛人，你就回答我一个问题好了，
请问你如何从统计的角度上来判断某个实验的sample size 是足够的？

【在 p********6 的大作中提到】

: 这位仁兄对统计如此一知半解就能码这么多字，佩服。
: 楼下已经给出建议了，所以不再赘述，希望你真正了解统计之后再来发表看法不迟。
: 再说两点：1.现代统计学的鼻祖就是搞生物/农业出身的。其在农学，遗传学的学术贡
: 献都很大。2.牛逼哄哄的物理学界当年对统计也不屑一顾。现在物理学里研究复杂系统
: 必须要用统计。

k*12012-08-29 07:08

31 楼

另外，你举个现在物理学里研究复杂系统运用到统计学的例子出来。我帮你转物理版

【在 p********6 的大作中提到】

: 这位仁兄对统计如此一知半解就能码这么多字，佩服。
: 楼下已经给出建议了，所以不再赘述，希望你真正了解统计之后再来发表看法不迟。
: 再说两点：1.现代统计学的鼻祖就是搞生物/农业出身的。其在农学，遗传学的学术贡
: 献都很大。2.牛逼哄哄的物理学界当年对统计也不屑一顾。现在物理学里研究复杂系统
: 必须要用统计。

C*r2012-08-29 07:08

32 楼

不懂统计的生物男，连巫师都不如。
这个值得商榷，俺改为：
不懂统计的生物男，基本就像厨师。

【在 D**g 的大作中提到】

: 有wsn/v 说统计是伪科学。尼玛，什么是科学，怎么搞科学你搞清楚没？没有统计支持
: 的生物学，最有资格算伪科学。不懂统计的生物男，连巫师都不如。
: 做试验，离不开比较和结论。没有统计常识的生物学家会怎么做比较呢？拿两个样品，
: 跑个western，看个条带粗细就敢下结论了。一个microarray的样品就敢代表一个试验
: 或对照组。为什么这么多搞生物的搞得这么惨？因为门槛低啊，找个纯文科生，连标准
: 曲线是什么都不知道也可以给你Elisa的数据，比较随便比，结论随便下，搞科研跟写
: 小说似的，故事讲的似是而非就可以了。一个故事好编，搞连载就惨了。
: 为什么生物学离不开统计？一个最简单的理由就是，任何试验都只可能用有限的样本，
: 生物学家的最终目的是通过有限的样本去揭示样本代表的群体的规律。只有克服随机误
: 差，bias 和confounding的干扰，我们才有可能逼近事实真相。你想说你和你老婆谁高

p*62012-08-29 07:08

33 楼

只要你告诉我你的study design和需要的精确度，我就可以给你算出sample size。或
者你也可以自己算，网上工具一大堆，比较好的一个：http://homepage.stat.uiowa.edu/~rlenth/Power/

【在 k*****1 的大作中提到】

: 牛人，你就回答我一个问题好了，
: 请问你如何从统计的角度上来判断某个实验的sample size 是足够的？

p*62012-08-29 07:08

34 楼

例子一抓一大把，比如连续相变研究中用到的平均场理论，网络动力学中的meanfield
，Spin-Glass theory 里的Replica method。统计物理已经发展成为物理一个重要分支
了。
也不用转物理版，自己找找资料一点不难。

【在 k*****1 的大作中提到】

: 另外，你举个现在物理学里研究复杂系统运用到统计学的例子出来。我帮你转物理版

w*b2012-08-29 07:08

35 楼

弄一堆p值出来肯定是的生物学家做的事吧。。。

【在 f******g 的大作中提到】

: 顶这个，
: 我觉得统计才是真正捣捣浆糊的，弄一堆p值出来，谁都担心是p值外的那个样品。

n*o2012-08-29 07:08

36 楼

Lies, damned lies, and statistics

【在 D**g 的大作中提到】

: 有wsn/v 说统计是伪科学。尼玛，什么是科学，怎么搞科学你搞清楚没？没有统计支持
: 的生物学，最有资格算伪科学。不懂统计的生物男，连巫师都不如。
: 做试验，离不开比较和结论。没有统计常识的生物学家会怎么做比较呢？拿两个样品，
: 跑个western，看个条带粗细就敢下结论了。一个microarray的样品就敢代表一个试验
: 或对照组。为什么这么多搞生物的搞得这么惨？因为门槛低啊，找个纯文科生，连标准
: 曲线是什么都不知道也可以给你Elisa的数据，比较随便比，结论随便下，搞科研跟写
: 小说似的，故事讲的似是而非就可以了。一个故事好编，搞连载就惨了。
: 为什么生物学离不开统计？一个最简单的理由就是，任何试验都只可能用有限的样本，
: 生物学家的最终目的是通过有限的样本去揭示样本代表的群体的规律。只有克服随机误
: 差，bias 和confounding的干扰，我们才有可能逼近事实真相。你想说你和你老婆谁高

x*m2012-08-29 07:08

37 楼

我想起来有一次一个生物学教授在一个conference上讽刺statistician，说他找到一个
统计学教授，在他的实验中，问多大sample size能达到signficant results。统计学
教授告诉他大概200，他很得意的说，他只用了150就行了，statistician只会夸大效果。
我马上反问他，知不知道你的sample大概variation，sample size估计的偏差不是
statistics的错，而是你给他错误的estimation of variation。那老头估计也没听懂
。

h*92012-08-29 07:08

38 楼

你这个说的很对。绝大多数重要的生物学发现跟统计学都没关系。因为差别是一目了然
的。但是绝大多数人作的普通研究，结果就没那么黑白分明，统计一下还是很重要的。

【在 r*m 的大作中提到】

: 相当多的经典的生物发现还真跟统计没有半毛钱关系。
: 发现DNA双螺旋是靠统计手段？
: 发明PCR靠统计？
: 很多实验结论黑白分明，肉眼可辨，根本不需要统计。
: 只有当结果不是那么黑白分明时，才需要统计来捣捣浆糊，多做几组争取来个“
: statistically significant”。

n*o2012-08-29 07:08

39 楼

当然，这个是开开玩笑。不过楼主说的也太绝对了。知不知道统计的完全对面是什么？
叫做穷举法。目前基础生物很多PARAMETER技术上无法测量精确，接近穷举法当然要比
统计可靠的多。
接近临床，如果是一个很简单的，测量精确的PARAMETER，统计有用。比如说：病人死
，还是不死。哪怕说病人死于这个病理，死于那个病理，要是病理比较含糊的，统计都
STRUGGLING。
统计是一个辅助工具，做些early discovery，exploratory 的东西有帮助，具体能做
多大贡献，目前还需要考验。

【在 n****o 的大作中提到】

: Lies, damned lies, and statistics

a*n2012-08-29 07:08

40 楼

某些学生物的自己被半吊子学生物的搞的统计忽悠了，就说统计怎么怎么不好
其实你们说的那些错误真正学统计的人是不会犯的，我这种学生物认真读了几本统计书
的也不会犯

D*g2012-08-29 07:08

41 楼

没有常识的生物人很可x。老夫给你科普一下。
第一，ss计算的目的只是基于你目前最好的knowledge做一个估计，目的是避免无效劳
动和无谓的浪费资源。
第二，ss计算首先需要你设定一个meaningful的effect size.无知的生物人只会叮着一
个p value, 确不愿意去事先定义多大的区别才有实践的意义。
第三，一个常见的错误是把阴性结果归咎于ss太小power不够，结果出来后才去计算ss
找理由。在缺乏预先设定的effect size 的情形下，这种post hoc power calculation
是没意义的。有兴趣的话可以wiki一下细节。很多对统计一知半解的生物期刊reviwer
要求人提供这种数据，事实上是有问题的。
最后说一句，现代生物早不是一个单一学科，做生物的也不在是单兵作战就可以出彩。
统计是一种技术手段，但切忌它的最大特性是garbage in garbage out。做生物的要有
open mind，不懂的情况下不要随便攻击或拒绝使用某种常用技术。

【在 k*****1 的大作中提到】

: 牛人，你就回答我一个问题好了，
: 请问你如何从统计的角度上来判断某个实验的sample size 是足够的？

m*52012-08-29 07:08

42 楼

统计才不能"解释"任何东西呢
希望靠统计来“解释”任何问题的，绝对是捣糨糊

【在 k*****1 的大作中提到】

: 哈哈大家都没讨论对地方。
: （1）
: 统计真正兴起是在70年代计算机开始普及了以后。因为如果没有计算机的辅助，统计学
: 这个学科几乎在实践当中没有任何价值。你能想象如果用笔去做数据分析会是什么场景
: 吗？但是在70年代之前，科学已经存在了很多年了....
: （2）切记：统计不能去“证明”任何东西，只能去“解释”看到的。这个“证明”和
: “解释”之间差多远，你能告诉我吗？

L*t2012-08-29 07:08

43 楼

嘿嘿，结构生物学的基石就是统计分析，毕竟电子云这种东西本身只能用概率描述。
当然作结构的未必会统计学，一般就是看计算出来的几个数字判断自己这个模型好不好
而已

【在 r*m 的大作中提到】

: 相当多的经典的生物发现还真跟统计没有半毛钱关系。
: 发现DNA双螺旋是靠统计手段？
: 发明PCR靠统计？
: 很多实验结论黑白分明，肉眼可辨，根本不需要统计。
: 只有当结果不是那么黑白分明时，才需要统计来捣捣浆糊，多做几组争取来个“
: statistically significant”。

k*12012-08-29 07:08

44 楼

1）我不是搞生物的。
2）请问你如何确定一个“meaningful的effect size”？我举一个很简单的问题，我现
在的要测一些细胞，假设是medium-spiny neuron 的电生理反应，请问一个"
meaningful的effect size"应该取多少个才合适？如果你从统计的角度上来设计实验，
会如何设计？

ss
calculation
reviwer

【在 D**g 的大作中提到】

: 没有常识的生物人很可x。老夫给你科普一下。
: 第一，ss计算的目的只是基于你目前最好的knowledge做一个估计，目的是避免无效劳
: 动和无谓的浪费资源。
: 第二，ss计算首先需要你设定一个meaningful的effect size.无知的生物人只会叮着一
: 个p value, 确不愿意去事先定义多大的区别才有实践的意义。
: 第三，一个常见的错误是把阴性结果归咎于ss太小power不够，结果出来后才去计算ss
: 找理由。在缺乏预先设定的effect size 的情形下，这种post hoc power calculation
: 是没意义的。有兴趣的话可以wiki一下细节。很多对统计一知半解的生物期刊reviwer
: 要求人提供这种数据，事实上是有问题的。
: 最后说一句，现代生物早不是一个单一学科，做生物的也不在是单兵作战就可以出彩。

D*g2012-08-29 07:08

45 楼

你的hypothesis是什么？没有hypothesis就不要说sample size了。另外，细胞水平的
effect size和整体水平怎么比，是做基础研究的人急需解决的问题。比如说，你设想
某个通道的活动跟老年痴呆症有关，细胞水平上你发现某种阻断剂和对照组相比开放时
间缩短了20%，p<0.0001. 做基础的人可能兴奋不己，因为他只管p, 不需要关心这20%
的变化对于老年痴呆意味着什么。
这就是为什么基础研究的结果和最终临床试验结果经常相距甚远的原因。
回到你的话题，如果你不知道你所研究的neuron的电生理特性变化多少才有意义，只能
算做exploratory study. 如果你要做比较正式的设计，首先，你要知道你所研究的生
理特性（比如通道开放时间）在试验条件下的variability, 然后看看多少std的变化算
是有意义的。假设某种试验条件真的可以使tao增加5，而你用五个细胞去测定tao，结
果对照组是10+\-9，你觉得你能发现区别吗？反之，如果对照组是10+\-0.1, 你发现结
果的可能是不是大一些？做基础研究的人往往只关心结果中的p，而轻视设计中采集和
利用pilot data去保证你结论的可信度，这也许是很多研究者卡死在试验室的一个重要
原因。重复，不断重复，直到发现一个假阳性by chance alone。然后在写续集的时候
焦头烂额。

【在 k*****1 的大作中提到】

: 1）我不是搞生物的。
: 2）请问你如何确定一个“meaningful的effect size”？我举一个很简单的问题，我现
: 在的要测一些细胞，假设是medium-spiny neuron 的电生理反应，请问一个"
: meaningful的effect size"应该取多少个才合适？如果你从统计的角度上来设计实验，
: 会如何设计？
:
: ss
: calculation
: reviwer

g*j2012-08-29 07:08

46 楼

统计是给各个学科服务的，而不是倒过来

g*j2012-08-29 07:08

47 楼

p值可以自己设，只要有道理

【在 p********6 的大作中提到】

: 弄一堆p-value出来，也是生物学家搞出来的。统计学家对p-value的关注比你想象的小
: 得多。倒是不懂统计的人才喜欢用一个pvalue来说明一切。

s*u2012-08-29 07:08

48 楼

遗传学主要是靠统计

【在 D**g 的大作中提到】

: 有wsn/v 说统计是伪科学。尼玛，什么是科学，怎么搞科学你搞清楚没？没有统计支持
: 的生物学，最有资格算伪科学。不懂统计的生物男，连巫师都不如。
: 做试验，离不开比较和结论。没有统计常识的生物学家会怎么做比较呢？拿两个样品，
: 跑个western，看个条带粗细就敢下结论了。一个microarray的样品就敢代表一个试验
: 或对照组。为什么这么多搞生物的搞得这么惨？因为门槛低啊，找个纯文科生，连标准
: 曲线是什么都不知道也可以给你Elisa的数据，比较随便比，结论随便下，搞科研跟写
: 小说似的，故事讲的似是而非就可以了。一个故事好编，搞连载就惨了。
: 为什么生物学离不开统计？一个最简单的理由就是，任何试验都只可能用有限的样本，
: 生物学家的最终目的是通过有限的样本去揭示样本代表的群体的规律。只有克服随机误
: 差，bias 和confounding的干扰，我们才有可能逼近事实真相。你想说你和你老婆谁高