Redian新闻
>
大家发文章用standard deviation,还是standard error?
avatar
大家发文章用standard deviation,还是standard error?# Biology - 生物学
B*a
1
en ?
avatar
l*e
2
我倾向于用后者,因为看着好看,数学意义不一样,但都是正确的啊。
avatar
m*j
3
就是单纯让狗变香一点么?
可以用GROOMING SPRAY,不过味道多数不怎么自然
avatar
j*x
4
这算是老坑了吧
一句话,如果不明白SD和SEM的统计学意义及其差异,那么你就应该就用SD,否则你必错
为什么?简单google一下就可以了,呵呵

【在 l*******e 的大作中提到】
: 我倾向于用后者,因为看着好看,数学意义不一样,但都是正确的啊。
avatar
B*a
5
他會打噴嚏嗎?

【在 m***j 的大作中提到】
: 就是单纯让狗变香一点么?
: 可以用GROOMING SPRAY,不过味道多数不怎么自然

avatar
g*y
6
比如测量中国女人的身高,你得到150, 155, 160, 165, 170
你可以得到stdev。
sem = stdev/sqrt(n==5)
想像你从中国女人中抽1000次,
第一次的mean 为 160, 第二次159, 第三次161.5 。。。
sem 就是你计算160, 159, 161.5,。。。的stdev。
所以standard error = standard deviation of sampling of means。
avatar
m*j
7
我都是喷在背上,主要目的是让毛比较顺,变香是个SIDE EFFECT
如果没有喷在鼻子上,应该不会打喷嚏吧

【在 B****a 的大作中提到】
: 他會打噴嚏嗎?
avatar
l*y
8
嗯。我有一个同事,他的名言是:statistical estimations lie, and the
statistical estimations of statistical estimations lie shamelessly.
我当然不完全赞同这句话,但是觉得这可以算是 quotable quote 了。

【在 g**********y 的大作中提到】
: 比如测量中国女人的身高,你得到150, 155, 160, 165, 170
: 你可以得到stdev。
: sem = stdev/sqrt(n==5)
: 想像你从中国女人中抽1000次,
: 第一次的mean 为 160, 第二次159, 第三次161.5 。。。
: sem 就是你计算160, 159, 161.5,。。。的stdev。
: 所以standard error = standard deviation of sampling of means。

avatar
d*g
9
我觉得没必要,你觉得香的味道狗狗会觉得很刺鼻
avatar
s*y
10
两者的意义完全不一样。
如果你是为了比较同一组数据里的分布情况,应该用standard deviation
如果是为了比较两个不同组的平均值的差别,那就应该用standard error of mean

【在 l*******e 的大作中提到】
: 我倾向于用后者,因为看着好看,数学意义不一样,但都是正确的啊。
avatar
B*a
11
嗯, 那個牌子味道比較好

【在 m***j 的大作中提到】
: 我都是喷在背上,主要目的是让毛比较顺,变香是个SIDE EFFECT
: 如果没有喷在鼻子上,应该不会打喷嚏吧

avatar
l*e
12
我想了下,用SD还是用SEM还是得看测量目的。比如你举的这个例子,如果想知道准确
的mean的话就用SEM;如果想知道中国女人身高分布的话就应该用SD。如果测量的次数
非常多,比如测了500次,那么SEM = SD/sqrt500,SEM就是个非常非常小的数字,这只
能说测量的error变小了,并不能说中国女人身高分布(SD)更集中于Mean了吧。
我最近在复习统计,poisson distribution,chi-square啥的,都模糊了。

【在 g**********y 的大作中提到】
: 比如测量中国女人的身高,你得到150, 155, 160, 165, 170
: 你可以得到stdev。
: sem = stdev/sqrt(n==5)
: 想像你从中国女人中抽1000次,
: 第一次的mean 为 160, 第二次159, 第三次161.5 。。。
: sem 就是你计算160, 159, 161.5,。。。的stdev。
: 所以standard error = standard deviation of sampling of means。

avatar
x*u
13
dogs hate it

【在 B****a 的大作中提到】
: en ?
avatar
l*e
14
“比较两个不同组的平均值的差别”
这个一定要用SD(standard deviation of the difference between the means)吧?

【在 s******y 的大作中提到】
: 两者的意义完全不一样。
: 如果你是为了比较同一组数据里的分布情况,应该用standard deviation
: 如果是为了比较两个不同组的平均值的差别,那就应该用standard error of mean

avatar
b*i
15
要是有红烧牛肉的香水味道也不好说。

【在 x********u 的大作中提到】
: dogs hate it
avatar
s*y
16
哦,我写错了一个字,把of 写成 or 了。
已改正。

【在 l*******e 的大作中提到】
: “比较两个不同组的平均值的差别”
: 这个一定要用SD(standard deviation of the difference between the means)吧?

avatar
m*j
17
还没觉得哪个牌子味道好呢。
这些东西主要作用就是滋润狗毛,让狗毛看起来顺滑。
味道就是那么回事,都挺假的

【在 B****a 的大作中提到】
: 嗯, 那個牌子味道比較好
avatar
l*e
18
这个问题我也想了下,我认为统计本身是客观的,“相对”准确的。
但是,搞生物的人做了10次试验,最后非常“精心地”找出了自己喜欢的3个结果,统
计的结果(P,R,Q,X^2啥的)都是基于这3个自己喜欢的结果的。所以统计结果非常
好看。
第二个人随机做一次试验,就重复不出来啦,原因是第一个人的做法就是违背统计学的
初衷的,第一个人应该统计所有10次试验的结果的。

【在 l***y 的大作中提到】
: 嗯。我有一个同事,他的名言是:statistical estimations lie, and the
: statistical estimations of statistical estimations lie shamelessly.
: 我当然不完全赞同这句话,但是觉得这可以算是 quotable quote 了。

avatar
B*a
19
LOL.... 他會瘋掉

【在 b********i 的大作中提到】
: 要是有红烧牛肉的香水味道也不好说。
avatar
l*1
20
你这个 有机会 和 錢肯 Kenneth R. Chien 说下
http://www.hms.harvard.edu/dms/BBS/fac/chien.php
看他这位 黄药师 啥反应
>
发信人: lostashoe (跑丢一只鞋), 信区: Biology
标 题: Re: 大家发文章用standard deviation,还是standard error?
发信站: BBS 未名空间站 (Mon Oct 15 13:13:57 2012, 美东)
这个问题我也想了下,我认为统计本身是客观的,“相对”准确的。
但是,搞生物的人做了10次试验,最后非常“精心地”找出了自己喜欢的3个结果,统
计的结果(P,R,Q,X^2啥的)都是基于这3个自己喜欢的结果的。所以统计结果非常
好看。
第二个人随机做一次试验,就重复不出来啦,原因是第一个人的做法就是违背统计学的
初衷的,第一个人应该统计所有10次试验的结果的。
>>

【在 l***y 的大作中提到】
: 嗯。我有一个同事,他的名言是:statistical estimations lie, and the
: statistical estimations of statistical estimations lie shamelessly.
: 我当然不完全赞同这句话,但是觉得这可以算是 quotable quote 了。

avatar
x*u
21
maybe he/she will try to eat him/herself //run

【在 b********i 的大作中提到】
: 要是有红烧牛肉的香水味道也不好说。
avatar
s*s
22
//nod. 记住这两条是关键,看到底想看啥了

【在 s******y 的大作中提到】
: 两者的意义完全不一样。
: 如果你是为了比较同一组数据里的分布情况,应该用standard deviation
: 如果是为了比较两个不同组的平均值的差别,那就应该用standard error of mean

avatar
y*u
23
earthbath有那种spray,止氧去味道的,不过不是很好闻,狗毛到是柔顺了不少,止氧
好象也有点用
avatar
l*1
24
Mark.

【在 s******y 的大作中提到】
: 两者的意义完全不一样。
: 如果你是为了比较同一组数据里的分布情况,应该用standard deviation
: 如果是为了比较两个不同组的平均值的差别,那就应该用standard error of mean

avatar
B*t
25
洗耳朵以后我们家狗可以香好几天
avatar
g*0
26
举个例子说说你什么时候用sd,什么时候用sem?

【在 s******y 的大作中提到】
: 两者的意义完全不一样。
: 如果你是为了比较同一组数据里的分布情况,应该用standard deviation
: 如果是为了比较两个不同组的平均值的差别,那就应该用standard error of mean

avatar
y*u
27
那是原来太臭

【在 B****t 的大作中提到】
: 洗耳朵以后我们家狗可以香好几天
avatar
z*6
28
补充一句:其实要真的想看mean的range,最好用95% confidence interval of the
mean...
但不知道为什么大家都不用...
这个问题sunny回答的跟书上写的一模一样,但是还是很难去界定什么时候用哪个...
最近买了一本(还是花的实验室的钱,惭愧)intuitive biostatistics,对学生物的
人很容易懂,号称这个书就是prism用的参考... 很不错!
avatar
b*y
29
如果Lion喷这个,一定会被Jenna咬得遍体鳞伤。

【在 b********i 的大作中提到】
: 要是有红烧牛肉的香水味道也不好说。
avatar
s*y
30
比方说,如果有人去统计了一下两个地方甲和乙的妇女的身高。
那么如果要看不同地方的妇女的身高的分布情况的话就分别把甲和乙的平均值
分别列出来并用SD. 在这个情况下不涉及甲和乙的比较。
但是如果你这个课题是为了证明说甲地的妇女比乙地长得高的话,那么就要
把两个平均值进行比较,并用SEM来标示这个比较是否有意义。

【在 g****0 的大作中提到】
: 举个例子说说你什么时候用sd,什么时候用sem?
avatar
l*s
31
我以前给狗狗用我的香水。后来听说这样会损伤他的嗅觉,就不再用了。现在已经习惯
到觉得狗狗臭臭的气味是他的体香了。
avatar
g*0
32
我认为你这是经典错误。
错误在于甲和乙的妇女的身高 不等于 两个平均值进行简单比较。甲和乙不同,是两个
平均值的差别远大于甲和乙样本内的随机差别,也就是SD。换句话说,就是两个平均值
的差别要用SD这个“尺子”来量才有意义。 不科学的比方,我比你重一两(50克)不
算什么,但如果我们都是老鼠,就要不你太瘦或者我太胖了。 有了平均值和SD,我们
就内“看”到甲和乙的分布。
SEM只是平均值的分布,代表这个平均值的可靠性,也就是下次再作试验统计,得到同
样平均值的范围。n越大,自然就越可重复,但是并不改变试验数值的分布。
英文参考:
http://www.sportsci.org/resource/stats/meansd.html

【在 s******y 的大作中提到】
: 比方说,如果有人去统计了一下两个地方甲和乙的妇女的身高。
: 那么如果要看不同地方的妇女的身高的分布情况的话就分别把甲和乙的平均值
: 分别列出来并用SD. 在这个情况下不涉及甲和乙的比较。
: 但是如果你这个课题是为了证明说甲地的妇女比乙地长得高的话,那么就要
: 把两个平均值进行比较,并用SEM来标示这个比较是否有意义。

avatar
D*a
33
但是SD只是样本内的SD,并不是population的SD啊.
反而正如你说SEM反映了平均值的可靠性,所以才更有利用样本来推测群体的比较意义
啊?

【在 g****0 的大作中提到】
: 我认为你这是经典错误。
: 错误在于甲和乙的妇女的身高 不等于 两个平均值进行简单比较。甲和乙不同,是两个
: 平均值的差别远大于甲和乙样本内的随机差别,也就是SD。换句话说,就是两个平均值
: 的差别要用SD这个“尺子”来量才有意义。 不科学的比方,我比你重一两(50克)不
: 算什么,但如果我们都是老鼠,就要不你太瘦或者我太胖了。 有了平均值和SD,我们
: 就内“看”到甲和乙的分布。
: SEM只是平均值的分布,代表这个平均值的可靠性,也就是下次再作试验统计,得到同
: 样平均值的范围。n越大,自然就越可重复,但是并不改变试验数值的分布。
: 英文参考:
: http://www.sportsci.org/resource/stats/meansd.html

avatar
g*0
34
对的,样本和群体不一样,所以要有n=?。
在比较群体的差别时,你强调平均值的可靠性(重复性)重要,我强调平均值差别的相
对(于组内差别)意义。所以要给n=?。
“When you compare group means, showing SDs conveys an idea of the magnitude
of the difference between the means, because you can see how big the
difference is relative to the SDs. In other words, you can see how big the
effect size is. ”
结论是要给n=?。其实计算SD的时候,n已经起作用了。

【在 D*a 的大作中提到】
: 但是SD只是样本内的SD,并不是population的SD啊.
: 反而正如你说SEM反映了平均值的可靠性,所以才更有利用样本来推测群体的比较意义
: 啊?

avatar
s*s
35
你说的对,不等于别人就说错了。你不过说了eyeballing
两个population是不是有很大重合而已。真正要看到底平均
值是不是有区别,还是sunny说的sem。
这个问题其实很简单啊,记住sunny的那两句话,或者旁听
一个本科的stat101就很清楚了。其实,我觉得不管文理,
stat101是一定要去听一遍的,否则太容易被人忽悠。理科生
最好去听一门bayesian, 就算忽略里面所有数学计算,光是
那个哲学理念就很有好处

【在 g****0 的大作中提到】
: 我认为你这是经典错误。
: 错误在于甲和乙的妇女的身高 不等于 两个平均值进行简单比较。甲和乙不同,是两个
: 平均值的差别远大于甲和乙样本内的随机差别,也就是SD。换句话说,就是两个平均值
: 的差别要用SD这个“尺子”来量才有意义。 不科学的比方,我比你重一两(50克)不
: 算什么,但如果我们都是老鼠,就要不你太瘦或者我太胖了。 有了平均值和SD,我们
: 就内“看”到甲和乙的分布。
: SEM只是平均值的分布,代表这个平均值的可靠性,也就是下次再作试验统计,得到同
: 样平均值的范围。n越大,自然就越可重复,但是并不改变试验数值的分布。
: 英文参考:
: http://www.sportsci.org/resource/stats/meansd.html

avatar
y*i
36
我觉得是sunnyday对。证据是比较两个数据组用ttest,而ttest的公式计算的是SE。
另一角度可以这么想:你的数据组抽样越多,SE越小;同时数据组抽样越多,越能可靠
的确定两个数据组的细微差别。所以sunnyday说比较平均值的差异该用SE是对的。
但直觉上看用SE其实不爽。因为我们更希望整个数据分布有大的差异,which is SD.

【在 g****0 的大作中提到】
: 我认为你这是经典错误。
: 错误在于甲和乙的妇女的身高 不等于 两个平均值进行简单比较。甲和乙不同,是两个
: 平均值的差别远大于甲和乙样本内的随机差别,也就是SD。换句话说,就是两个平均值
: 的差别要用SD这个“尺子”来量才有意义。 不科学的比方,我比你重一两(50克)不
: 算什么,但如果我们都是老鼠,就要不你太瘦或者我太胖了。 有了平均值和SD,我们
: 就内“看”到甲和乙的分布。
: SEM只是平均值的分布,代表这个平均值的可靠性,也就是下次再作试验统计,得到同
: 样平均值的范围。n越大,自然就越可重复,但是并不改变试验数值的分布。
: 英文参考:
: http://www.sportsci.org/resource/stats/meansd.html

avatar
g*0
37
歪个楼,能不能说说你学贝叶斯的哲学思考是什么?简单讲讲。

【在 s******s 的大作中提到】
: 你说的对,不等于别人就说错了。你不过说了eyeballing
: 两个population是不是有很大重合而已。真正要看到底平均
: 值是不是有区别,还是sunny说的sem。
: 这个问题其实很简单啊,记住sunny的那两句话,或者旁听
: 一个本科的stat101就很清楚了。其实,我觉得不管文理,
: stat101是一定要去听一遍的,否则太容易被人忽悠。理科生
: 最好去听一门bayesian, 就算忽略里面所有数学计算,光是
: 那个哲学理念就很有好处

avatar
y*i
38
“甲和乙不同,是两个平均值的差别远大于甲和乙样本内的随机差别,也就是SD。”
这句话还真不对。比如两个完美的正态分布,中线只差极小的一点,远远小于SD,取
样少的话你会以为两者一样,但如果取样足够多的话,就能觉察出这两个正态分布是有
差异的。所以应该用SE。。。。。惨了。以前别人问我我说应该用SD :(

【在 g****0 的大作中提到】
: 我认为你这是经典错误。
: 错误在于甲和乙的妇女的身高 不等于 两个平均值进行简单比较。甲和乙不同,是两个
: 平均值的差别远大于甲和乙样本内的随机差别,也就是SD。换句话说,就是两个平均值
: 的差别要用SD这个“尺子”来量才有意义。 不科学的比方,我比你重一两(50克)不
: 算什么,但如果我们都是老鼠,就要不你太瘦或者我太胖了。 有了平均值和SD,我们
: 就内“看”到甲和乙的分布。
: SEM只是平均值的分布,代表这个平均值的可靠性,也就是下次再作试验统计,得到同
: 样平均值的范围。n越大,自然就越可重复,但是并不改变试验数值的分布。
: 英文参考:
: http://www.sportsci.org/resource/stats/meansd.html

avatar
s*s
39
我就不说sampling那些好玩的东西了。就算bayesian第一门课就要学的
posterior = prior x likelihood, 这玩意儿念过prob101就会推导的
东西,完全是博大精深啊:小到对parameter的理解,大到科学方法论和
对世界的理解。又比如作为理科生怎么理解racial profile这类问题。
贝叶斯强就强在这个基石理论连高中生都能推导的出。

【在 g****0 的大作中提到】
: 歪个楼,能不能说说你学贝叶斯的哲学思考是什么?简单讲讲。
avatar
s*s
40
不过SD还是有点意义的。
比如,你可以用se说两个population有区别。但是,进一步,很可能
别人要求给你一个个体,predict是哪一个population的,那么SD的大
小就对这样的prediction是否有意义比较重要了

【在 y***i 的大作中提到】
: “甲和乙不同,是两个平均值的差别远大于甲和乙样本内的随机差别,也就是SD。”
: 这句话还真不对。比如两个完美的正态分布,中线只差极小的一点,远远小于SD,取
: 样少的话你会以为两者一样,但如果取样足够多的话,就能觉察出这两个正态分布是有
: 差异的。所以应该用SE。。。。。惨了。以前别人问我我说应该用SD :(

avatar
l*y
41
我认为你俩都是经典错误 :D
错在对假设检验的理解上。假设检验不是为了说明甲地比乙地妇女身高更高的。这是完
全错误的用法。没有任何假设检验可以说明这个问题。
假设检验的目的是在可控成本(即 sample size n)下,在保守主义的思路下(即保护
H0,或者说,对第一类错误敏感),做出理性决策(reject H0 or not),并控制错
误决策所带来的损失(alpha)。
所以 Sunnyday 的数学是对的,但是滥用了假设检验。当两地妇女的身高差异不显著时
,这种滥用造成的损失就是,第一,要 reject H0,必然要加大样本数,也就是增加了
取样成本;第二,当承认身高差异所带来的收益远小于改变认知所带来的成本时,比如
说决定为两地妇女生产衣服时启用不同的生产线,而不再用同一条生产线,会带来直接
的经济损失。在学术上,会导致把研究资源投入到把不显著的差异上,错误立项,惨淡
收场。
换而言之,只要肯加大 sample size,总能通过 t-test,但是对于决策来说没有意义。
而你的统计思想是对的,数学上是不成立的。你说的是在做 classification 时的
false positive rate。也就是说,当给一个妇女身高,并知道她一定来自甲乙之一时
,用两地身高的 mean 和 sd 来求出两个分布峰的交叉点作为 classification 的
threshold,对她的籍贯判断错误的概率。
这个问题还可以继续展开,比如说 sample size 对白噪音的抑制作用等等。。。

【在 g****0 的大作中提到】
: 我认为你这是经典错误。
: 错误在于甲和乙的妇女的身高 不等于 两个平均值进行简单比较。甲和乙不同,是两个
: 平均值的差别远大于甲和乙样本内的随机差别,也就是SD。换句话说,就是两个平均值
: 的差别要用SD这个“尺子”来量才有意义。 不科学的比方,我比你重一两(50克)不
: 算什么,但如果我们都是老鼠,就要不你太瘦或者我太胖了。 有了平均值和SD,我们
: 就内“看”到甲和乙的分布。
: SEM只是平均值的分布,代表这个平均值的可靠性,也就是下次再作试验统计,得到同
: 样平均值的范围。n越大,自然就越可重复,但是并不改变试验数值的分布。
: 英文参考:
: http://www.sportsci.org/resource/stats/meansd.html

avatar
l*y
42
再来说说对统计方法的滥用。
统计方法的目的是为决策提供量化的风险评估。所以,我们作为第三方的 reviewer 或
者 audience 在衡量决策者(文章作者)所使用的统计方法的有效性时,必须同时评估
决策者的收益情况。如果决策者承担决策风险,那么他使用的统计方法大约是更可信的
。例如决策者在决定研究方向时,在决定下一步时间和资源的投入时,等等,这时滥用
统计方法来认为 hold 或者 reject H0 就是掩耳盗铃。反之,如果错误的决策可能给
决策者带来更大收益时,则他使用的统计方法大约是不可信的。比如说为了应付
reviewers,为了发文章,为了申请经费,为了找工作等等。从 Bayesian 的角度来看
,一个可靠地评估方法就是看这个结论有没有足够多的 follow-ups,尤其是其它利益
不相关的组的成功 follow-up。
同理可知,使用不必要的复杂统计方法本身就值得大家怀疑结论的可靠性。

【在 l***y 的大作中提到】
: 我认为你俩都是经典错误 :D
: 错在对假设检验的理解上。假设检验不是为了说明甲地比乙地妇女身高更高的。这是完
: 全错误的用法。没有任何假设检验可以说明这个问题。
: 假设检验的目的是在可控成本(即 sample size n)下,在保守主义的思路下(即保护
: H0,或者说,对第一类错误敏感),做出理性决策(reject H0 or not),并控制错
: 误决策所带来的损失(alpha)。
: 所以 Sunnyday 的数学是对的,但是滥用了假设检验。当两地妇女的身高差异不显著时
: ,这种滥用造成的损失就是,第一,要 reject H0,必然要加大样本数,也就是增加了
: 取样成本;第二,当承认身高差异所带来的收益远小于改变认知所带来的成本时,比如
: 说决定为两地妇女生产衣服时启用不同的生产线,而不再用同一条生产线,会带来直接

avatar
a*m
43
laugh
lz was talking about standard error not standard error of the mean
standard error is an estimate of standard deviation
say, you cannot get the standard deviation of the height of chinese women,
cuz you simply cannot sample all of them
however, you can sample (btw, here "sample" refers to measure their height)
1000 of them and get the standard deviation, which, to be more technical,
should be called the standard error.
and this standard error is an unbiased estimate of the standard deviation of
the height of chinese females.

【在 g**********y 的大作中提到】
: 比如测量中国女人的身高,你得到150, 155, 160, 165, 170
: 你可以得到stdev。
: sem = stdev/sqrt(n==5)
: 想像你从中国女人中抽1000次,
: 第一次的mean 为 160, 第二次159, 第三次161.5 。。。
: sem 就是你计算160, 159, 161.5,。。。的stdev。
: 所以standard error = standard deviation of sampling of means。

avatar
D*a
44
为什么就是 unbiased estimate了?那我要是取了五个样本,同样可以得出一个SD啊。
当然我们大家都会说五个不够。但是从统计学上怎么理解最后一句话“ this standard
error is an unbiased estimate of the standard deviation of the height of
chinese females.”?

)
of

【在 a**m 的大作中提到】
: laugh
: lz was talking about standard error not standard error of the mean
: standard error is an estimate of standard deviation
: say, you cannot get the standard deviation of the height of chinese women,
: cuz you simply cannot sample all of them
: however, you can sample (btw, here "sample" refers to measure their height)
: 1000 of them and get the standard deviation, which, to be more technical,
: should be called the standard error.
: and this standard error is an unbiased estimate of the standard deviation of
: the height of chinese females.

avatar
t*g
45
额地个神啊,请无视这个帖子。。。
概念问题不懂的找书,找不着书也可以google个wiki了解个大概

)
of

【在 a**m 的大作中提到】
: laugh
: lz was talking about standard error not standard error of the mean
: standard error is an estimate of standard deviation
: say, you cannot get the standard deviation of the height of chinese women,
: cuz you simply cannot sample all of them
: however, you can sample (btw, here "sample" refers to measure their height)
: 1000 of them and get the standard deviation, which, to be more technical,
: should be called the standard error.
: and this standard error is an unbiased estimate of the standard deviation of
: the height of chinese females.

avatar
s*y
46
我倒,我觉得guest0是一个比较简单的概念错误,而你则是上纲上线的错误。
呵呵呵。我们这里只谈论统计上的正确问题,并不涉及什么国家决策人民生死
那么高档的东西。
guest0的说法,我觉得他是把平均值和SEM在生物学里的意义搞错了。
具体怎么错我还不知道怎么说好。因为就是我以前说过一次那样,我们这种
纯粹的生物学家数学不是特别好,公式啥啥的我不知道怎么推导,很多是靠
直觉。所以大家千万不要逼我说我到底是就哪个公式提出来的结论。
其实对于一个群体,在群体数目是个有限数字的前提下(这个你可能没有考虑到),必
然存在一个绝对的可以精确得到的理论平均值,这个和群体里面的
个体的数据的离散性无关。
我再强调一次:在数目有限的前提下和个体的数据不变的前提下,这个理论上
的平均值是一个绝对的,不波动的数据,也就是一个不需要标示任何
error bar的数据。
但是因为在实际情况下,不可能真的把整个群体完全检查来得到数据,所以
一般是抽查n个样品,然后由这n个样品来计算一个平均值。而这个SEM的意义,
其实就是衡量那个计算出来的practical平均值和那个理论上存在的theoretical
平均值之间可能到底有多大的差距的一个指标。
扩展到在有两个群体A, B的情况下,假如我们得到了两个群体各自的精确的
理论平均值,并不需要对这两个平均值的比较使用任何error bar。
而SEM的意义是因为我们在实际情况下,进行比较的时候使用的是计算出来的practical
平均值,所以这个比较不一定是准确的,所以必须用SEM来标示这个
比较是否有意义。
但是,这个这个是一个针对平均值的概念上的比较,换句话说,这个所谓的
平均值,其实是一个概念,而不是一个真正的样品的值。所以比较两个概念
上的东西,比方说比较3和5两个数字到底哪个大,这个在概念上的比较是
成立的 (因此也是不需要标示任何error bar的)。所以虽然理论上是没有
问题的,但是用在实际上,有时候会被人滥用,这个就出现了你说的那个问题,
就是会被人偷换概念把理论上的那个平均值的意义过于放大。
我对此以前说过几次,就是不能迷信统计。要说统计,GWAS 这类的东西
统计上是无懈可击的。但是生物学上的东西,只用一种方法测出来的数据
就算统计搞得再fancy,也远远不如用了多种独立方法反复验证后得出的结论可靠。

【在 l***y 的大作中提到】
: 我认为你俩都是经典错误 :D
: 错在对假设检验的理解上。假设检验不是为了说明甲地比乙地妇女身高更高的。这是完
: 全错误的用法。没有任何假设检验可以说明这个问题。
: 假设检验的目的是在可控成本(即 sample size n)下,在保守主义的思路下(即保护
: H0,或者说,对第一类错误敏感),做出理性决策(reject H0 or not),并控制错
: 误决策所带来的损失(alpha)。
: 所以 Sunnyday 的数学是对的,但是滥用了假设检验。当两地妇女的身高差异不显著时
: ,这种滥用造成的损失就是,第一,要 reject H0,必然要加大样本数,也就是增加了
: 取样成本;第二,当承认身高差异所带来的收益远小于改变认知所带来的成本时,比如
: 说决定为两地妇女生产衣服时启用不同的生产线,而不再用同一条生产线,会带来直接

avatar
l*y
47
呵呵,这就是我为什么说你的数学公式都是对的。但是统计思想和统计概念更重要。这
里涉及到的,一个是假设检验的思想,另一个是 model and sample 的概念。
假设检验的目的是帮助决策。所谓决策,就是 decision。比如说,下个结论,说有显
著区别,这个产生结论的过程就是一个决策。 我们时时刻刻都在做决策,小到一个标
点符号的选择,都算决策。而假设检验是为了给理性决策提供依据,却并不能代替决策
本身。这就是我提到的,假设检验本身并不能证明任何事情。
具体到 t-test 上。在统计意义上,我可以比较安全地认为,在所有情况下,只要 n
足够大,对任意两个分布采样后用 t-test 都可以计算出其均值有显著差异。做这样的
判断的错误概率相当小,尤其是在你说的这种群体数目有限的情况下。但这有意义么?
再进一步讲,一个判断的意义,在于其信息的含量。我做的上述判断,有信息含量么?
会对决策有贡献么?如果没有,那么这样的假设检验,有意义么?
而大部分人不会故意在 paper 里放上没有意义的工作。那这种没有意义的假设检验的
实际意义何在呢?为发 paper 为自己的结论做个包装而已。
所以说,对决策没有帮助的假设检验,是 abuse 统计工具。
再讨论一下你提到的群体数目和参数估计。这是统计学里的一个核心概念,也是科学的
根本概念,即 model/hypothesis。(当然,我并不是说统计学属于科学哈。)
一个关键问题是:what's your model and what's your hypothesis? 比较两个数目有
限的群体的平均值有科学价值么?没有。因为这里比较的是死的事实,是孤立的个案,
不会给我们对世界的认知带来可扩展(可外推)的影响。同时,这里的平均值不是对任
何参数的估计,因为是死的有限集,不存在任何 model,自然也就不存在任何参数。
那么我们为什么要比较两个有限的集合的平均值?是因为这里隐含了一个 hypothesis
,就是这两个有限集合是对两个分布(即两个 models)的抽样。我们关心的是这两个
models,而不是这两个有限集合。如果这个有限集合的平均值是这个 model 的某个参
数的一致的无偏的估计,那么比较这两个有限集合的平均值就可以让我们对两个 model
的某个参数的差异性作出一些估计。但是,背后这个抽象的 model 的参数,是永远无
法用有限的抽样来确切地估计的。这就是具体和抽象,有限和无限,实验和理论的分野
。也许我们对参数的估计是正确的,只是我们永远无法知道。但统计工具可以告诉我们
置信区间是多少,在最坏的情况下出错的概率多大(但我们也无法知道确切的概率,因
为我们无法知道确切的参数)。
正是因为抽象的 underlying model 是永远无法确切地估计,这个 model 才使得我们
能够基于已有的事实来认识到支配这些事实的规律,并且应用这些规律来做预测。任何
一个模型,一旦可以被确切估计并且可以被证明是正确的,就失去了意义,同时也就意
味着整个科学的终结(因为失去了可证伪性),甚至神学的终结(人和神在知上的绝对
差别消失了,同时可以推论出人和神在能上的绝对差别也消失了,所以人即神)。
从 Bayesian 的世界观来看,有个著名的问题,“明天太阳会继续升起么?”就是对这
个问题的一个很经典也很有趣的讨论。

【在 s******y 的大作中提到】
: 我倒,我觉得guest0是一个比较简单的概念错误,而你则是上纲上线的错误。
: 呵呵呵。我们这里只谈论统计上的正确问题,并不涉及什么国家决策人民生死
: 那么高档的东西。
: guest0的说法,我觉得他是把平均值和SEM在生物学里的意义搞错了。
: 具体怎么错我还不知道怎么说好。因为就是我以前说过一次那样,我们这种
: 纯粹的生物学家数学不是特别好,公式啥啥的我不知道怎么推导,很多是靠
: 直觉。所以大家千万不要逼我说我到底是就哪个公式提出来的结论。
: 其实对于一个群体,在群体数目是个有限数字的前提下(这个你可能没有考虑到),必
: 然存在一个绝对的可以精确得到的理论平均值,这个和群体里面的
: 个体的数据的离散性无关。

avatar
D*a
48
两个问题,
1你说得意义,并不是显著性,虽然我记得英语词significant 貌似是来源于统计,修
饰test结果,然后又有了意义的功能?举个例子,某药显著提高了某癌症病人寿命,提
高了三天,这个在统计上是显著的,但是在科学上是无意义的。我理解的对不?
2我理解的,可证伪性的意思,貌似不是说某个定理/规律什么的有一天会被证明错误,
而是说一个陈述如果被认为是科学的,那么这个陈述必须容许存在逻辑上的反例,而不
是一定要已经存在逻辑上的反例,我认为也并不代表某天一定会被推翻。否则所有科学
的论述都是错误的,这不是很荒谬么。可证伪性并不是已经被证伪,而是说逻辑上可以
被推翻,但不是说已经被推翻。
另外没看懂跟神学有啥关系。神学本身就是不可证伪的体系,因为“人无法理解神”是
一个逻辑上无法用反例驳倒的陈述。当然说“不科学”,不是一个贬义词,因为褒贬是
价值判断,但是科学不提供价值判断。

【在 l***y 的大作中提到】
: 呵呵,这就是我为什么说你的数学公式都是对的。但是统计思想和统计概念更重要。这
: 里涉及到的,一个是假设检验的思想,另一个是 model and sample 的概念。
: 假设检验的目的是帮助决策。所谓决策,就是 decision。比如说,下个结论,说有显
: 著区别,这个产生结论的过程就是一个决策。 我们时时刻刻都在做决策,小到一个标
: 点符号的选择,都算决策。而假设检验是为了给理性决策提供依据,却并不能代替决策
: 本身。这就是我提到的,假设检验本身并不能证明任何事情。
: 具体到 t-test 上。在统计意义上,我可以比较安全地认为,在所有情况下,只要 n
: 足够大,对任意两个分布采样后用 t-test 都可以计算出其均值有显著差异。做这样的
: 判断的错误概率相当小,尤其是在你说的这种群体数目有限的情况下。但这有意义么?
: 再进一步讲,一个判断的意义,在于其信息的含量。我做的上述判断,有信息含量么?

avatar
l*1
49
上图 SD its means
下图 SEM its mean
Btw,
降低 bias 就可能 增大 SEM的 error 拿测量甲地 乙地 女子的身高来作为例子
乙地的 习格格 陈小丹格格 的 身高 岂是 甲地的 芙蓉姐姐 凤姐等的身高 一样容
易测到的 哈 (NB: 钻 北方 南方地域贴的 请左拐 进菌版八区 在那里撸管)

pls refer
Sanjuan R.
From Molecular Genetics to Phylodynamics: Evolutionary Relevance of Mutation
Rates Across Viruses
PLoS Pathog. (2012) 8: e1002685.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3342999/
its pp5 left column
>To reducing bias, this method
accounts for phylogenetic relatedness (on the other hand, it
increases error because of the fewer estimates available for some
groups).
For Bayesian analysis of dated dsDNA, ssDNA and dsRNA viruses sequences
and SEM
pls refer its pp1 and 2 plus Fig. 2 b
Figure 2. Relationship between mutation and evolution rates
across viruses. Symbols for each Baltimore group are the same as in
Figure 1. a: evolution rates versus mutation rates for seven viruses (HSV-
1: herpes simplex virus 1; TMV: tobacco mosaic virus; AHBV: avian
hepatitis B virus; FLUVA: influenza A virus; HIV-1: human immunodeficiency
virus 1; PV-1: poliovirus 1; HCV: hepatitis C virus). b: log-scale
mean ∓SEM mutation and evolution rates for each Baltimore group.
The dotted line indicates the prediction from a purely neutral model,
whereas the dashed line corresponds to a model that incorporates
deleterious mutations.
------
ps: sunny 对协同共进化的mean 公式不感冒的话
还可以参考
Evolution. (2009) 63: 826-38.
Evolutionary epidemiology and the dynamics of adaptation.
full text PDF link:
//www.mast.queensu.ca/~tday/pdf/GandonDay2009.pdf

【在 s******y 的大作中提到】
: 我倒,我觉得guest0是一个比较简单的概念错误,而你则是上纲上线的错误。
: 呵呵呵。我们这里只谈论统计上的正确问题,并不涉及什么国家决策人民生死
: 那么高档的东西。
: guest0的说法,我觉得他是把平均值和SEM在生物学里的意义搞错了。
: 具体怎么错我还不知道怎么说好。因为就是我以前说过一次那样,我们这种
: 纯粹的生物学家数学不是特别好,公式啥啥的我不知道怎么推导,很多是靠
: 直觉。所以大家千万不要逼我说我到底是就哪个公式提出来的结论。
: 其实对于一个群体,在群体数目是个有限数字的前提下(这个你可能没有考虑到),必
: 然存在一个绝对的可以精确得到的理论平均值,这个和群体里面的
: 个体的数据的离散性无关。

avatar
s*y
50
我觉得你也太悲观了。
对于你说的那些问题,学术界的人都知道。
解决这些个问题的关键就是,下结论的时候不能滥用数据。
比方说(不好意思,又要用那个身高的例子了)。假如我们测量之后,发现甲地
的妇女的身高的平均值比乙地妇女的身高的平均值显著的大很多而且这个平均值
的差距大于SEM的三倍,那么我们就可以比较确信的认为,甲地妇女的平均身高
比乙地高。如果结论仅仅停留于此,那么是合理的,但是,在实践上,常常有人
会引申出这样的结论:甲地的妇女比乙地的高。这个就是滥用数据了。但是这个
并不是统计学的错,而是使用这些数据的人不求甚解的错。
这个可能也是为什么quest0人会认为SD才是正确的用法的原因,因为他可能认为,
如果甲地妇女在抽样的时候都统统比乙地的高,才能安全的认为甲地的妇女比乙地的高
?
但是问题就在于,首先,在实践上,尤其是在生物学上,这种情况基本上
是不存在的。比方说身高,总是有个例的。每个地方都有相对高和相对矮的人,
基本上肯定是会有重叠的部分的。如果拘泥于SD,那就什么结论都没有办法得
出来了。用了SEM, 至少可以安全的对平均值进行比较。当然,在进行比较的
同时要清醒的知道这个方法的limitation, 不能无限制的引申结论。
我猜你因为是数理出身的,所以对“结论引导决策”这个事情看得过重?
别的领域我不知道,但是在我所熟悉的生化和细胞生物领域里,如果强调
“结论引导决策”,反而是走火入魔。因为我反复强调过几次的就是,因为
细胞生化里面的条件比较复杂,而我们测试一个理论的时候往往必须采用
很多假说前提来对细胞系统进行简化,所以,在目前的情况下,是几乎没有
可能用任何结论来指导什么决策的。即使是看起来非常非常完美的数据,
也必须谨慎的加上很多前提,说是在什么什么情况下才能观察到那些情况的。

【在 l***y 的大作中提到】
: 呵呵,这就是我为什么说你的数学公式都是对的。但是统计思想和统计概念更重要。这
: 里涉及到的,一个是假设检验的思想,另一个是 model and sample 的概念。
: 假设检验的目的是帮助决策。所谓决策,就是 decision。比如说,下个结论,说有显
: 著区别,这个产生结论的过程就是一个决策。 我们时时刻刻都在做决策,小到一个标
: 点符号的选择,都算决策。而假设检验是为了给理性决策提供依据,却并不能代替决策
: 本身。这就是我提到的,假设检验本身并不能证明任何事情。
: 具体到 t-test 上。在统计意义上,我可以比较安全地认为,在所有情况下,只要 n
: 足够大,对任意两个分布采样后用 t-test 都可以计算出其均值有显著差异。做这样的
: 判断的错误概率相当小,尤其是在你说的这种群体数目有限的情况下。但这有意义么?
: 再进一步讲,一个判断的意义,在于其信息的含量。我做的上述判断,有信息含量么?

avatar
s*y
51
你说的那个standard error of the mean和standard error 的概念差别是对的。
但是我想原楼主应该是在问standard error of the mean,因为在生物圈里
要么就是用SD,要么就是用SEM. 很少有人用你说的那个经典概念里的SE

)
of

【在 a**m 的大作中提到】
: laugh
: lz was talking about standard error not standard error of the mean
: standard error is an estimate of standard deviation
: say, you cannot get the standard deviation of the height of chinese women,
: cuz you simply cannot sample all of them
: however, you can sample (btw, here "sample" refers to measure their height)
: 1000 of them and get the standard deviation, which, to be more technical,
: should be called the standard error.
: and this standard error is an unbiased estimate of the standard deviation of
: the height of chinese females.

avatar
l*y
52
1. 我还是比较倾向用 statistical significance 这个说法来描述一个判断的统计学
上的依据是否足够强,同时用 biological significance 来描述这个判断如果成立所
带来的影响有多大。在处理 microarray 数据筛选 DEG 时,用 volcano plot 来筛选
的依据就是要同时满足两类 significance。
2. 可证伪性有两重意思,一重是指永远无法被证明,另一重是永远容许被证伪。这两
重意思的本质是一样的。神学的很多模型并非不可被证伪,而是可以被证明,被证明后
不再容许被证伪。所以,可以容许被证伪的,不一定有科学意义上的可证伪性。这是和
科学模型的本质区别。
谈科学就必然要谈神学,因为这两套体系是互斥但互相依赖并且并行的,同时共用相同
的方法论体系和逻辑体系。不符合科学的模型常常就会落到神学去。科学的核心思想是
人类永远无法完全认知任何规律,这和神学在一定程度上是一致的。科学的最重要的手
段,用科学实验来证伪,就是基于这个核心思想的。相应的,神学的一个基本概念是人
和神的不可逾越的差异。在知上,体现为人永远无法完全认知任何规律,并且人永远无
法知道自己是否已对任何规律有了完全的认知。也就是说,人在知上是局限的,这局限
不在于人知道多少,而是在于人没有能力去完全认知任何规律。人认知知识,如同女奴
佩戴首饰,并没有所有权。所以对于任何一个哪怕再微不足道的规律,如果人可以完全
认知,就抹杀了人和神的根本差异,神学也就终结了。完全认知的这个规律同时可以成
为推演的起点,带来一系列不需实验验证,绝对正确,无可证伪的规律和模型,从而把
科学体系变成了神学体系,导致科学的终结。也是在这个意义上,数学体系更接近神学
体系,而不属于科学体系。这也是为什么我一再说,假设检验作为一种数学工具,不能
在科学上证明任何事情,否则就成为神学对科学的成功入侵了。
科学和神学的主要区分在于两点:一个是科学不需要也不关心神的存在和意义,而是用
hypothesis 来取代神学中的神的位置;另一个是科学是以归纳为基础的,神学是以演
绎为基础的,虽然在两个体系内两种方法都要用到。归纳可以证明错误(证伪),但只
有演绎能证明正确(证实)。其实除了科学实验以外,这两个体系算是双胞胎。
说句题外话,我喜欢科学,是因为科学的颠覆性,也就是所谓的革命性。一切都是未知
的,不确定的,可以质疑的。是永远的 adventure,没有任何可以当作家的舒适的地方
,除了各种攻击用的武器,没有任何东西可以依靠。而神学更像是一个宁静的家园和归
宿。科学需要的是古希腊悲剧中的那种骄傲的人性,而神学怎么说都多多少少需要一点
奴性。

【在 D*a 的大作中提到】
: 两个问题,
: 1你说得意义,并不是显著性,虽然我记得英语词significant 貌似是来源于统计,修
: 饰test结果,然后又有了意义的功能?举个例子,某药显著提高了某癌症病人寿命,提
: 高了三天,这个在统计上是显著的,但是在科学上是无意义的。我理解的对不?
: 2我理解的,可证伪性的意思,貌似不是说某个定理/规律什么的有一天会被证明错误,
: 而是说一个陈述如果被认为是科学的,那么这个陈述必须容许存在逻辑上的反例,而不
: 是一定要已经存在逻辑上的反例,我认为也并不代表某天一定会被推翻。否则所有科学
: 的论述都是错误的,这不是很荒谬么。可证伪性并不是已经被证伪,而是说逻辑上可以
: 被推翻,但不是说已经被推翻。
: 另外没看懂跟神学有啥关系。神学本身就是不可证伪的体系,因为“人无法理解神”是

avatar
s*y
53
这一点,其实也暗合我们前一阵子吵翻了天的有关生物学和数学合作的问题。
那就是学数理的人可能对生物学的落后情况不是那么了解,对生物学的进展
过于心急了。说穿了,大部分生物领域,其实都处于积累数据的阶段。
大部分结论都是不能用来指导决策的。如果有人诉你他的试验设计已经到了
那个牛叉程度,那么你反而要非常小心他是不是骗子。

【在 s******y 的大作中提到】
: 我觉得你也太悲观了。
: 对于你说的那些问题,学术界的人都知道。
: 解决这些个问题的关键就是,下结论的时候不能滥用数据。
: 比方说(不好意思,又要用那个身高的例子了)。假如我们测量之后,发现甲地
: 的妇女的身高的平均值比乙地妇女的身高的平均值显著的大很多而且这个平均值
: 的差距大于SEM的三倍,那么我们就可以比较确信的认为,甲地妇女的平均身高
: 比乙地高。如果结论仅仅停留于此,那么是合理的,但是,在实践上,常常有人
: 会引申出这样的结论:甲地的妇女比乙地的高。这个就是滥用数据了。但是这个
: 并不是统计学的错,而是使用这些数据的人不求甚解的错。
: 这个可能也是为什么quest0人会认为SD才是正确的用法的原因,因为他可能认为,

avatar
l*y
54
呵呵,我们说得不是同一个范畴的东西啊。我是工程出身的,所以可能视角不太一样。
对于你说的例子,model 是什么?Hypothesis 呢?Assumptions 呢?这是工程模型的
flowchart。
另一点,我说的可能不清楚。我的意思不是“结论引导决策”,而是“根据数据,依据
假设检验,作出一个下这个结论的决策”。 流程是:模型 -> 采样 -> 数据 -> 假设
检验 -> 决策 -> 结论。也就是经常提到的 hypothesis-driven research 的
flowchart。

【在 s******y 的大作中提到】
: 我觉得你也太悲观了。
: 对于你说的那些问题,学术界的人都知道。
: 解决这些个问题的关键就是,下结论的时候不能滥用数据。
: 比方说(不好意思,又要用那个身高的例子了)。假如我们测量之后,发现甲地
: 的妇女的身高的平均值比乙地妇女的身高的平均值显著的大很多而且这个平均值
: 的差距大于SEM的三倍,那么我们就可以比较确信的认为,甲地妇女的平均身高
: 比乙地高。如果结论仅仅停留于此,那么是合理的,但是,在实践上,常常有人
: 会引申出这样的结论:甲地的妇女比乙地的高。这个就是滥用数据了。但是这个
: 并不是统计学的错,而是使用这些数据的人不求甚解的错。
: 这个可能也是为什么quest0人会认为SD才是正确的用法的原因,因为他可能认为,

avatar
s*y
55
啊,我有点明白你的意思了:)
这么说吧,在大部分生物系统里,因为生物系统的复杂性和测量工具的制约,
我们在测量的时候经常是只能针对某一定参数来测量,而把其他本来也属于
系统内部的变量的因素近似性的作为偏差噪音来处理。最后导致的是得出的
数据分散性很高。在这种前提下,生物学家们在目前的工具所能达到的地步,
对策就是。。。鸵鸟政策加上盲人摸象政策。
首先,生物学家没有办法象你所希望的那样对此进行深究(实在是没有办法)
第二,在无法深究的前提下,他们只能采用多种方法来对同一对象进行测量,
就象一堆盲人去摸象,虽然各说各话,但是把他们所说的话都加到一起来,
大概也就是个大象的大体模样了。
所以你问的到底用什么方法来进行决定如何下结论?在生物学里,简单的
来说,一般都是采用最简单的方法来下结论,就是用鸵鸟政策,直接上
最简单直接的方法(一般就是用SEM),然后再采用多种方法进行验证。
虽然听起来很让人脸红,但是没有办法,这个就是生物学的现状。因为我们
连用guest0所希望的那个更stringent 的比较方法的余地都没有。就象我
说过的那样,如果我们一定要用SD的话,那么大部分生物学的研究就直接
不用去做了,因为两组数据之间几乎肯定达不到那么大的差别。



【在 l***y 的大作中提到】
: 呵呵,我们说得不是同一个范畴的东西啊。我是工程出身的,所以可能视角不太一样。
: 对于你说的例子,model 是什么?Hypothesis 呢?Assumptions 呢?这是工程模型的
: flowchart。
: 另一点,我说的可能不清楚。我的意思不是“结论引导决策”,而是“根据数据,依据
: 假设检验,作出一个下这个结论的决策”。 流程是:模型 -> 采样 -> 数据 -> 假设
: 检验 -> 决策 -> 结论。也就是经常提到的 hypothesis-driven research 的
: flowchart。

avatar
l*1
56
flowchat工程计算学已经进入了 Histone modification and cytosine methylation
of Genome, 新的交叉学科 系统人工基因组生物信息学 已经诞生了吧 Lol
pls refer
>XXX lab studys causal relationships between gene regulation and cellular >
behaviors, by developing computational and experimental methods on >network
modeling, stem cell engineering, epigenomic and single-cell >analyses.
>Cell, 149: 1381-1391
>http://bioinformatics.bioen.illinois.edu/index.html

【在 s******y 的大作中提到】
: 啊,我有点明白你的意思了:)
: 这么说吧,在大部分生物系统里,因为生物系统的复杂性和测量工具的制约,
: 我们在测量的时候经常是只能针对某一定参数来测量,而把其他本来也属于
: 系统内部的变量的因素近似性的作为偏差噪音来处理。最后导致的是得出的
: 数据分散性很高。在这种前提下,生物学家们在目前的工具所能达到的地步,
: 对策就是。。。鸵鸟政策加上盲人摸象政策。
: 首先,生物学家没有办法象你所希望的那样对此进行深究(实在是没有办法)
: 第二,在无法深究的前提下,他们只能采用多种方法来对同一对象进行测量,
: 就象一堆盲人去摸象,虽然各说各话,但是把他们所说的话都加到一起来,
: 大概也就是个大象的大体模样了。

avatar
l*y
57
是啊是啊。我倾向于用假设检验作为对自己的保护,规避那些可能把自己做得求生不能
求死不成的方向上去。当今的学术环境实在是逼着人滥用统计工具,追求 full story
,追求完美数据,否则 reviewers 那一关过不去。结果把生物和统计的名声都搞差了。
我还是看好 bio-question -> general hyp -> general model -> phenotypic
validation/proof of concept -> high-throughput multi-omics -> specific hyp -
> specific model -> expt design -> parameter estimation & model construction
-> simulation & predictions -> expt validation -> applications 这条路。而且
因为工程背景,同时接触病人比较多,我更希望能够在 applications 上有很 solid
的结果。
养细胞的时候常在想,提供这个细胞的病人,他的家人们,我认识,聊过天,听他们谈
过对自己的病的恐惧和困惑,以及他们还没来得及实现的很多梦想。对他们知道的越多
,心里的压力越大,很难有应该的超然态度。

【在 s******y 的大作中提到】
: 啊,我有点明白你的意思了:)
: 这么说吧,在大部分生物系统里,因为生物系统的复杂性和测量工具的制约,
: 我们在测量的时候经常是只能针对某一定参数来测量,而把其他本来也属于
: 系统内部的变量的因素近似性的作为偏差噪音来处理。最后导致的是得出的
: 数据分散性很高。在这种前提下,生物学家们在目前的工具所能达到的地步,
: 对策就是。。。鸵鸟政策加上盲人摸象政策。
: 首先,生物学家没有办法象你所希望的那样对此进行深究(实在是没有办法)
: 第二,在无法深究的前提下,他们只能采用多种方法来对同一对象进行测量,
: 就象一堆盲人去摸象,虽然各说各话,但是把他们所说的话都加到一起来,
: 大概也就是个大象的大体模样了。

avatar
h*o
58
偏题一下
你这个问题1,如果统计出来能提高3天,那就是显著意义,不管是统计学还是生物学
统计本身没有biased,而且如果统计学上能达到significance,这也已经考虑到对比的
2组 自身的basal level (Mean)以及自身数据的分布情况(STDEV)
同样以你的3天抗癌来作比较
考虑到人体自身的情况,统计学上要达到延长3天人类寿命,那么n=?几乎要到无穷大
,所
以如果很小的n能达到这样的结果,当然有意义。
换个模型,如果对象本身生命就很短,统计学上的3天还是有biological significance
统计学并不考虑你所做的biological significance,但是他是对这个结果作出最可靠
的estimate,所以如果能达到statistical significance, 那么就表明在这个统计模
型适用的情况下,对你研究的生物模型有了比较准确的estimate。
简单的来说 你所举的3天的抗癌效果,统计学有效而生物学无意义的例子在真实情况下
是基本不会出现的 (前提是用的正确的统计方法,和正确的采样方式)

【在 D*a 的大作中提到】
: 两个问题,
: 1你说得意义,并不是显著性,虽然我记得英语词significant 貌似是来源于统计,修
: 饰test结果,然后又有了意义的功能?举个例子,某药显著提高了某癌症病人寿命,提
: 高了三天,这个在统计上是显著的,但是在科学上是无意义的。我理解的对不?
: 2我理解的,可证伪性的意思,貌似不是说某个定理/规律什么的有一天会被证明错误,
: 而是说一个陈述如果被认为是科学的,那么这个陈述必须容许存在逻辑上的反例,而不
: 是一定要已经存在逻辑上的反例,我认为也并不代表某天一定会被推翻。否则所有科学
: 的论述都是错误的,这不是很荒谬么。可证伪性并不是已经被证伪,而是说逻辑上可以
: 被推翻,但不是说已经被推翻。
: 另外没看懂跟神学有啥关系。神学本身就是不可证伪的体系,因为“人无法理解神”是

avatar
s*y
59
哎,我也不知道该如何安慰你。因为我和你有很类似的疑虑,而且我虽然
对自己的生死比较淡然,对于别人的生死也是比较看不穿的。以前我几个
亲人和朋友过世的时候,都让我压郁了半年乃至两三年不等。
幸好我自己不直接接触病人,没有你那么多的精神压力。
对于来源复杂的大规模数据,尤其是病人身上来源的数据,的确是用一些
比较严格的方法来验证,对自己的良心比较过得去。在这个方面我赞同你的意见。
我现在选择做细胞和生化,也主要是因为这个比较好办,爱怎么测试就怎么测试。
细胞死了就死了,直接扔了再养一盘。但是同样的事情,在老鼠身上下手我就
已经开始有点不忍了。要是把一个病人搞死了,我估计会得忧郁症以后就没有
办法再工作了。

story
了。
-
construction

【在 l***y 的大作中提到】
: 是啊是啊。我倾向于用假设检验作为对自己的保护,规避那些可能把自己做得求生不能
: 求死不成的方向上去。当今的学术环境实在是逼着人滥用统计工具,追求 full story
: ,追求完美数据,否则 reviewers 那一关过不去。结果把生物和统计的名声都搞差了。
: 我还是看好 bio-question -> general hyp -> general model -> phenotypic
: validation/proof of concept -> high-throughput multi-omics -> specific hyp -
: > specific model -> expt design -> parameter estimation & model construction
: -> simulation & predictions -> expt validation -> applications 这条路。而且
: 因为工程背景,同时接触病人比较多,我更希望能够在 applications 上有很 solid
: 的结果。
: 养细胞的时候常在想,提供这个细胞的病人,他的家人们,我认识,聊过天,听他们谈

avatar
a*m
60
If you only know how to get sem from the output of a software rather than
really understand what that means (also arrogantly pointed out something
right to be wrong) you should go and do some STAT 101 review. What I said
was right--I was talking about standard error whereas standard error of the
mean is a more specific lineage of the topic.

额地个神啊,请无视这个帖子。。。概念问题不懂的找书,找不着书也可以google个
wiki了解个大概
★ Sent from iPhone App: iReader Mitbbs Lite 7.56

【在 t******g 的大作中提到】
: 额地个神啊,请无视这个帖子。。。
: 概念问题不懂的找书,找不着书也可以google个wiki了解个大概
:
: )
: of

avatar
a*m
61
Being unbiased means that the estimate from the sample space is equal to the
real value in the entire population. The true value derived from the sample
population (here the standard error) might be inaccurate depending on size
of the samples.

为什么就是 unbiased estimate了?那我要是取了五个样本,同样可以得出一个SD啊。
当然我们大家都会说五个不够。但是从统计学上怎么理解最后一句话“ this sta.....
...
★ Sent from iPhone App: iReader Mitbbs Lite 7.56

【在 D*a 的大作中提到】
: 为什么就是 unbiased estimate了?那我要是取了五个样本,同样可以得出一个SD啊。
: 当然我们大家都会说五个不够。但是从统计学上怎么理解最后一句话“ this standard
: error is an unbiased estimate of the standard deviation of the height of
: chinese females.”?
:
: )
: of

avatar
l*s
62
好Deep啊,崇拜ing

【在 l***y 的大作中提到】
: 1. 我还是比较倾向用 statistical significance 这个说法来描述一个判断的统计学
: 上的依据是否足够强,同时用 biological significance 来描述这个判断如果成立所
: 带来的影响有多大。在处理 microarray 数据筛选 DEG 时,用 volcano plot 来筛选
: 的依据就是要同时满足两类 significance。
: 2. 可证伪性有两重意思,一重是指永远无法被证明,另一重是永远容许被证伪。这两
: 重意思的本质是一样的。神学的很多模型并非不可被证伪,而是可以被证明,被证明后
: 不再容许被证伪。所以,可以容许被证伪的,不一定有科学意义上的可证伪性。这是和
: 科学模型的本质区别。
: 谈科学就必然要谈神学,因为这两套体系是互斥但互相依赖并且并行的,同时共用相同
: 的方法论体系和逻辑体系。不符合科学的模型常常就会落到神学去。科学的核心思想是

avatar
H*i
63
可以,但是只有当你重复估算5个样本的SD这个动作很多次后,得到S1 S2 S3。。。
他们的均值会逐渐趋近总体的SD。
也就是样本得到的S的期望是SD。
另外楼上的很多讨论弄得SE和SEM都要混起来了。。
SE是实验(系统)本身的性质(噪音),做多少实验期望(真实的SD)都是不变的
SEM反应样本平均值离真实值的精确程度,当样本量无限大的时候,期望是0.
现在文章里一般都标单独的+-SEM,有时候只有3组实验,我觉得就是误导,样本够大时
候,95%区间的系数还是1.96呢。。

standard

【在 D*a 的大作中提到】
: 为什么就是 unbiased estimate了?那我要是取了五个样本,同样可以得出一个SD啊。
: 当然我们大家都会说五个不够。但是从统计学上怎么理解最后一句话“ this standard
: error is an unbiased estimate of the standard deviation of the height of
: chinese females.”?
:
: )
: of

avatar
l*y
64
病人的 sample 搞得我都快抑郁了。那真是千人千面啊。没有二十个以上的 sample 基
本什么都看不到,尤其是 subtypes 不很清晰的病,没有一两百的 samples 做前期的
subtyping,后面基本上很难做出能够说服自己的工作。
倒不担心病人的预后 -- 本来就是绝症,而且目前不用给医生提供诊断和治疗意见。有
个同事跟医生合作,用 SNP array 做 subtyping 来协助医生诊断和给药,
classification 时,对于不很清晰的那些病人,就很有压力。就怕已经给病人上药了
,换种算法,发现其实病人更可能属于另一种 subtype,应该换药。虽然道理上知道总
有这样的情况,心理上还是挺受冲击。这些 p-value 什么的,背后往往就是一个病人
的生死。

【在 s******y 的大作中提到】
: 哎,我也不知道该如何安慰你。因为我和你有很类似的疑虑,而且我虽然
: 对自己的生死比较淡然,对于别人的生死也是比较看不穿的。以前我几个
: 亲人和朋友过世的时候,都让我压郁了半年乃至两三年不等。
: 幸好我自己不直接接触病人,没有你那么多的精神压力。
: 对于来源复杂的大规模数据,尤其是病人身上来源的数据,的确是用一些
: 比较严格的方法来验证,对自己的良心比较过得去。在这个方面我赞同你的意见。
: 我现在选择做细胞和生化,也主要是因为这个比较好办,爱怎么测试就怎么测试。
: 细胞死了就死了,直接扔了再养一盘。但是同样的事情,在老鼠身上下手我就
: 已经开始有点不忍了。要是把一个病人搞死了,我估计会得忧郁症以后就没有
: 办法再工作了。

avatar
s*n
65
Use SD. Never use SEM, which makes no sense.
avatar
l*e
66
我倾向于用后者,因为看着好看,数学意义不一样,但都是正确的啊。
avatar
j*x
67
这算是老坑了吧
一句话,如果不明白SD和SEM的统计学意义及其差异,那么你就应该就用SD,否则你必错
为什么?简单google一下就可以了,呵呵

【在 l*******e 的大作中提到】
: 我倾向于用后者,因为看着好看,数学意义不一样,但都是正确的啊。
avatar
g*y
68
比如测量中国女人的身高,你得到150, 155, 160, 165, 170
你可以得到stdev。
sem = stdev/sqrt(n==5)
想像你从中国女人中抽1000次,
第一次的mean 为 160, 第二次159, 第三次161.5 。。。
sem 就是你计算160, 159, 161.5,。。。的stdev。
所以standard error = standard deviation of sampling of means。
avatar
l*y
69
嗯。我有一个同事,他的名言是:statistical estimations lie, and the
statistical estimations of statistical estimations lie shamelessly.
我当然不完全赞同这句话,但是觉得这可以算是 quotable quote 了。

【在 g**********y 的大作中提到】
: 比如测量中国女人的身高,你得到150, 155, 160, 165, 170
: 你可以得到stdev。
: sem = stdev/sqrt(n==5)
: 想像你从中国女人中抽1000次,
: 第一次的mean 为 160, 第二次159, 第三次161.5 。。。
: sem 就是你计算160, 159, 161.5,。。。的stdev。
: 所以standard error = standard deviation of sampling of means。

avatar
s*y
70
两者的意义完全不一样。
如果你是为了比较同一组数据里的分布情况,应该用standard deviation
如果是为了比较两个不同组的平均值的差别,那就应该用standard error of mean

【在 l*******e 的大作中提到】
: 我倾向于用后者,因为看着好看,数学意义不一样,但都是正确的啊。
avatar
l*e
71
我想了下,用SD还是用SEM还是得看测量目的。比如你举的这个例子,如果想知道准确
的mean的话就用SEM;如果想知道中国女人身高分布的话就应该用SD。如果测量的次数
非常多,比如测了500次,那么SEM = SD/sqrt500,SEM就是个非常非常小的数字,这只
能说测量的error变小了,并不能说中国女人身高分布(SD)更集中于Mean了吧。
我最近在复习统计,poisson distribution,chi-square啥的,都模糊了。

【在 g**********y 的大作中提到】
: 比如测量中国女人的身高,你得到150, 155, 160, 165, 170
: 你可以得到stdev。
: sem = stdev/sqrt(n==5)
: 想像你从中国女人中抽1000次,
: 第一次的mean 为 160, 第二次159, 第三次161.5 。。。
: sem 就是你计算160, 159, 161.5,。。。的stdev。
: 所以standard error = standard deviation of sampling of means。

avatar
l*e
72
“比较两个不同组的平均值的差别”
这个一定要用SD(standard deviation of the difference between the means)吧?

【在 s******y 的大作中提到】
: 两者的意义完全不一样。
: 如果你是为了比较同一组数据里的分布情况,应该用standard deviation
: 如果是为了比较两个不同组的平均值的差别,那就应该用standard error of mean

avatar
s*y
73
哦,我写错了一个字,把of 写成 or 了。
已改正。

【在 l*******e 的大作中提到】
: “比较两个不同组的平均值的差别”
: 这个一定要用SD(standard deviation of the difference between the means)吧?

avatar
l*e
74
这个问题我也想了下,我认为统计本身是客观的,“相对”准确的。
但是,搞生物的人做了10次试验,最后非常“精心地”找出了自己喜欢的3个结果,统
计的结果(P,R,Q,X^2啥的)都是基于这3个自己喜欢的结果的。所以统计结果非常
好看。
第二个人随机做一次试验,就重复不出来啦,原因是第一个人的做法就是违背统计学的
初衷的,第一个人应该统计所有10次试验的结果的。

【在 l***y 的大作中提到】
: 嗯。我有一个同事,他的名言是:statistical estimations lie, and the
: statistical estimations of statistical estimations lie shamelessly.
: 我当然不完全赞同这句话,但是觉得这可以算是 quotable quote 了。

avatar
l*1
75
你这个 有机会 和 錢肯 Kenneth R. Chien 说下
http://www.hms.harvard.edu/dms/BBS/fac/chien.php
看他这位 黄药师 啥反应
>
发信人: lostashoe (跑丢一只鞋), 信区: Biology
标 题: Re: 大家发文章用standard deviation,还是standard error?
发信站: BBS 未名空间站 (Mon Oct 15 13:13:57 2012, 美东)
这个问题我也想了下,我认为统计本身是客观的,“相对”准确的。
但是,搞生物的人做了10次试验,最后非常“精心地”找出了自己喜欢的3个结果,统
计的结果(P,R,Q,X^2啥的)都是基于这3个自己喜欢的结果的。所以统计结果非常
好看。
第二个人随机做一次试验,就重复不出来啦,原因是第一个人的做法就是违背统计学的
初衷的,第一个人应该统计所有10次试验的结果的。
>>

【在 l***y 的大作中提到】
: 嗯。我有一个同事,他的名言是:statistical estimations lie, and the
: statistical estimations of statistical estimations lie shamelessly.
: 我当然不完全赞同这句话,但是觉得这可以算是 quotable quote 了。

avatar
s*s
76
//nod. 记住这两条是关键,看到底想看啥了

【在 s******y 的大作中提到】
: 两者的意义完全不一样。
: 如果你是为了比较同一组数据里的分布情况,应该用standard deviation
: 如果是为了比较两个不同组的平均值的差别,那就应该用standard error of mean

avatar
l*1
77
Mark.

【在 s******y 的大作中提到】
: 两者的意义完全不一样。
: 如果你是为了比较同一组数据里的分布情况,应该用standard deviation
: 如果是为了比较两个不同组的平均值的差别,那就应该用standard error of mean

avatar
g*0
78
举个例子说说你什么时候用sd,什么时候用sem?

【在 s******y 的大作中提到】
: 两者的意义完全不一样。
: 如果你是为了比较同一组数据里的分布情况,应该用standard deviation
: 如果是为了比较两个不同组的平均值的差别,那就应该用standard error of mean

avatar
z*6
79
补充一句:其实要真的想看mean的range,最好用95% confidence interval of the
mean...
但不知道为什么大家都不用...
这个问题sunny回答的跟书上写的一模一样,但是还是很难去界定什么时候用哪个...
最近买了一本(还是花的实验室的钱,惭愧)intuitive biostatistics,对学生物的
人很容易懂,号称这个书就是prism用的参考... 很不错!
avatar
s*y
80
比方说,如果有人去统计了一下两个地方甲和乙的妇女的身高。
那么如果要看不同地方的妇女的身高的分布情况的话就分别把甲和乙的平均值
分别列出来并用SD. 在这个情况下不涉及甲和乙的比较。
但是如果你这个课题是为了证明说甲地的妇女比乙地长得高的话,那么就要
把两个平均值进行比较,并用SEM来标示这个比较是否有意义。

【在 g****0 的大作中提到】
: 举个例子说说你什么时候用sd,什么时候用sem?
avatar
g*0
81
我认为你这是经典错误。
错误在于甲和乙的妇女的身高 不等于 两个平均值进行简单比较。甲和乙不同,是两个
平均值的差别远大于甲和乙样本内的随机差别,也就是SD。换句话说,就是两个平均值
的差别要用SD这个“尺子”来量才有意义。 不科学的比方,我比你重一两(50克)不
算什么,但如果我们都是老鼠,就要不你太瘦或者我太胖了。 有了平均值和SD,我们
就内“看”到甲和乙的分布。
SEM只是平均值的分布,代表这个平均值的可靠性,也就是下次再作试验统计,得到同
样平均值的范围。n越大,自然就越可重复,但是并不改变试验数值的分布。
英文参考:
http://www.sportsci.org/resource/stats/meansd.html

【在 s******y 的大作中提到】
: 比方说,如果有人去统计了一下两个地方甲和乙的妇女的身高。
: 那么如果要看不同地方的妇女的身高的分布情况的话就分别把甲和乙的平均值
: 分别列出来并用SD. 在这个情况下不涉及甲和乙的比较。
: 但是如果你这个课题是为了证明说甲地的妇女比乙地长得高的话,那么就要
: 把两个平均值进行比较,并用SEM来标示这个比较是否有意义。

avatar
D*a
82
但是SD只是样本内的SD,并不是population的SD啊.
反而正如你说SEM反映了平均值的可靠性,所以才更有利用样本来推测群体的比较意义
啊?

【在 g****0 的大作中提到】
: 我认为你这是经典错误。
: 错误在于甲和乙的妇女的身高 不等于 两个平均值进行简单比较。甲和乙不同,是两个
: 平均值的差别远大于甲和乙样本内的随机差别,也就是SD。换句话说,就是两个平均值
: 的差别要用SD这个“尺子”来量才有意义。 不科学的比方,我比你重一两(50克)不
: 算什么,但如果我们都是老鼠,就要不你太瘦或者我太胖了。 有了平均值和SD,我们
: 就内“看”到甲和乙的分布。
: SEM只是平均值的分布,代表这个平均值的可靠性,也就是下次再作试验统计,得到同
: 样平均值的范围。n越大,自然就越可重复,但是并不改变试验数值的分布。
: 英文参考:
: http://www.sportsci.org/resource/stats/meansd.html

avatar
g*0
83
对的,样本和群体不一样,所以要有n=?。
在比较群体的差别时,你强调平均值的可靠性(重复性)重要,我强调平均值差别的相
对(于组内差别)意义。所以要给n=?。
“When you compare group means, showing SDs conveys an idea of the magnitude
of the difference between the means, because you can see how big the
difference is relative to the SDs. In other words, you can see how big the
effect size is. ”
结论是要给n=?。其实计算SD的时候,n已经起作用了。

【在 D*a 的大作中提到】
: 但是SD只是样本内的SD,并不是population的SD啊.
: 反而正如你说SEM反映了平均值的可靠性,所以才更有利用样本来推测群体的比较意义
: 啊?

avatar
s*s
84
你说的对,不等于别人就说错了。你不过说了eyeballing
两个population是不是有很大重合而已。真正要看到底平均
值是不是有区别,还是sunny说的sem。
这个问题其实很简单啊,记住sunny的那两句话,或者旁听
一个本科的stat101就很清楚了。其实,我觉得不管文理,
stat101是一定要去听一遍的,否则太容易被人忽悠。理科生
最好去听一门bayesian, 就算忽略里面所有数学计算,光是
那个哲学理念就很有好处

【在 g****0 的大作中提到】
: 我认为你这是经典错误。
: 错误在于甲和乙的妇女的身高 不等于 两个平均值进行简单比较。甲和乙不同,是两个
: 平均值的差别远大于甲和乙样本内的随机差别,也就是SD。换句话说,就是两个平均值
: 的差别要用SD这个“尺子”来量才有意义。 不科学的比方,我比你重一两(50克)不
: 算什么,但如果我们都是老鼠,就要不你太瘦或者我太胖了。 有了平均值和SD,我们
: 就内“看”到甲和乙的分布。
: SEM只是平均值的分布,代表这个平均值的可靠性,也就是下次再作试验统计,得到同
: 样平均值的范围。n越大,自然就越可重复,但是并不改变试验数值的分布。
: 英文参考:
: http://www.sportsci.org/resource/stats/meansd.html

avatar
y*i
85
我觉得是sunnyday对。证据是比较两个数据组用ttest,而ttest的公式计算的是SE。
另一角度可以这么想:你的数据组抽样越多,SE越小;同时数据组抽样越多,越能可靠
的确定两个数据组的细微差别。所以sunnyday说比较平均值的差异该用SE是对的。
但直觉上看用SE其实不爽。因为我们更希望整个数据分布有大的差异,which is SD.

【在 g****0 的大作中提到】
: 我认为你这是经典错误。
: 错误在于甲和乙的妇女的身高 不等于 两个平均值进行简单比较。甲和乙不同,是两个
: 平均值的差别远大于甲和乙样本内的随机差别,也就是SD。换句话说,就是两个平均值
: 的差别要用SD这个“尺子”来量才有意义。 不科学的比方,我比你重一两(50克)不
: 算什么,但如果我们都是老鼠,就要不你太瘦或者我太胖了。 有了平均值和SD,我们
: 就内“看”到甲和乙的分布。
: SEM只是平均值的分布,代表这个平均值的可靠性,也就是下次再作试验统计,得到同
: 样平均值的范围。n越大,自然就越可重复,但是并不改变试验数值的分布。
: 英文参考:
: http://www.sportsci.org/resource/stats/meansd.html

avatar
g*0
86
歪个楼,能不能说说你学贝叶斯的哲学思考是什么?简单讲讲。

【在 s******s 的大作中提到】
: 你说的对,不等于别人就说错了。你不过说了eyeballing
: 两个population是不是有很大重合而已。真正要看到底平均
: 值是不是有区别,还是sunny说的sem。
: 这个问题其实很简单啊,记住sunny的那两句话,或者旁听
: 一个本科的stat101就很清楚了。其实,我觉得不管文理,
: stat101是一定要去听一遍的,否则太容易被人忽悠。理科生
: 最好去听一门bayesian, 就算忽略里面所有数学计算,光是
: 那个哲学理念就很有好处

avatar
y*i
87
“甲和乙不同,是两个平均值的差别远大于甲和乙样本内的随机差别,也就是SD。”
这句话还真不对。比如两个完美的正态分布,中线只差极小的一点,远远小于SD,取
样少的话你会以为两者一样,但如果取样足够多的话,就能觉察出这两个正态分布是有
差异的。所以应该用SE。。。。。惨了。以前别人问我我说应该用SD :(

【在 g****0 的大作中提到】
: 我认为你这是经典错误。
: 错误在于甲和乙的妇女的身高 不等于 两个平均值进行简单比较。甲和乙不同,是两个
: 平均值的差别远大于甲和乙样本内的随机差别,也就是SD。换句话说,就是两个平均值
: 的差别要用SD这个“尺子”来量才有意义。 不科学的比方,我比你重一两(50克)不
: 算什么,但如果我们都是老鼠,就要不你太瘦或者我太胖了。 有了平均值和SD,我们
: 就内“看”到甲和乙的分布。
: SEM只是平均值的分布,代表这个平均值的可靠性,也就是下次再作试验统计,得到同
: 样平均值的范围。n越大,自然就越可重复,但是并不改变试验数值的分布。
: 英文参考:
: http://www.sportsci.org/resource/stats/meansd.html

avatar
s*s
88
我就不说sampling那些好玩的东西了。就算bayesian第一门课就要学的
posterior = prior x likelihood, 这玩意儿念过prob101就会推导的
东西,完全是博大精深啊:小到对parameter的理解,大到科学方法论和
对世界的理解。又比如作为理科生怎么理解racial profile这类问题。
贝叶斯强就强在这个基石理论连高中生都能推导的出。

【在 g****0 的大作中提到】
: 歪个楼,能不能说说你学贝叶斯的哲学思考是什么?简单讲讲。
avatar
s*s
89
不过SD还是有点意义的。
比如,你可以用se说两个population有区别。但是,进一步,很可能
别人要求给你一个个体,predict是哪一个population的,那么SD的大
小就对这样的prediction是否有意义比较重要了

【在 y***i 的大作中提到】
: “甲和乙不同,是两个平均值的差别远大于甲和乙样本内的随机差别,也就是SD。”
: 这句话还真不对。比如两个完美的正态分布,中线只差极小的一点,远远小于SD,取
: 样少的话你会以为两者一样,但如果取样足够多的话,就能觉察出这两个正态分布是有
: 差异的。所以应该用SE。。。。。惨了。以前别人问我我说应该用SD :(

avatar
l*y
90
我认为你俩都是经典错误 :D
错在对假设检验的理解上。假设检验不是为了说明甲地比乙地妇女身高更高的。这是完
全错误的用法。没有任何假设检验可以说明这个问题。
假设检验的目的是在可控成本(即 sample size n)下,在保守主义的思路下(即保护
H0,或者说,对第一类错误敏感),做出理性决策(reject H0 or not),并控制错
误决策所带来的损失(alpha)。
所以 Sunnyday 的数学是对的,但是滥用了假设检验。当两地妇女的身高差异不显著时
,这种滥用造成的损失就是,第一,要 reject H0,必然要加大样本数,也就是增加了
取样成本;第二,当承认身高差异所带来的收益远小于改变认知所带来的成本时,比如
说决定为两地妇女生产衣服时启用不同的生产线,而不再用同一条生产线,会带来直接
的经济损失。在学术上,会导致把研究资源投入到把不显著的差异上,错误立项,惨淡
收场。
换而言之,只要肯加大 sample size,总能通过 t-test,但是对于决策来说没有意义。
而你的统计思想是对的,数学上是不成立的。你说的是在做 classification 时的
false positive rate。也就是说,当给一个妇女身高,并知道她一定来自甲乙之一时
,用两地身高的 mean 和 sd 来求出两个分布峰的交叉点作为 classification 的
threshold,对她的籍贯判断错误的概率。
这个问题还可以继续展开,比如说 sample size 对白噪音的抑制作用等等。。。

【在 g****0 的大作中提到】
: 我认为你这是经典错误。
: 错误在于甲和乙的妇女的身高 不等于 两个平均值进行简单比较。甲和乙不同,是两个
: 平均值的差别远大于甲和乙样本内的随机差别,也就是SD。换句话说,就是两个平均值
: 的差别要用SD这个“尺子”来量才有意义。 不科学的比方,我比你重一两(50克)不
: 算什么,但如果我们都是老鼠,就要不你太瘦或者我太胖了。 有了平均值和SD,我们
: 就内“看”到甲和乙的分布。
: SEM只是平均值的分布,代表这个平均值的可靠性,也就是下次再作试验统计,得到同
: 样平均值的范围。n越大,自然就越可重复,但是并不改变试验数值的分布。
: 英文参考:
: http://www.sportsci.org/resource/stats/meansd.html

avatar
l*y
91
再来说说对统计方法的滥用。
统计方法的目的是为决策提供量化的风险评估。所以,我们作为第三方的 reviewer 或
者 audience 在衡量决策者(文章作者)所使用的统计方法的有效性时,必须同时评估
决策者的收益情况。如果决策者承担决策风险,那么他使用的统计方法大约是更可信的
。例如决策者在决定研究方向时,在决定下一步时间和资源的投入时,等等,这时滥用
统计方法来认为 hold 或者 reject H0 就是掩耳盗铃。反之,如果错误的决策可能给
决策者带来更大收益时,则他使用的统计方法大约是不可信的。比如说为了应付
reviewers,为了发文章,为了申请经费,为了找工作等等。从 Bayesian 的角度来看
,一个可靠地评估方法就是看这个结论有没有足够多的 follow-ups,尤其是其它利益
不相关的组的成功 follow-up。
同理可知,使用不必要的复杂统计方法本身就值得大家怀疑结论的可靠性。

【在 l***y 的大作中提到】
: 我认为你俩都是经典错误 :D
: 错在对假设检验的理解上。假设检验不是为了说明甲地比乙地妇女身高更高的。这是完
: 全错误的用法。没有任何假设检验可以说明这个问题。
: 假设检验的目的是在可控成本(即 sample size n)下,在保守主义的思路下(即保护
: H0,或者说,对第一类错误敏感),做出理性决策(reject H0 or not),并控制错
: 误决策所带来的损失(alpha)。
: 所以 Sunnyday 的数学是对的,但是滥用了假设检验。当两地妇女的身高差异不显著时
: ,这种滥用造成的损失就是,第一,要 reject H0,必然要加大样本数,也就是增加了
: 取样成本;第二,当承认身高差异所带来的收益远小于改变认知所带来的成本时,比如
: 说决定为两地妇女生产衣服时启用不同的生产线,而不再用同一条生产线,会带来直接

avatar
a*m
92
laugh
lz was talking about standard error not standard error of the mean
standard error is an estimate of standard deviation
say, you cannot get the standard deviation of the height of chinese women,
cuz you simply cannot sample all of them
however, you can sample (btw, here "sample" refers to measure their height)
1000 of them and get the standard deviation, which, to be more technical,
should be called the standard error.
and this standard error is an unbiased estimate of the standard deviation of
the height of chinese females.

【在 g**********y 的大作中提到】
: 比如测量中国女人的身高,你得到150, 155, 160, 165, 170
: 你可以得到stdev。
: sem = stdev/sqrt(n==5)
: 想像你从中国女人中抽1000次,
: 第一次的mean 为 160, 第二次159, 第三次161.5 。。。
: sem 就是你计算160, 159, 161.5,。。。的stdev。
: 所以standard error = standard deviation of sampling of means。

avatar
D*a
93
为什么就是 unbiased estimate了?那我要是取了五个样本,同样可以得出一个SD啊。
当然我们大家都会说五个不够。但是从统计学上怎么理解最后一句话“ this standard
error is an unbiased estimate of the standard deviation of the height of
chinese females.”?

)
of

【在 a**m 的大作中提到】
: laugh
: lz was talking about standard error not standard error of the mean
: standard error is an estimate of standard deviation
: say, you cannot get the standard deviation of the height of chinese women,
: cuz you simply cannot sample all of them
: however, you can sample (btw, here "sample" refers to measure their height)
: 1000 of them and get the standard deviation, which, to be more technical,
: should be called the standard error.
: and this standard error is an unbiased estimate of the standard deviation of
: the height of chinese females.

avatar
t*g
94
额地个神啊,请无视这个帖子。。。
概念问题不懂的找书,找不着书也可以google个wiki了解个大概

)
of

【在 a**m 的大作中提到】
: laugh
: lz was talking about standard error not standard error of the mean
: standard error is an estimate of standard deviation
: say, you cannot get the standard deviation of the height of chinese women,
: cuz you simply cannot sample all of them
: however, you can sample (btw, here "sample" refers to measure their height)
: 1000 of them and get the standard deviation, which, to be more technical,
: should be called the standard error.
: and this standard error is an unbiased estimate of the standard deviation of
: the height of chinese females.

avatar
s*y
95
我倒,我觉得guest0是一个比较简单的概念错误,而你则是上纲上线的错误。
呵呵呵。我们这里只谈论统计上的正确问题,并不涉及什么国家决策人民生死
那么高档的东西。
guest0的说法,我觉得他是把平均值和SEM在生物学里的意义搞错了。
具体怎么错我还不知道怎么说好。因为就是我以前说过一次那样,我们这种
纯粹的生物学家数学不是特别好,公式啥啥的我不知道怎么推导,很多是靠
直觉。所以大家千万不要逼我说我到底是就哪个公式提出来的结论。
其实对于一个群体,在群体数目是个有限数字的前提下(这个你可能没有考虑到),必
然存在一个绝对的可以精确得到的理论平均值,这个和群体里面的
个体的数据的离散性无关。
我再强调一次:在数目有限的前提下和个体的数据不变的前提下,这个理论上
的平均值是一个绝对的,不波动的数据,也就是一个不需要标示任何
error bar的数据。
但是因为在实际情况下,不可能真的把整个群体完全检查来得到数据,所以
一般是抽查n个样品,然后由这n个样品来计算一个平均值。而这个SEM的意义,
其实就是衡量那个计算出来的practical平均值和那个理论上存在的theoretical
平均值之间可能到底有多大的差距的一个指标。
扩展到在有两个群体A, B的情况下,假如我们得到了两个群体各自的精确的
理论平均值,并不需要对这两个平均值的比较使用任何error bar。
而SEM的意义是因为我们在实际情况下,进行比较的时候使用的是计算出来的practical
平均值,所以这个比较不一定是准确的,所以必须用SEM来标示这个
比较是否有意义。
但是,这个这个是一个针对平均值的概念上的比较,换句话说,这个所谓的
平均值,其实是一个概念,而不是一个真正的样品的值。所以比较两个概念
上的东西,比方说比较3和5两个数字到底哪个大,这个在概念上的比较是
成立的 (因此也是不需要标示任何error bar的)。所以虽然理论上是没有
问题的,但是用在实际上,有时候会被人滥用,这个就出现了你说的那个问题,
就是会被人偷换概念把理论上的那个平均值的意义过于放大。
我对此以前说过几次,就是不能迷信统计。要说统计,GWAS 这类的东西
统计上是无懈可击的。但是生物学上的东西,只用一种方法测出来的数据
就算统计搞得再fancy,也远远不如用了多种独立方法反复验证后得出的结论可靠。

【在 l***y 的大作中提到】
: 我认为你俩都是经典错误 :D
: 错在对假设检验的理解上。假设检验不是为了说明甲地比乙地妇女身高更高的。这是完
: 全错误的用法。没有任何假设检验可以说明这个问题。
: 假设检验的目的是在可控成本(即 sample size n)下,在保守主义的思路下(即保护
: H0,或者说,对第一类错误敏感),做出理性决策(reject H0 or not),并控制错
: 误决策所带来的损失(alpha)。
: 所以 Sunnyday 的数学是对的,但是滥用了假设检验。当两地妇女的身高差异不显著时
: ,这种滥用造成的损失就是,第一,要 reject H0,必然要加大样本数,也就是增加了
: 取样成本;第二,当承认身高差异所带来的收益远小于改变认知所带来的成本时,比如
: 说决定为两地妇女生产衣服时启用不同的生产线,而不再用同一条生产线,会带来直接

avatar
l*y
96
呵呵,这就是我为什么说你的数学公式都是对的。但是统计思想和统计概念更重要。这
里涉及到的,一个是假设检验的思想,另一个是 model and sample 的概念。
假设检验的目的是帮助决策。所谓决策,就是 decision。比如说,下个结论,说有显
著区别,这个产生结论的过程就是一个决策。 我们时时刻刻都在做决策,小到一个标
点符号的选择,都算决策。而假设检验是为了给理性决策提供依据,却并不能代替决策
本身。这就是我提到的,假设检验本身并不能证明任何事情。
具体到 t-test 上。在统计意义上,我可以比较安全地认为,在所有情况下,只要 n
足够大,对任意两个分布采样后用 t-test 都可以计算出其均值有显著差异。做这样的
判断的错误概率相当小,尤其是在你说的这种群体数目有限的情况下。但这有意义么?
再进一步讲,一个判断的意义,在于其信息的含量。我做的上述判断,有信息含量么?
会对决策有贡献么?如果没有,那么这样的假设检验,有意义么?
而大部分人不会故意在 paper 里放上没有意义的工作。那这种没有意义的假设检验的
实际意义何在呢?为发 paper 为自己的结论做个包装而已。
所以说,对决策没有帮助的假设检验,是 abuse 统计工具。
再讨论一下你提到的群体数目和参数估计。这是统计学里的一个核心概念,也是科学的
根本概念,即 model/hypothesis。(当然,我并不是说统计学属于科学哈。)
一个关键问题是:what's your model and what's your hypothesis? 比较两个数目有
限的群体的平均值有科学价值么?没有。因为这里比较的是死的事实,是孤立的个案,
不会给我们对世界的认知带来可扩展(可外推)的影响。同时,这里的平均值不是对任
何参数的估计,因为是死的有限集,不存在任何 model,自然也就不存在任何参数。
那么我们为什么要比较两个有限的集合的平均值?是因为这里隐含了一个 hypothesis
,就是这两个有限集合是对两个分布(即两个 models)的抽样。我们关心的是这两个
models,而不是这两个有限集合。如果这个有限集合的平均值是这个 model 的某个参
数的一致的无偏的估计,那么比较这两个有限集合的平均值就可以让我们对两个 model
的某个参数的差异性作出一些估计。但是,背后这个抽象的 model 的参数,是永远无
法用有限的抽样来确切地估计的。这就是具体和抽象,有限和无限,实验和理论的分野
。也许我们对参数的估计是正确的,只是我们永远无法知道。但统计工具可以告诉我们
置信区间是多少,在最坏的情况下出错的概率多大(但我们也无法知道确切的概率,因
为我们无法知道确切的参数)。
正是因为抽象的 underlying model 是永远无法确切地估计,这个 model 才使得我们
能够基于已有的事实来认识到支配这些事实的规律,并且应用这些规律来做预测。任何
一个模型,一旦可以被确切估计并且可以被证明是正确的,就失去了意义,同时也就意
味着整个科学的终结(因为失去了可证伪性),甚至神学的终结(人和神在知上的绝对
差别消失了,同时可以推论出人和神在能上的绝对差别也消失了,所以人即神)。
从 Bayesian 的世界观来看,有个著名的问题,“明天太阳会继续升起么?”就是对这
个问题的一个很经典也很有趣的讨论。

【在 s******y 的大作中提到】
: 我倒,我觉得guest0是一个比较简单的概念错误,而你则是上纲上线的错误。
: 呵呵呵。我们这里只谈论统计上的正确问题,并不涉及什么国家决策人民生死
: 那么高档的东西。
: guest0的说法,我觉得他是把平均值和SEM在生物学里的意义搞错了。
: 具体怎么错我还不知道怎么说好。因为就是我以前说过一次那样,我们这种
: 纯粹的生物学家数学不是特别好,公式啥啥的我不知道怎么推导,很多是靠
: 直觉。所以大家千万不要逼我说我到底是就哪个公式提出来的结论。
: 其实对于一个群体,在群体数目是个有限数字的前提下(这个你可能没有考虑到),必
: 然存在一个绝对的可以精确得到的理论平均值,这个和群体里面的
: 个体的数据的离散性无关。

avatar
D*a
97
两个问题,
1你说得意义,并不是显著性,虽然我记得英语词significant 貌似是来源于统计,修
饰test结果,然后又有了意义的功能?举个例子,某药显著提高了某癌症病人寿命,提
高了三天,这个在统计上是显著的,但是在科学上是无意义的。我理解的对不?
2我理解的,可证伪性的意思,貌似不是说某个定理/规律什么的有一天会被证明错误,
而是说一个陈述如果被认为是科学的,那么这个陈述必须容许存在逻辑上的反例,而不
是一定要已经存在逻辑上的反例,我认为也并不代表某天一定会被推翻。否则所有科学
的论述都是错误的,这不是很荒谬么。可证伪性并不是已经被证伪,而是说逻辑上可以
被推翻,但不是说已经被推翻。
另外没看懂跟神学有啥关系。神学本身就是不可证伪的体系,因为“人无法理解神”是
一个逻辑上无法用反例驳倒的陈述。当然说“不科学”,不是一个贬义词,因为褒贬是
价值判断,但是科学不提供价值判断。

【在 l***y 的大作中提到】
: 呵呵,这就是我为什么说你的数学公式都是对的。但是统计思想和统计概念更重要。这
: 里涉及到的,一个是假设检验的思想,另一个是 model and sample 的概念。
: 假设检验的目的是帮助决策。所谓决策,就是 decision。比如说,下个结论,说有显
: 著区别,这个产生结论的过程就是一个决策。 我们时时刻刻都在做决策,小到一个标
: 点符号的选择,都算决策。而假设检验是为了给理性决策提供依据,却并不能代替决策
: 本身。这就是我提到的,假设检验本身并不能证明任何事情。
: 具体到 t-test 上。在统计意义上,我可以比较安全地认为,在所有情况下,只要 n
: 足够大,对任意两个分布采样后用 t-test 都可以计算出其均值有显著差异。做这样的
: 判断的错误概率相当小,尤其是在你说的这种群体数目有限的情况下。但这有意义么?
: 再进一步讲,一个判断的意义,在于其信息的含量。我做的上述判断,有信息含量么?

avatar
l*1
98
上图 SD its means
下图 SEM its mean
Btw,
降低 bias 就可能 增大 SEM的 error 拿测量甲地 乙地 女子的身高来作为例子
乙地的 习格格 陈小丹格格 的 身高 岂是 甲地的 芙蓉姐姐 凤姐等的身高 一样容
易测到的 哈 (NB: 钻 北方 南方地域贴的 请左拐 进菌版八区 在那里撸管)

pls refer
Sanjuan R.
From Molecular Genetics to Phylodynamics: Evolutionary Relevance of Mutation
Rates Across Viruses
PLoS Pathog. (2012) 8: e1002685.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3342999/
its pp5 left column
>To reducing bias, this method
accounts for phylogenetic relatedness (on the other hand, it
increases error because of the fewer estimates available for some
groups).
For Bayesian analysis of dated dsDNA, ssDNA and dsRNA viruses sequences
and SEM
pls refer its pp1 and 2 plus Fig. 2 b
Figure 2. Relationship between mutation and evolution rates
across viruses. Symbols for each Baltimore group are the same as in
Figure 1. a: evolution rates versus mutation rates for seven viruses (HSV-
1: herpes simplex virus 1; TMV: tobacco mosaic virus; AHBV: avian
hepatitis B virus; FLUVA: influenza A virus; HIV-1: human immunodeficiency
virus 1; PV-1: poliovirus 1; HCV: hepatitis C virus). b: log-scale
mean ∓SEM mutation and evolution rates for each Baltimore group.
The dotted line indicates the prediction from a purely neutral model,
whereas the dashed line corresponds to a model that incorporates
deleterious mutations.
------
ps: sunny 对协同共进化的mean 公式不感冒的话
还可以参考
Evolution. (2009) 63: 826-38.
Evolutionary epidemiology and the dynamics of adaptation.
full text PDF link:
//www.mast.queensu.ca/~tday/pdf/GandonDay2009.pdf

【在 s******y 的大作中提到】
: 我倒,我觉得guest0是一个比较简单的概念错误,而你则是上纲上线的错误。
: 呵呵呵。我们这里只谈论统计上的正确问题,并不涉及什么国家决策人民生死
: 那么高档的东西。
: guest0的说法,我觉得他是把平均值和SEM在生物学里的意义搞错了。
: 具体怎么错我还不知道怎么说好。因为就是我以前说过一次那样,我们这种
: 纯粹的生物学家数学不是特别好,公式啥啥的我不知道怎么推导,很多是靠
: 直觉。所以大家千万不要逼我说我到底是就哪个公式提出来的结论。
: 其实对于一个群体,在群体数目是个有限数字的前提下(这个你可能没有考虑到),必
: 然存在一个绝对的可以精确得到的理论平均值,这个和群体里面的
: 个体的数据的离散性无关。

avatar
s*y
99
我觉得你也太悲观了。
对于你说的那些问题,学术界的人都知道。
解决这些个问题的关键就是,下结论的时候不能滥用数据。
比方说(不好意思,又要用那个身高的例子了)。假如我们测量之后,发现甲地
的妇女的身高的平均值比乙地妇女的身高的平均值显著的大很多而且这个平均值
的差距大于SEM的三倍,那么我们就可以比较确信的认为,甲地妇女的平均身高
比乙地高。如果结论仅仅停留于此,那么是合理的,但是,在实践上,常常有人
会引申出这样的结论:甲地的妇女比乙地的高。这个就是滥用数据了。但是这个
并不是统计学的错,而是使用这些数据的人不求甚解的错。
这个可能也是为什么quest0人会认为SD才是正确的用法的原因,因为他可能认为,
如果甲地妇女在抽样的时候都统统比乙地的高,才能安全的认为甲地的妇女比乙地的高
?
但是问题就在于,首先,在实践上,尤其是在生物学上,这种情况基本上
是不存在的。比方说身高,总是有个例的。每个地方都有相对高和相对矮的人,
基本上肯定是会有重叠的部分的。如果拘泥于SD,那就什么结论都没有办法得
出来了。用了SEM, 至少可以安全的对平均值进行比较。当然,在进行比较的
同时要清醒的知道这个方法的limitation, 不能无限制的引申结论。
我猜你因为是数理出身的,所以对“结论引导决策”这个事情看得过重?
别的领域我不知道,但是在我所熟悉的生化和细胞生物领域里,如果强调
“结论引导决策”,反而是走火入魔。因为我反复强调过几次的就是,因为
细胞生化里面的条件比较复杂,而我们测试一个理论的时候往往必须采用
很多假说前提来对细胞系统进行简化,所以,在目前的情况下,是几乎没有
可能用任何结论来指导什么决策的。即使是看起来非常非常完美的数据,
也必须谨慎的加上很多前提,说是在什么什么情况下才能观察到那些情况的。

【在 l***y 的大作中提到】
: 呵呵,这就是我为什么说你的数学公式都是对的。但是统计思想和统计概念更重要。这
: 里涉及到的,一个是假设检验的思想,另一个是 model and sample 的概念。
: 假设检验的目的是帮助决策。所谓决策,就是 decision。比如说,下个结论,说有显
: 著区别,这个产生结论的过程就是一个决策。 我们时时刻刻都在做决策,小到一个标
: 点符号的选择,都算决策。而假设检验是为了给理性决策提供依据,却并不能代替决策
: 本身。这就是我提到的,假设检验本身并不能证明任何事情。
: 具体到 t-test 上。在统计意义上,我可以比较安全地认为,在所有情况下,只要 n
: 足够大,对任意两个分布采样后用 t-test 都可以计算出其均值有显著差异。做这样的
: 判断的错误概率相当小,尤其是在你说的这种群体数目有限的情况下。但这有意义么?
: 再进一步讲,一个判断的意义,在于其信息的含量。我做的上述判断,有信息含量么?

avatar
s*y
100
你说的那个standard error of the mean和standard error 的概念差别是对的。
但是我想原楼主应该是在问standard error of the mean,因为在生物圈里
要么就是用SD,要么就是用SEM. 很少有人用你说的那个经典概念里的SE

)
of

【在 a**m 的大作中提到】
: laugh
: lz was talking about standard error not standard error of the mean
: standard error is an estimate of standard deviation
: say, you cannot get the standard deviation of the height of chinese women,
: cuz you simply cannot sample all of them
: however, you can sample (btw, here "sample" refers to measure their height)
: 1000 of them and get the standard deviation, which, to be more technical,
: should be called the standard error.
: and this standard error is an unbiased estimate of the standard deviation of
: the height of chinese females.

avatar
l*y
101
1. 我还是比较倾向用 statistical significance 这个说法来描述一个判断的统计学
上的依据是否足够强,同时用 biological significance 来描述这个判断如果成立所
带来的影响有多大。在处理 microarray 数据筛选 DEG 时,用 volcano plot 来筛选
的依据就是要同时满足两类 significance。
2. 可证伪性有两重意思,一重是指永远无法被证明,另一重是永远容许被证伪。这两
重意思的本质是一样的。神学的很多模型并非不可被证伪,而是可以被证明,被证明后
不再容许被证伪。所以,可以容许被证伪的,不一定有科学意义上的可证伪性。这是和
科学模型的本质区别。
谈科学就必然要谈神学,因为这两套体系是互斥但互相依赖并且并行的,同时共用相同
的方法论体系和逻辑体系。不符合科学的模型常常就会落到神学去。科学的核心思想是
人类永远无法完全认知任何规律,这和神学在一定程度上是一致的。科学的最重要的手
段,用科学实验来证伪,就是基于这个核心思想的。相应的,神学的一个基本概念是人
和神的不可逾越的差异。在知上,体现为人永远无法完全认知任何规律,并且人永远无
法知道自己是否已对任何规律有了完全的认知。也就是说,人在知上是局限的,这局限
不在于人知道多少,而是在于人没有能力去完全认知任何规律。人认知知识,如同女奴
佩戴首饰,并没有所有权。所以对于任何一个哪怕再微不足道的规律,如果人可以完全
认知,就抹杀了人和神的根本差异,神学也就终结了。完全认知的这个规律同时可以成
为推演的起点,带来一系列不需实验验证,绝对正确,无可证伪的规律和模型,从而把
科学体系变成了神学体系,导致科学的终结。也是在这个意义上,数学体系更接近神学
体系,而不属于科学体系。这也是为什么我一再说,假设检验作为一种数学工具,不能
在科学上证明任何事情,否则就成为神学对科学的成功入侵了。
科学和神学的主要区分在于两点:一个是科学不需要也不关心神的存在和意义,而是用
hypothesis 来取代神学中的神的位置;另一个是科学是以归纳为基础的,神学是以演
绎为基础的,虽然在两个体系内两种方法都要用到。归纳可以证明错误(证伪),但只
有演绎能证明正确(证实)。其实除了科学实验以外,这两个体系算是双胞胎。
说句题外话,我喜欢科学,是因为科学的颠覆性,也就是所谓的革命性。一切都是未知
的,不确定的,可以质疑的。是永远的 adventure,没有任何可以当作家的舒适的地方
,除了各种攻击用的武器,没有任何东西可以依靠。而神学更像是一个宁静的家园和归
宿。科学需要的是古希腊悲剧中的那种骄傲的人性,而神学怎么说都多多少少需要一点
奴性。

【在 D*a 的大作中提到】
: 两个问题,
: 1你说得意义,并不是显著性,虽然我记得英语词significant 貌似是来源于统计,修
: 饰test结果,然后又有了意义的功能?举个例子,某药显著提高了某癌症病人寿命,提
: 高了三天,这个在统计上是显著的,但是在科学上是无意义的。我理解的对不?
: 2我理解的,可证伪性的意思,貌似不是说某个定理/规律什么的有一天会被证明错误,
: 而是说一个陈述如果被认为是科学的,那么这个陈述必须容许存在逻辑上的反例,而不
: 是一定要已经存在逻辑上的反例,我认为也并不代表某天一定会被推翻。否则所有科学
: 的论述都是错误的,这不是很荒谬么。可证伪性并不是已经被证伪,而是说逻辑上可以
: 被推翻,但不是说已经被推翻。
: 另外没看懂跟神学有啥关系。神学本身就是不可证伪的体系,因为“人无法理解神”是

avatar
s*y
102
这一点,其实也暗合我们前一阵子吵翻了天的有关生物学和数学合作的问题。
那就是学数理的人可能对生物学的落后情况不是那么了解,对生物学的进展
过于心急了。说穿了,大部分生物领域,其实都处于积累数据的阶段。
大部分结论都是不能用来指导决策的。如果有人诉你他的试验设计已经到了
那个牛叉程度,那么你反而要非常小心他是不是骗子。

【在 s******y 的大作中提到】
: 我觉得你也太悲观了。
: 对于你说的那些问题,学术界的人都知道。
: 解决这些个问题的关键就是,下结论的时候不能滥用数据。
: 比方说(不好意思,又要用那个身高的例子了)。假如我们测量之后,发现甲地
: 的妇女的身高的平均值比乙地妇女的身高的平均值显著的大很多而且这个平均值
: 的差距大于SEM的三倍,那么我们就可以比较确信的认为,甲地妇女的平均身高
: 比乙地高。如果结论仅仅停留于此,那么是合理的,但是,在实践上,常常有人
: 会引申出这样的结论:甲地的妇女比乙地的高。这个就是滥用数据了。但是这个
: 并不是统计学的错,而是使用这些数据的人不求甚解的错。
: 这个可能也是为什么quest0人会认为SD才是正确的用法的原因,因为他可能认为,

avatar
l*y
103
呵呵,我们说得不是同一个范畴的东西啊。我是工程出身的,所以可能视角不太一样。
对于你说的例子,model 是什么?Hypothesis 呢?Assumptions 呢?这是工程模型的
flowchart。
另一点,我说的可能不清楚。我的意思不是“结论引导决策”,而是“根据数据,依据
假设检验,作出一个下这个结论的决策”。 流程是:模型 -> 采样 -> 数据 -> 假设
检验 -> 决策 -> 结论。也就是经常提到的 hypothesis-driven research 的
flowchart。

【在 s******y 的大作中提到】
: 我觉得你也太悲观了。
: 对于你说的那些问题,学术界的人都知道。
: 解决这些个问题的关键就是,下结论的时候不能滥用数据。
: 比方说(不好意思,又要用那个身高的例子了)。假如我们测量之后,发现甲地
: 的妇女的身高的平均值比乙地妇女的身高的平均值显著的大很多而且这个平均值
: 的差距大于SEM的三倍,那么我们就可以比较确信的认为,甲地妇女的平均身高
: 比乙地高。如果结论仅仅停留于此,那么是合理的,但是,在实践上,常常有人
: 会引申出这样的结论:甲地的妇女比乙地的高。这个就是滥用数据了。但是这个
: 并不是统计学的错,而是使用这些数据的人不求甚解的错。
: 这个可能也是为什么quest0人会认为SD才是正确的用法的原因,因为他可能认为,

avatar
s*y
104
啊,我有点明白你的意思了:)
这么说吧,在大部分生物系统里,因为生物系统的复杂性和测量工具的制约,
我们在测量的时候经常是只能针对某一定参数来测量,而把其他本来也属于
系统内部的变量的因素近似性的作为偏差噪音来处理。最后导致的是得出的
数据分散性很高。在这种前提下,生物学家们在目前的工具所能达到的地步,
对策就是。。。鸵鸟政策加上盲人摸象政策。
首先,生物学家没有办法象你所希望的那样对此进行深究(实在是没有办法)
第二,在无法深究的前提下,他们只能采用多种方法来对同一对象进行测量,
就象一堆盲人去摸象,虽然各说各话,但是把他们所说的话都加到一起来,
大概也就是个大象的大体模样了。
所以你问的到底用什么方法来进行决定如何下结论?在生物学里,简单的
来说,一般都是采用最简单的方法来下结论,就是用鸵鸟政策,直接上
最简单直接的方法(一般就是用SEM),然后再采用多种方法进行验证。
虽然听起来很让人脸红,但是没有办法,这个就是生物学的现状。因为我们
连用guest0所希望的那个更stringent 的比较方法的余地都没有。就象我
说过的那样,如果我们一定要用SD的话,那么大部分生物学的研究就直接
不用去做了,因为两组数据之间几乎肯定达不到那么大的差别。



【在 l***y 的大作中提到】
: 呵呵,我们说得不是同一个范畴的东西啊。我是工程出身的,所以可能视角不太一样。
: 对于你说的例子,model 是什么?Hypothesis 呢?Assumptions 呢?这是工程模型的
: flowchart。
: 另一点,我说的可能不清楚。我的意思不是“结论引导决策”,而是“根据数据,依据
: 假设检验,作出一个下这个结论的决策”。 流程是:模型 -> 采样 -> 数据 -> 假设
: 检验 -> 决策 -> 结论。也就是经常提到的 hypothesis-driven research 的
: flowchart。

avatar
l*1
105
flowchat工程计算学已经进入了 Histone modification and cytosine methylation
of Genome, 新的交叉学科 系统人工基因组生物信息学 已经诞生了吧 Lol
pls refer
>XXX lab studys causal relationships between gene regulation and cellular >
behaviors, by developing computational and experimental methods on >network
modeling, stem cell engineering, epigenomic and single-cell >analyses.
>Cell, 149: 1381-1391
>http://bioinformatics.bioen.illinois.edu/index.html

【在 s******y 的大作中提到】
: 啊,我有点明白你的意思了:)
: 这么说吧,在大部分生物系统里,因为生物系统的复杂性和测量工具的制约,
: 我们在测量的时候经常是只能针对某一定参数来测量,而把其他本来也属于
: 系统内部的变量的因素近似性的作为偏差噪音来处理。最后导致的是得出的
: 数据分散性很高。在这种前提下,生物学家们在目前的工具所能达到的地步,
: 对策就是。。。鸵鸟政策加上盲人摸象政策。
: 首先,生物学家没有办法象你所希望的那样对此进行深究(实在是没有办法)
: 第二,在无法深究的前提下,他们只能采用多种方法来对同一对象进行测量,
: 就象一堆盲人去摸象,虽然各说各话,但是把他们所说的话都加到一起来,
: 大概也就是个大象的大体模样了。

avatar
l*y
106
是啊是啊。我倾向于用假设检验作为对自己的保护,规避那些可能把自己做得求生不能
求死不成的方向上去。当今的学术环境实在是逼着人滥用统计工具,追求 full story
,追求完美数据,否则 reviewers 那一关过不去。结果把生物和统计的名声都搞差了。
我还是看好 bio-question -> general hyp -> general model -> phenotypic
validation/proof of concept -> high-throughput multi-omics -> specific hyp -
> specific model -> expt design -> parameter estimation & model construction
-> simulation & predictions -> expt validation -> applications 这条路。而且
因为工程背景,同时接触病人比较多,我更希望能够在 applications 上有很 solid
的结果。
养细胞的时候常在想,提供这个细胞的病人,他的家人们,我认识,聊过天,听他们谈
过对自己的病的恐惧和困惑,以及他们还没来得及实现的很多梦想。对他们知道的越多
,心里的压力越大,很难有应该的超然态度。

【在 s******y 的大作中提到】
: 啊,我有点明白你的意思了:)
: 这么说吧,在大部分生物系统里,因为生物系统的复杂性和测量工具的制约,
: 我们在测量的时候经常是只能针对某一定参数来测量,而把其他本来也属于
: 系统内部的变量的因素近似性的作为偏差噪音来处理。最后导致的是得出的
: 数据分散性很高。在这种前提下,生物学家们在目前的工具所能达到的地步,
: 对策就是。。。鸵鸟政策加上盲人摸象政策。
: 首先,生物学家没有办法象你所希望的那样对此进行深究(实在是没有办法)
: 第二,在无法深究的前提下,他们只能采用多种方法来对同一对象进行测量,
: 就象一堆盲人去摸象,虽然各说各话,但是把他们所说的话都加到一起来,
: 大概也就是个大象的大体模样了。

avatar
h*o
107
偏题一下
你这个问题1,如果统计出来能提高3天,那就是显著意义,不管是统计学还是生物学
统计本身没有biased,而且如果统计学上能达到significance,这也已经考虑到对比的
2组 自身的basal level (Mean)以及自身数据的分布情况(STDEV)
同样以你的3天抗癌来作比较
考虑到人体自身的情况,统计学上要达到延长3天人类寿命,那么n=?几乎要到无穷大
,所
以如果很小的n能达到这样的结果,当然有意义。
换个模型,如果对象本身生命就很短,统计学上的3天还是有biological significance
统计学并不考虑你所做的biological significance,但是他是对这个结果作出最可靠
的estimate,所以如果能达到statistical significance, 那么就表明在这个统计模
型适用的情况下,对你研究的生物模型有了比较准确的estimate。
简单的来说 你所举的3天的抗癌效果,统计学有效而生物学无意义的例子在真实情况下
是基本不会出现的 (前提是用的正确的统计方法,和正确的采样方式)

【在 D*a 的大作中提到】
: 两个问题,
: 1你说得意义,并不是显著性,虽然我记得英语词significant 貌似是来源于统计,修
: 饰test结果,然后又有了意义的功能?举个例子,某药显著提高了某癌症病人寿命,提
: 高了三天,这个在统计上是显著的,但是在科学上是无意义的。我理解的对不?
: 2我理解的,可证伪性的意思,貌似不是说某个定理/规律什么的有一天会被证明错误,
: 而是说一个陈述如果被认为是科学的,那么这个陈述必须容许存在逻辑上的反例,而不
: 是一定要已经存在逻辑上的反例,我认为也并不代表某天一定会被推翻。否则所有科学
: 的论述都是错误的,这不是很荒谬么。可证伪性并不是已经被证伪,而是说逻辑上可以
: 被推翻,但不是说已经被推翻。
: 另外没看懂跟神学有啥关系。神学本身就是不可证伪的体系,因为“人无法理解神”是

avatar
s*y
108
哎,我也不知道该如何安慰你。因为我和你有很类似的疑虑,而且我虽然
对自己的生死比较淡然,对于别人的生死也是比较看不穿的。以前我几个
亲人和朋友过世的时候,都让我压郁了半年乃至两三年不等。
幸好我自己不直接接触病人,没有你那么多的精神压力。
对于来源复杂的大规模数据,尤其是病人身上来源的数据,的确是用一些
比较严格的方法来验证,对自己的良心比较过得去。在这个方面我赞同你的意见。
我现在选择做细胞和生化,也主要是因为这个比较好办,爱怎么测试就怎么测试。
细胞死了就死了,直接扔了再养一盘。但是同样的事情,在老鼠身上下手我就
已经开始有点不忍了。要是把一个病人搞死了,我估计会得忧郁症以后就没有
办法再工作了。

story
了。
-
construction

【在 l***y 的大作中提到】
: 是啊是啊。我倾向于用假设检验作为对自己的保护,规避那些可能把自己做得求生不能
: 求死不成的方向上去。当今的学术环境实在是逼着人滥用统计工具,追求 full story
: ,追求完美数据,否则 reviewers 那一关过不去。结果把生物和统计的名声都搞差了。
: 我还是看好 bio-question -> general hyp -> general model -> phenotypic
: validation/proof of concept -> high-throughput multi-omics -> specific hyp -
: > specific model -> expt design -> parameter estimation & model construction
: -> simulation & predictions -> expt validation -> applications 这条路。而且
: 因为工程背景,同时接触病人比较多,我更希望能够在 applications 上有很 solid
: 的结果。
: 养细胞的时候常在想,提供这个细胞的病人,他的家人们,我认识,聊过天,听他们谈

avatar
a*m
109
If you only know how to get sem from the output of a software rather than
really understand what that means (also arrogantly pointed out something
right to be wrong) you should go and do some STAT 101 review. What I said
was right--I was talking about standard error whereas standard error of the
mean is a more specific lineage of the topic.

额地个神啊,请无视这个帖子。。。概念问题不懂的找书,找不着书也可以google个
wiki了解个大概
★ Sent from iPhone App: iReader Mitbbs Lite 7.56

【在 t******g 的大作中提到】
: 额地个神啊,请无视这个帖子。。。
: 概念问题不懂的找书,找不着书也可以google个wiki了解个大概
:
: )
: of

avatar
a*m
110
Being unbiased means that the estimate from the sample space is equal to the
real value in the entire population. The true value derived from the sample
population (here the standard error) might be inaccurate depending on size
of the samples.

为什么就是 unbiased estimate了?那我要是取了五个样本,同样可以得出一个SD啊。
当然我们大家都会说五个不够。但是从统计学上怎么理解最后一句话“ this sta.....
...
★ Sent from iPhone App: iReader Mitbbs Lite 7.56

【在 D*a 的大作中提到】
: 为什么就是 unbiased estimate了?那我要是取了五个样本,同样可以得出一个SD啊。
: 当然我们大家都会说五个不够。但是从统计学上怎么理解最后一句话“ this standard
: error is an unbiased estimate of the standard deviation of the height of
: chinese females.”?
:
: )
: of

avatar
l*s
111
好Deep啊,崇拜ing

【在 l***y 的大作中提到】
: 1. 我还是比较倾向用 statistical significance 这个说法来描述一个判断的统计学
: 上的依据是否足够强,同时用 biological significance 来描述这个判断如果成立所
: 带来的影响有多大。在处理 microarray 数据筛选 DEG 时,用 volcano plot 来筛选
: 的依据就是要同时满足两类 significance。
: 2. 可证伪性有两重意思,一重是指永远无法被证明,另一重是永远容许被证伪。这两
: 重意思的本质是一样的。神学的很多模型并非不可被证伪,而是可以被证明,被证明后
: 不再容许被证伪。所以,可以容许被证伪的,不一定有科学意义上的可证伪性。这是和
: 科学模型的本质区别。
: 谈科学就必然要谈神学,因为这两套体系是互斥但互相依赖并且并行的,同时共用相同
: 的方法论体系和逻辑体系。不符合科学的模型常常就会落到神学去。科学的核心思想是

avatar
H*i
112
可以,但是只有当你重复估算5个样本的SD这个动作很多次后,得到S1 S2 S3。。。
他们的均值会逐渐趋近总体的SD。
也就是样本得到的S的期望是SD。
另外楼上的很多讨论弄得SE和SEM都要混起来了。。
SE是实验(系统)本身的性质(噪音),做多少实验期望(真实的SD)都是不变的
SEM反应样本平均值离真实值的精确程度,当样本量无限大的时候,期望是0.
现在文章里一般都标单独的+-SEM,有时候只有3组实验,我觉得就是误导,样本够大时
候,95%区间的系数还是1.96呢。。

standard

【在 D*a 的大作中提到】
: 为什么就是 unbiased estimate了?那我要是取了五个样本,同样可以得出一个SD啊。
: 当然我们大家都会说五个不够。但是从统计学上怎么理解最后一句话“ this standard
: error is an unbiased estimate of the standard deviation of the height of
: chinese females.”?
:
: )
: of

avatar
l*y
113
病人的 sample 搞得我都快抑郁了。那真是千人千面啊。没有二十个以上的 sample 基
本什么都看不到,尤其是 subtypes 不很清晰的病,没有一两百的 samples 做前期的
subtyping,后面基本上很难做出能够说服自己的工作。
倒不担心病人的预后 -- 本来就是绝症,而且目前不用给医生提供诊断和治疗意见。有
个同事跟医生合作,用 SNP array 做 subtyping 来协助医生诊断和给药,
classification 时,对于不很清晰的那些病人,就很有压力。就怕已经给病人上药了
,换种算法,发现其实病人更可能属于另一种 subtype,应该换药。虽然道理上知道总
有这样的情况,心理上还是挺受冲击。这些 p-value 什么的,背后往往就是一个病人
的生死。

【在 s******y 的大作中提到】
: 哎,我也不知道该如何安慰你。因为我和你有很类似的疑虑,而且我虽然
: 对自己的生死比较淡然,对于别人的生死也是比较看不穿的。以前我几个
: 亲人和朋友过世的时候,都让我压郁了半年乃至两三年不等。
: 幸好我自己不直接接触病人,没有你那么多的精神压力。
: 对于来源复杂的大规模数据,尤其是病人身上来源的数据,的确是用一些
: 比较严格的方法来验证,对自己的良心比较过得去。在这个方面我赞同你的意见。
: 我现在选择做细胞和生化,也主要是因为这个比较好办,爱怎么测试就怎么测试。
: 细胞死了就死了,直接扔了再养一盘。但是同样的事情,在老鼠身上下手我就
: 已经开始有点不忍了。要是把一个病人搞死了,我估计会得忧郁症以后就没有
: 办法再工作了。

avatar
s*n
114
Use SD. Never use SEM, which makes no sense.
avatar
l*1
115
老大 不是等号 吧
posterior ∝ likelihood x prior
web link:
http://www.roma1.infn.it/~dagos/rpp/node9.html
from Online lecture: "Bayesian Inference in Processing Experimental Data
Principles and Basic Applications"
byy G. D'Agostini
Università La Sapienza'and INFN, Roma
web link:
http://www.roma1.infn.it/~dagos/rpp/

【在 s******s 的大作中提到】
: 我就不说sampling那些好玩的东西了。就算bayesian第一门课就要学的
: posterior = prior x likelihood, 这玩意儿念过prob101就会推导的
: 东西,完全是博大精深啊:小到对parameter的理解,大到科学方法论和
: 对世界的理解。又比如作为理科生怎么理解racial profile这类问题。
: 贝叶斯强就强在这个基石理论连高中生都能推导的出。

avatar
l*1
116
生物统计的入门教材之一 哈 of course english version:
http://www.roma1.infn.it/~dagos/rpp/
Introduction
Uncertainty and probability
Rules of probability
Probability of simple propositions
Probability of complete classes
Probability rules for uncertain variables
Bayesian inference for simple problems
Background information
Bayes' theorem
Inference for simple hypotheses
Inferring numerical values of physics quantities -- General ideas and basic
examples
Bayesian inference on uncertain variables and posterior characterization
Gaussian model
Binomial model
Poisson model
ignored
Conclusions
References
------
Gaussian model post-genome 应用之一
Ma s et al. (2007)
An Arabidopsis gene network based on the graphical Gaussian model.
Genome Res.17: 1614-25.
ncbi PubMed link:
http://www.ncbi.nlm.nih.gov/pubmed/17921353

【在 s******s 的大作中提到】
: 不过SD还是有点意义的。
: 比如,你可以用se说两个population有区别。但是,进一步,很可能
: 别人要求给你一个个体,predict是哪一个population的,那么SD的大
: 小就对这样的prediction是否有意义比较重要了

avatar
l*1
117
老大 不是等号 吧
posterior ∝ likelihood x prior
web link:
http://www.roma1.infn.it/~dagos/rpp/node9.html
from Online lecture: "Bayesian Inference in Processing Experimental Data
Principles and Basic Applications"
byy G. D'Agostini
Università La Sapienza'and INFN, Roma
web link:
http://www.roma1.infn.it/~dagos/rpp/

【在 s******s 的大作中提到】
: 我就不说sampling那些好玩的东西了。就算bayesian第一门课就要学的
: posterior = prior x likelihood, 这玩意儿念过prob101就会推导的
: 东西,完全是博大精深啊:小到对parameter的理解,大到科学方法论和
: 对世界的理解。又比如作为理科生怎么理解racial profile这类问题。
: 贝叶斯强就强在这个基石理论连高中生都能推导的出。

avatar
l*1
118
Standard error of mean (SEM)
Dynamics of cortical actin in budding yeast Saccharomyces cerevisiae
Dissertation zur Erlangung des Doktorgrades
Der Fakultät für Chemie und Pharmazie
der Ludwig-Maximilian-Universität München (2010).
web link:
Http://edoc.ub.uni-muenchen.de/11423/1/Yu_Haochen.pdf
or
Higgs PG
Error thresholds and stationary mutant distributions in multilocus diploid
genetics models (1994)
Genet. Res. Cambridge 63: 63-78.
web link
//siba.unipv.it/fisica/articoli/G/GeneticalResearch1994_63_1_63.pdf
avatar
j*1
119
那就发不了CNS了

【在 l*******e 的大作中提到】
: 这个问题我也想了下,我认为统计本身是客观的,“相对”准确的。
: 但是,搞生物的人做了10次试验,最后非常“精心地”找出了自己喜欢的3个结果,统
: 计的结果(P,R,Q,X^2啥的)都是基于这3个自己喜欢的结果的。所以统计结果非常
: 好看。
: 第二个人随机做一次试验,就重复不出来啦,原因是第一个人的做法就是违背统计学的
: 初衷的,第一个人应该统计所有10次试验的结果的。

avatar
i*r
120
mark
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。