Redian新闻
>
为什么我极端厌恶很多做生物的说什么hypothesis driven
avatar
为什么我极端厌恶很多做生物的说什么hypothesis driven# Biology - 生物学
w*s
1
办过的说说吧.
Thx in advance!
avatar
c*d
2
现代科学证明,data driven才是科学的出路,hypothesis driven最终都归于自圆其说
,胡编乱造,坑蒙拐骗。很多差的十万八千里的东西,为了发paper,搞funding,就不
要脸跟这个原理,那个pathway扯上关系。
看到很多biologist,搞来搞去,总要来一句,u gotta have a hypothesis.我就觉得
不自觉的恶心。不知道为啥。
avatar
c*d
3
NIH那班老儒们,还非要grant里面有变态的hypothesis。
avatar
l*e
4
不知道为啥。
because you don't get it -
回炉 重修 -

【在 c******d 的大作中提到】
: 现代科学证明,data driven才是科学的出路,hypothesis driven最终都归于自圆其说
: ,胡编乱造,坑蒙拐骗。很多差的十万八千里的东西,为了发paper,搞funding,就不
: 要脸跟这个原理,那个pathway扯上关系。
: 看到很多biologist,搞来搞去,总要来一句,u gotta have a hypothesis.我就觉得
: 不自觉的恶心。不知道为啥。

avatar
c*d
5
有意思么,与道理就说道理。
重修就不必了,坑人的烂坑,我是跳出来了。这是觉得这么多人在坑蒙拐骗,这个行业
迟早要完蛋。

【在 l******e 的大作中提到】
: 不知道为啥。
: because you don't get it -
: 回炉 重修 -

avatar
t*l
6
什么hypothesis都没有的话,你怎么开始实验,怎么计划下一步实验?data怎么drive
?不还是得有一个想法或思路,也就是一个hypothesis吗?关键是别太把hypothesis当
回事,要随时根据data做出修正。
avatar
l*y
7
good point.

【在 c******d 的大作中提到】
: 现代科学证明,data driven才是科学的出路,hypothesis driven最终都归于自圆其说
: ,胡编乱造,坑蒙拐骗。很多差的十万八千里的东西,为了发paper,搞funding,就不
: 要脸跟这个原理,那个pathway扯上关系。
: 看到很多biologist,搞来搞去,总要来一句,u gotta have a hypothesis.我就觉得
: 不自觉的恶心。不知道为啥。

avatar
c*d
8
不是说不能有hypothesis,但不能完全hypothesis driven。data应该是处于研究的核
心,而不是什么乱七八糟的这样那样的假设。

drive

【在 t*********l 的大作中提到】
: 什么hypothesis都没有的话,你怎么开始实验,怎么计划下一步实验?data怎么drive
: ?不还是得有一个想法或思路,也就是一个hypothesis吗?关键是别太把hypothesis当
: 回事,要随时根据data做出修正。

avatar
y*n
9
你只听到了一半,完整的应该是
u gotta have a hypothesis based on the data...LOL

【在 c******d 的大作中提到】
: 现代科学证明,data driven才是科学的出路,hypothesis driven最终都归于自圆其说
: ,胡编乱造,坑蒙拐骗。很多差的十万八千里的东西,为了发paper,搞funding,就不
: 要脸跟这个原理,那个pathway扯上关系。
: 看到很多biologist,搞来搞去,总要来一句,u gotta have a hypothesis.我就觉得
: 不自觉的恶心。不知道为啥。

avatar
t*l
10
当然得是hypothesis driven. 你制造那么些data干什么用?数据本身是没有意义的,
数据只有在对不同的hypotheses提供支持或否定时才产生了意义。科研的最终目的是把
你的hypothesis修正成理论,而不是为了产生大量乱七八糟的data。

【在 c******d 的大作中提到】
: 不是说不能有hypothesis,但不能完全hypothesis driven。data应该是处于研究的核
: 心,而不是什么乱七八糟的这样那样的假设。
:
: drive

avatar
w*a
11
这东西看你怎么看了,data只要是客观的,reproducible的,就是有意义的。不match这
个hypothesis,总会match那个。
过分强调hypothesis driven导致很多垃圾data publish出来而无法重复,
害人害己。

【在 t*********l 的大作中提到】
: 当然得是hypothesis driven. 你制造那么些data干什么用?数据本身是没有意义的,
: 数据只有在对不同的hypotheses提供支持或否定时才产生了意义。科研的最终目的是把
: 你的hypothesis修正成理论,而不是为了产生大量乱七八糟的data。

avatar
s*a
12
应该是vision driven吧。没vision的话,连要朝哪个方向去收集data都不清楚啊。
avatar
b*n
13
这个太绝对了
纯data本身也是有信息的,看你怎么分析
如果是屁data,的确分析不出什么牛逼的东西来,但好处就是这些屁data不会被过分夸张
另外分析data的人也不会傻到把手上所有的data一次用完,可能会分一部分出来用于建
立模型,剩下的用于分析验证
hypothesis driven更像是演绎法
而data driven是归纳法
现在的主流趋势太看重演绎了,导致很多结论不能重复

【在 t*********l 的大作中提到】
: 当然得是hypothesis driven. 你制造那么些data干什么用?数据本身是没有意义的,
: 数据只有在对不同的hypotheses提供支持或否定时才产生了意义。科研的最终目的是把
: 你的hypothesis修正成理论,而不是为了产生大量乱七八糟的data。

avatar
D*a
14
推荐楼主 猜想与反驳 和 科学革命的结构。
avatar
I*a
15
跟楼主差不多,
每次听到hypothesis就想吐,
hypothesis driven让人有挑拣数据倾向
avatar
m*6
16
lz的意思就是要有好的rationale
avatar
s*2
17
说的好。

【在 c******d 的大作中提到】
: 现代科学证明,data driven才是科学的出路,hypothesis driven最终都归于自圆其说
: ,胡编乱造,坑蒙拐骗。很多差的十万八千里的东西,为了发paper,搞funding,就不
: 要脸跟这个原理,那个pathway扯上关系。
: 看到很多biologist,搞来搞去,总要来一句,u gotta have a hypothesis.我就觉得
: 不自觉的恶心。不知道为啥。

avatar
w*e
18
John Sulston干了两件纯data driven的大事: 线虫的 Cell lineage 和人类(先是线
虫)的基因组。
avatar
C*I
19
完全同意!如果没有足够量的原始data,有意义的hypothesis根本无从谈起。单纯强调
hypotehsis-driven,其实就是预先在研究结论中过多引入主观意志,会导致很多类似
于“青蛙听觉在腿上”的研究报告。

夸张

【在 b*******n 的大作中提到】
: 这个太绝对了
: 纯data本身也是有信息的,看你怎么分析
: 如果是屁data,的确分析不出什么牛逼的东西来,但好处就是这些屁data不会被过分夸张
: 另外分析data的人也不会傻到把手上所有的data一次用完,可能会分一部分出来用于建
: 立模型,剩下的用于分析验证
: hypothesis driven更像是演绎法
: 而data driven是归纳法
: 现在的主流趋势太看重演绎了,导致很多结论不能重复

avatar
t*2
20
有hypothesis倒不是不对,只是后来自圆其说的过程就比较恶心了,就造成了凡
hypothesis没有不正确的情况,都是按照老板的意愿来拿结果,拿不到想要的结果,就
让你重作,直到拿到为止。。。。
avatar
p*e
21
agree

【在 t*********l 的大作中提到】
: 当然得是hypothesis driven. 你制造那么些data干什么用?数据本身是没有意义的,
: 数据只有在对不同的hypotheses提供支持或否定时才产生了意义。科研的最终目的是把
: 你的hypothesis修正成理论,而不是为了产生大量乱七八糟的data。

avatar
s*l
22
俺最近一个小grant被据,其中一个reviewer说我没有hypothesis.
avatar
s*8
23
your intuition or imagination could be hypothesis, then you collect data to
prove it or disprove it.

【在 c******d 的大作中提到】
: 现代科学证明,data driven才是科学的出路,hypothesis driven最终都归于自圆其说
: ,胡编乱造,坑蒙拐骗。很多差的十万八千里的东西,为了发paper,搞funding,就不
: 要脸跟这个原理,那个pathway扯上关系。
: 看到很多biologist,搞来搞去,总要来一句,u gotta have a hypothesis.我就觉得
: 不自觉的恶心。不知道为啥。

avatar
D*n
24
it is always
(data,experience,chance,random observations) --> hypothesis ---> Design of
Experiment --> Experiment and generate lots of data ---> prove or disprove
hypothesis.
so there is nothing wrong with hypothesis-driven. Not getting credited by
disproving/proving a hypothesis (depends on which is more scientifically
interesting or publishable) is the culprit. People have to find all means to
prove it is true/wrong by only showing favoring results or even fabricating
data.
On the other hand, without proper set up of the above flow, making conlusion
just based on some data quirks will be fallible. In statistics, it is
called "data scooping"(e.g. when doing multiple comparision).

【在 c******d 的大作中提到】
: 现代科学证明,data driven才是科学的出路,hypothesis driven最终都归于自圆其说
: ,胡编乱造,坑蒙拐骗。很多差的十万八千里的东西,为了发paper,搞funding,就不
: 要脸跟这个原理,那个pathway扯上关系。
: 看到很多biologist,搞来搞去,总要来一句,u gotta have a hypothesis.我就觉得
: 不自觉的恶心。不知道为啥。

avatar
D*a
25
倒是想知道现在的data driven的都drive到什么地方去了,如果还没有drive到什么地
方去,那么data如何才能drive到什么地方去?
avatar
s*h
26
I hate hypothesis driven too.
avatar
z*9
27
The hypothesis driven is most efficient way, at least in terms of
productivity. However, since science has already became industrialized, tons
of examples there shown that PIs are turned to tweak the data to prove
their ideas.
avatar
z*9
28
BTW, I always heard that science does not prove anything, just discovering
the truth.
avatar
t*a
29
+1

【在 t*********l 的大作中提到】
: 当然得是hypothesis driven. 你制造那么些data干什么用?数据本身是没有意义的,
: 数据只有在对不同的hypotheses提供支持或否定时才产生了意义。科研的最终目的是把
: 你的hypothesis修正成理论,而不是为了产生大量乱七八糟的data。

avatar
l*y
30
有没有听说过 alternative hypotheses? Single hypothesis 本来就是有问题的。
至于 data-driven -- 没有 hypotheses,往哪里 driven?
所以貌似 lz 没有搞清楚 data 和 knowledge 的区别,应该不是从事 data mining /
bioinformatics 这些天天跟海量数据打交道的方向的。那又奢谈什么 data-driven?
比如说,我现在手头就有 19 万组数据,每组几个 MB。每种数据对应三类刺激,多个
时间点,十几种细胞,七八个不同的 control,一堆的外部 annotation databases。
没有几个 hypotheses,都不知道该先处理哪些,做哪些分析,control 和
normalization 都用什么策略,该怎么做 fast prototyping。
所以呢,凭想象说什么 data-driven,不过空谈而已。叶公好龙,等真见了龙就明白了
。等到真正拿到几个硬盘的数据要你一个月出报告,就知道 hypothesis driven 的重
要性了。

【在 c******d 的大作中提到】
: 现代科学证明,data driven才是科学的出路,hypothesis driven最终都归于自圆其说
: ,胡编乱造,坑蒙拐骗。很多差的十万八千里的东西,为了发paper,搞funding,就不
: 要脸跟这个原理,那个pathway扯上关系。
: 看到很多biologist,搞来搞去,总要来一句,u gotta have a hypothesis.我就觉得
: 不自觉的恶心。不知道为啥。

avatar
b*n
31
你以为那些epidemiology做的调查最后都掉坑里去了?

【在 D*a 的大作中提到】
: 倒是想知道现在的data driven的都drive到什么地方去了,如果还没有drive到什么地
: 方去,那么data如何才能drive到什么地方去?

avatar
b*n
32
你把生物学的hypothesis的验证方法和统计学的hypothesis的验证方法混为一谈了。
data snooping的原因就是对于data的过分解释,这就是hypothesis driven的一个弊端。
另外没有你所说的这个flow,一样可以做出伟大的科学。不少药物在上市之后若干年都
不知道具体的作用机理如何,根本就不需要对它的作用机理提出任何hypothesis并进行
验证,但是这不影响这个药物的应用,比如aspirin.同样,流行病学调查也是可以没有
hypothesis的,但是这些调查数据一样可以提供有用的信息。

to
fabricating
conlusion

【在 D******n 的大作中提到】
: it is always
: (data,experience,chance,random observations) --> hypothesis ---> Design of
: Experiment --> Experiment and generate lots of data ---> prove or disprove
: hypothesis.
: so there is nothing wrong with hypothesis-driven. Not getting credited by
: disproving/proving a hypothesis (depends on which is more scientifically
: interesting or publishable) is the culprit. People have to find all means to
: prove it is true/wrong by only showing favoring results or even fabricating
: data.
: On the other hand, without proper set up of the above flow, making conlusion

avatar
b*n
33
你这个也是把生物学的hypothesis和统计学的hypothesis混为一谈
统计学里的hypothesis必然有alternative hypothesis,reject其中一个就要接受另一
个。但是你让生物学PI们把自己苦心孤诣搞出来的central hypothesis reject掉试试
?他不跟你吹胡子瞪眼才怪呢。
所以,统计学里的hypotheses是中性的,无论接受也好拒绝也好,对于PI来说都是可以
接受的。但是现在生物学研究的hypothesis几乎变成了需要加以验证的潜在真理,导致
为了证明hypothesis而manipulate data(你看,data manipulation在统计学和生物学
里的意义也不同吧),这是楼主发的原贴的主要原因。

/

【在 l***y 的大作中提到】
: 有没有听说过 alternative hypotheses? Single hypothesis 本来就是有问题的。
: 至于 data-driven -- 没有 hypotheses,往哪里 driven?
: 所以貌似 lz 没有搞清楚 data 和 knowledge 的区别,应该不是从事 data mining /
: bioinformatics 这些天天跟海量数据打交道的方向的。那又奢谈什么 data-driven?
: 比如说,我现在手头就有 19 万组数据,每组几个 MB。每种数据对应三类刺激,多个
: 时间点,十几种细胞,七八个不同的 control,一堆的外部 annotation databases。
: 没有几个 hypotheses,都不知道该先处理哪些,做哪些分析,control 和
: normalization 都用什么策略,该怎么做 fast prototyping。
: 所以呢,凭想象说什么 data-driven,不过空谈而已。叶公好龙,等真见了龙就明白了
: 。等到真正拿到几个硬盘的数据要你一个月出报告,就知道 hypothesis driven 的重

avatar
P*D
34
做统计的表示你说的这个是症结所在。
不光你们反复做实验觉得恶心,我们被你们的老板们逼着把同一数据用不同方法翻来覆
去分析也很恶心。

【在 t*****2 的大作中提到】
: 有hypothesis倒不是不对,只是后来自圆其说的过程就比较恶心了,就造成了凡
: hypothesis没有不正确的情况,都是按照老板的意愿来拿结果,拿不到想要的结果,就
: 让你重作,直到拿到为止。。。。

avatar
g*l
35
呵呵谁说不是,有些数据postdoc1分析不出来,然后走人了,接着老板让postdoc2分析
,换一种方法嘛,总会有点变化。

【在 P****D 的大作中提到】
: 做统计的表示你说的这个是症结所在。
: 不光你们反复做实验觉得恶心,我们被你们的老板们逼着把同一数据用不同方法翻来覆
: 去分析也很恶心。

avatar
b*n
36
这个倒没啥
本来每一批数据都有不同,另外实际当中数据的噪音也很大
做统计的就是要找到更好的方法来分析数据
当然如果是一堆屎data非要包装成牛逼轰轰的,那确实很恶心。

【在 P****D 的大作中提到】
: 做统计的表示你说的这个是症结所在。
: 不光你们反复做实验觉得恶心,我们被你们的老板们逼着把同一数据用不同方法翻来覆
: 去分析也很恶心。

avatar
P*D
37
“做统计的就是要找到更好的方法来分析数据”这是当然,但是手段不能是通过反复分
析同一数据来得到。统计学不是这么发展的。
另外那些恶心PI的目的可从来不是“帮助统计学发展”。

【在 b*******n 的大作中提到】
: 这个倒没啥
: 本来每一批数据都有不同,另外实际当中数据的噪音也很大
: 做统计的就是要找到更好的方法来分析数据
: 当然如果是一堆屎data非要包装成牛逼轰轰的,那确实很恶心。

avatar
F*Q
38
从纯学术角度来看,hypothesis driven 本身似乎问题没那么大.真正的问题在于"形
而上学",有很多人倾向于把 hypothesis 当教条.在他们看来,任何data 都得按
hypothesis 去解释,hypothesis解释不了的数据就不是好数据,和hypothesis相冲突
的数据一定是错误的.尤其是这些问题往往还受现实名利左右.

【在 c******d 的大作中提到】
: 现代科学证明,data driven才是科学的出路,hypothesis driven最终都归于自圆其说
: ,胡编乱造,坑蒙拐骗。很多差的十万八千里的东西,为了发paper,搞funding,就不
: 要脸跟这个原理,那个pathway扯上关系。
: 看到很多biologist,搞来搞去,总要来一句,u gotta have a hypothesis.我就觉得
: 不自觉的恶心。不知道为啥。

avatar
h*1
39
有的人假说和结果符合得天衣无缝,每次都是这样.
我不知道是应该佩服这种人,还是应该鄙视他.
avatar
l*y
40
首先,两种 hypothesis 本质上是一样的,而且实际上也经常根据 bio hypothesis 来
设计 hypothesis for statistical test。
另外,alternative hypotheses 早就在生物学中广泛应用了。而且作为方法论,
alternative hypotheses 并不限于生物学,别的学科一样适用。以前就推荐过 Platt
1964 年发在 Science 上的这篇文章:
http://256.com/gray/docs/strong_inference.html
这是当年做 PhD 时老板要求组里每个人都读的。文章写得很精彩。Hypothesis-driven
research 分两个流派,一个是 multi-hypothesis,一个是 single hypothesis。前
者在生物学上用得比较多,后者有时见于理论物理。其实仔细回想一下,很多情况下虽
然没有意识到,但思考问题和设计实验时,用的其实就是 multi-hypothesis。
统计上就更不用说了,满眼都是 multi-hypothesis。例如,multi-test 的本质就是
multi-hypothesis。比如说分析 microarray 的数据,找出 differentially
expressed genes,就是用得一组 (几万对) hypotheses: {H_oi: the variation of
gene_i is due to randomacy |H_1i: the math expectation of gene_i is
different from the majority}
抄一段 Platt 的文章在这里:
Strong inference consists of applying the following steps to every problem
in science, formally and explicitly and regularly:
- Devising alternative hypotheses;
- Devising a crucial experiment (or several of them), with alternative
possible outcomes, each of which will, as nearly is possible, exclude one or
more of the hypotheses;
- Carrying out the experiment so as to get a clean result;
- Recycling the procedure, making subhypotheses or sequential hypotheses to
refine the possibilities that remain, and so on.

【在 b*******n 的大作中提到】
: 你这个也是把生物学的hypothesis和统计学的hypothesis混为一谈
: 统计学里的hypothesis必然有alternative hypothesis,reject其中一个就要接受另一
: 个。但是你让生物学PI们把自己苦心孤诣搞出来的central hypothesis reject掉试试
: ?他不跟你吹胡子瞪眼才怪呢。
: 所以,统计学里的hypotheses是中性的,无论接受也好拒绝也好,对于PI来说都是可以
: 接受的。但是现在生物学研究的hypothesis几乎变成了需要加以验证的潜在真理,导致
: 为了证明hypothesis而manipulate data(你看,data manipulation在统计学和生物学
: 里的意义也不同吧),这是楼主发的原贴的主要原因。
:
: /

avatar
a*y
41
不知所云。hypothesis就是来自data的。
你钻牛角尖了。

【在 c******d 的大作中提到】
: 不是说不能有hypothesis,但不能完全hypothesis driven。data应该是处于研究的核
: 心,而不是什么乱七八糟的这样那样的假设。
:
: drive

avatar
l*y
42
哪怕是 single-hypothesis-driven research 也是分两个阶段。第一个阶段是 proof
of concept,是 positive 的,也就是说,尽一切努力来证明自己的 hypothesis 是正
确的。第二个阶段是 defense,是 negative 的,也就是说,尽一切努力来攻击自己的
hypothesis,证明别的可能的原因都是错的。
当然,生存压力会导致很多 PI 生拉硬套,但这与 hypothesis-driven method 无关。
不管用什么方法论,都有自己灌水作弊的方式。说到药物筛选,我就正在做这样一个
project,里面猫腻更多。

端。

【在 b*******n 的大作中提到】
: 你把生物学的hypothesis的验证方法和统计学的hypothesis的验证方法混为一谈了。
: data snooping的原因就是对于data的过分解释,这就是hypothesis driven的一个弊端。
: 另外没有你所说的这个flow,一样可以做出伟大的科学。不少药物在上市之后若干年都
: 不知道具体的作用机理如何,根本就不需要对它的作用机理提出任何hypothesis并进行
: 验证,但是这不影响这个药物的应用,比如aspirin.同样,流行病学调查也是可以没有
: hypothesis的,但是这些调查数据一样可以提供有用的信息。
:
: to
: fabricating
: conlusion

avatar
b*n
43
无意引起争执
但是你所说的这两个阶段,在现实的生物学科研中并没有很好的执行
因此也就出现了歪曲data用来解释hypothesis的事情
毕竟验证一个hypothesis,统计学家可能只需要几个星期或者几个月的时间,而且null
hypothesis被reject之后可以接受alternative hypothesis,即使是没有差异也算是
结果。但是生物学PI们的hypothesis验证起来要花更长的时间,而且这个hypothesis直
接关系到他的R01 grant是否能得到资助。目前的生物学科研只重视positive data而无
视negative data,所以一旦hypothesis被reject,那就什么都不剩了。
如果只是普通的药物筛选,其实和microarray之类的都差不多,应该是非常中性的。但
是之后要选出compound进行验证,就变成了hypothesis driven,所谓的猫腻应该就出
在这里。

proof

【在 l***y 的大作中提到】
: 哪怕是 single-hypothesis-driven research 也是分两个阶段。第一个阶段是 proof
: of concept,是 positive 的,也就是说,尽一切努力来证明自己的 hypothesis 是正
: 确的。第二个阶段是 defense,是 negative 的,也就是说,尽一切努力来攻击自己的
: hypothesis,证明别的可能的原因都是错的。
: 当然,生存压力会导致很多 PI 生拉硬套,但这与 hypothesis-driven method 无关。
: 不管用什么方法论,都有自己灌水作弊的方式。说到药物筛选,我就正在做这样一个
: project,里面猫腻更多。
:
: 端。

avatar
b*n
44
总结一下
无论什么学科,hypothesis的本质是一样的,hypothesis driven所需要的流程也是大
致相同的。
但是由于现实原因,不同领域的科学家对于hypothesis以及alternative hypothesis的
看法并不相同,这是导致某个领域内hypothesis driven被人诟病的原因,所以说到底
还是"winner gets all"的体制问题。就如同温拿科学家拿到所有funding一样,温拿
hypothesis得到所有的鲜花和掌声,而非温拿hypothesis (alternative hypothesis)
没人关心。

Platt
driven

【在 l***y 的大作中提到】
: 首先,两种 hypothesis 本质上是一样的,而且实际上也经常根据 bio hypothesis 来
: 设计 hypothesis for statistical test。
: 另外,alternative hypotheses 早就在生物学中广泛应用了。而且作为方法论,
: alternative hypotheses 并不限于生物学,别的学科一样适用。以前就推荐过 Platt
: 1964 年发在 Science 上的这篇文章:
: http://256.com/gray/docs/strong_inference.html
: 这是当年做 PhD 时老板要求组里每个人都读的。文章写得很精彩。Hypothesis-driven
: research 分两个流派,一个是 multi-hypothesis,一个是 single hypothesis。前
: 者在生物学上用得比较多,后者有时见于理论物理。其实仔细回想一下,很多情况下虽
: 然没有意识到,但思考问题和设计实验时,用的其实就是 multi-hypothesis。

avatar
b*n
45
我听过一个做得还不错的faculty做报告
讲的就是用新的方法来分析以前旧的方法分析不出来的一堆数据
如果是被人逼着反复用类似的方法分析同一批数据,那的确是要发疯了
类似于曹锟逼着国民议会的议员“今天非要选出个大总统出来”

【在 P****D 的大作中提到】
: “做统计的就是要找到更好的方法来分析数据”这是当然,但是手段不能是通过反复分
: 析同一数据来得到。统计学不是这么发展的。
: 另外那些恶心PI的目的可从来不是“帮助统计学发展”。

avatar
l*y
46
multi-hypothesis 的最关键的环节是 critical experiments:如何用尽量少的实验,
来尽可能多地检验一系列互斥的 hypotheses 之中哪些是错的,哪些可能是对的。只能
证伪一个 hypothesis 的实验要尽量避免,因为效率低。
这样子,实验结果在大多数情况下总是能继续推进 research,而不是 negative 的结
果导致 project 挂掉。
microarray 的筛选也谈不上有多中性。比如说,GSEA 和 IPA pathway enrichment
analysis 都有很强的 bias,原因就是用到的 hypothesis 有问题:使用不带权重的
Fisher exact test,并且不考虑各 gene set 或者各 pathway 的 overlap。
再结合前一段时间版上热闹过的 plos one 上的攻击 disease signature 的那篇文章
看 microarray assay,所谓中性可想而知了。
而基于 high-throughput screening 和 bioinformatics 来做 mechanism/hypothesis
,大家都在做,文章一大堆,真正做成功了找到重要机制的有几个?数来数去每年也就
那么几篇经典文章,还无一例外都是在有清晰的 hypothesis 的前提下做的 screening
/mining。
药物筛选更是如此。Scoring 很 tricky。比如说,一万种药,筛了 20 个 cell lines
,看 apoptosis rate -- 先不管 dose/time points 这些更复杂的参数。那么,如何
根据这 20 个 cell lines 的数据来衡量这些药对临床的哪些疾病有效果?毒性呢?先
要把各 cell line 对应到疾病和健康组织的 subtypes 上去,再结合各个 subtypes
的发病率和预后或者对健康组织的毒性做权重修正,构建一个 scoring 的 model。构
建 scoring model 的过程就要基于一系列的 hypothesis,有 bio 的也有 stats 的,
更不用说数不清的 assumptions 了。这个 model 里随便调几个权重或者分类,最后筛
出来的药的 ranking 就会千差万别。比如说,用 geno-subtype 还是 pheno-subtype
来分类,对不同种类的药的药效的预测准确率差别就很大。而再拿 patient samples
来 in vitro 测试筛出来的药的药效,会发现这些 ranking 大多很不靠谱。in vivo
就更不用说了,药动力学问题,micro-environment 问题,老鼠和人的代谢差异,等等
,要是 ranking 有 1% 的正确率,制药公司都要欣喜若狂了。筛药这活儿,水太深了
,我现在正一肚子的苦水。

null

【在 b*******n 的大作中提到】
: 无意引起争执
: 但是你所说的这两个阶段,在现实的生物学科研中并没有很好的执行
: 因此也就出现了歪曲data用来解释hypothesis的事情
: 毕竟验证一个hypothesis,统计学家可能只需要几个星期或者几个月的时间,而且null
: hypothesis被reject之后可以接受alternative hypothesis,即使是没有差异也算是
: 结果。但是生物学PI们的hypothesis验证起来要花更长的时间,而且这个hypothesis直
: 接关系到他的R01 grant是否能得到资助。目前的生物学科研只重视positive data而无
: 视negative data,所以一旦hypothesis被reject,那就什么都不剩了。
: 如果只是普通的药物筛选,其实和microarray之类的都差不多,应该是非常中性的。但
: 是之后要选出compound进行验证,就变成了hypothesis driven,所谓的猫腻应该就出

avatar
w*x
47
“而基于 high-throughput screening 和 bioinformatics 来做 mechanism/
hypothesis
,大家都在做,文章一大堆,真正做成功了找到重要机制的有几个?数来数去每年也就
那么几篇经典文章,还无一例外都是在有清晰的 hypothesis 的前提下做的 screening
/mining。”
强烈同意啊。我们实验室也号称是hypothesis free,也搞筛药神马的,但弄来弄去就
像没头苍蝇,除了收集了一堆high noise数据外没有什么concept或者mechanism的贡献
。因为都做的很粗浅,没有细致深入的分析。
我的耳边总是萦绕着Sydney Brenner的批评: "low input, high throughput, no
output" .

+10086

【在 t*********l 的大作中提到】
: 当然得是hypothesis driven. 你制造那么些data干什么用?数据本身是没有意义的,
: 数据只有在对不同的hypotheses提供支持或否定时才产生了意义。科研的最终目的是把
: 你的hypothesis修正成理论,而不是为了产生大量乱七八糟的data。

avatar
n*7
48
data driven现阶段在生物学也很有些恶心
因为产生了data就必须来点东西交差,最后往往还是不得不瞎编
有些p都没有的文章还扯了半天,我真的要看得吐了
avatar
l*1
49
托勒密的第72位大弟子说过 他/她很讨厌卡普勒和牛顿的万有引力定律公式
hypothesis driven 天体物理学
还是LEGO 拼接齿轮的系统 实在啊

【在 c******d 的大作中提到】
: 现代科学证明,data driven才是科学的出路,hypothesis driven最终都归于自圆其说
: ,胡编乱造,坑蒙拐骗。很多差的十万八千里的东西,为了发paper,搞funding,就不
: 要脸跟这个原理,那个pathway扯上关系。
: 看到很多biologist,搞来搞去,总要来一句,u gotta have a hypothesis.我就觉得
: 不自觉的恶心。不知道为啥。

avatar
S*I
50
斯大林:“如果理论与事实不符,就修改事实。”

【在 t*****2 的大作中提到】
: 有hypothesis倒不是不对,只是后来自圆其说的过程就比较恶心了,就造成了凡
: hypothesis没有不正确的情况,都是按照老板的意愿来拿结果,拿不到想要的结果,就
: 让你重作,直到拿到为止。。。。

avatar
r*e
51
Good points!
I agree with you.

null

【在 b*******n 的大作中提到】
: 无意引起争执
: 但是你所说的这两个阶段,在现实的生物学科研中并没有很好的执行
: 因此也就出现了歪曲data用来解释hypothesis的事情
: 毕竟验证一个hypothesis,统计学家可能只需要几个星期或者几个月的时间,而且null
: hypothesis被reject之后可以接受alternative hypothesis,即使是没有差异也算是
: 结果。但是生物学PI们的hypothesis验证起来要花更长的时间,而且这个hypothesis直
: 接关系到他的R01 grant是否能得到资助。目前的生物学科研只重视positive data而无
: 视negative data,所以一旦hypothesis被reject,那就什么都不剩了。
: 如果只是普通的药物筛选,其实和microarray之类的都差不多,应该是非常中性的。但
: 是之后要选出compound进行验证,就变成了hypothesis driven,所谓的猫腻应该就出

avatar
t*2
52

哈,恐怕这hypothesis离理论还有一定距离嘞

【在 S**I 的大作中提到】
: 斯大林:“如果理论与事实不符,就修改事实。”
avatar
w*a
53
有了海量的,客观的,solid的data以后,去寻找解释现象的hypothesis
这个跟先有hypothesis,然后拼老命挑选或者制造data去迎合hypothesis,完全是两回
事。
目前海量的文献里面,依照后面这种思路炮制出来的research,比比皆是呀。
你去重复重复人家的实验就明白了。

/

【在 l***y 的大作中提到】
: 有没有听说过 alternative hypotheses? Single hypothesis 本来就是有问题的。
: 至于 data-driven -- 没有 hypotheses,往哪里 driven?
: 所以貌似 lz 没有搞清楚 data 和 knowledge 的区别,应该不是从事 data mining /
: bioinformatics 这些天天跟海量数据打交道的方向的。那又奢谈什么 data-driven?
: 比如说,我现在手头就有 19 万组数据,每组几个 MB。每种数据对应三类刺激,多个
: 时间点,十几种细胞,七八个不同的 control,一堆的外部 annotation databases。
: 没有几个 hypotheses,都不知道该先处理哪些,做哪些分析,control 和
: normalization 都用什么策略,该怎么做 fast prototyping。
: 所以呢,凭想象说什么 data-driven,不过空谈而已。叶公好龙,等真见了龙就明白了
: 。等到真正拿到几个硬盘的数据要你一个月出报告,就知道 hypothesis driven 的重

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。