Redian新闻
>
胡乱选的基因比发表出来的“cancer marker”能更准确的预测癌
avatar
胡乱选的基因比发表出来的“cancer marker”能更准确的预测癌# Biology - 生物学
c*r
1
周末和工作日 连续申了几次,提交后都是说
We apologize for any inconvenience.
The application you are requesting is currently unavailable.
....
...
是不是现在只能电话申了?
thanks
avatar
S*A
2
求祝福LD EAD 快批
PD: Oct 2008
RD: Jan 11 2012
NSC
前20位包子.
多谢!!
avatar
r*1
3
这是美国夏天的一个周末正好赶上假期,不少人在家里举行聚会,美亚是一个地产经纪
人,平时客户朋友不少,趁着机会开聚会,同大家联络感情交流信息,由于经纪人接触
人比较多,所以来美亚聚会的客人也是品流复杂,什么行业的人都有。莉迪亚赶到聚会
时,已经有些人了。
莉迪亚在一家银行投资部门工作多年。她记得是通过一个做贷款的同事认识的,美亚是
那种见面熟,很热情的女人,个头不高,下半身较粗,脸蛋总是红扑扑的,发型吹得高
高的,化了浓妆,穿着色彩明亮的紧身衣。每个人进门她都给以拥抱,让你感受她的
热情和温度。
莉迪亚是身材中等偏瘦,穿的是黑色小礼服,还有什么颜色比黑色和蓝色更合适她这种
冷静的人呢,她看上去是安静害羞的,不过她的观察能力可是一流,什么也逃不过她的
法眼,平时爱好读书,尤其爱读历史类,也爱读侦探小说,像什么阿加莎,福尔摩斯,
爱伦坡的侦探小说,她都买齐了,对她来说最悠闲的周末时光,是坐在阳台上那把宽大
的藤椅上,让大脑空白的去读一篇侦探推理小说。
她很不愿意来这三教九流的聚会,她的朋友琳达叫她一定要来,她们很久没见面了,
她最近有些心思想同她聊聊。
琳达很重视脸蛋身材衣服这些事,几乎所有的业余时间都用来锻炼,练就了如今苗条结
实的身材,她对自己还很不满意,因为健身房里还有一位老美白种女人,身材和她差不
多,胸部比她大2个码,有很高的回头率。琳达目前还是单身,她约会过不少男人,
总是有不如意的地方,高帅富不是那么容易找。
估计今天约在聚会见面是谈她的隆胸计划。琳达总是迟到,从来没有准时过,每次都有
千奇百怪的理由,让你去相信她,居然也让人相信了。
琳达很鄙视不懂名牌不用名牌的人。她认为,不吃饭也得有一个大牌的包。
莉迪亚在等琳达的同时,感到很无聊,要了一杯香槟,一边喝,一边打量屋里的人,
人群分好几组,散落在各处,其中沙发上坐了几个人,好像在看大本的东西,像影集,
又不像,封面是大红色的印了一个烫金的福字,莉迪亚忍不住好奇凑过去,
哦,原来是一本钱币纪念册,里面第一页就是一张红色百元人民币纪念钞,旁边还嵌着
一个金币。
在莉迪亚看来,这种东西是很大路货,一般都是作为礼品送出去,毫无收藏价值的,
金币跟金也沾不上关系。
拿着纪念册的一个微胖老美赞不绝口,旁边一位带黑框眼镜的精瘦男人在给他解释翻译。
莉迪亚回到吧台上继续观察等待,这时琳达终于来了,可以看出精心装扮过,10寸金色
高跟鞋搭配浅紫印花超短裙,挑染过的披肩发飘逸光滑,手拿她心爱的LV speedy圆桶
小包。你不可能不注意到她,她在门口和美亚拥抱,在美亚爽朗的笑声中,她看到了
莉迪亚,一股浓烈的香水味向莉迪亚扑来,几乎让她打喷嚏。
在一番寒暄后,她迫不及待的托出整容计划,打算做成标准D杯,可能要花六千元,健
身房又有几个人看上她打算约她等等。
“哈罗,我是汤尼" 坐在沙发上的眼镜男过来跟莉迪亚和琳达打招呼,果然光彩照人的
女人会吸引人,琳达打量了他,黑白条纹polo衬衫和黑色长裤很挺括,还配上一双尖
头皮鞋。汤尼介绍他在一家IT公司工作,是国内南方海边城市过来的,有博士学位,收
入不错,老婆突然得乳腺癌去世,留下一个有自闭症的小孩。琳达开始表示对他同情,
莉迪亚却心存怀疑,第一次见面就告诉那么多信息,而且眼镜背后的眼珠四处转动。眼
神是游离不安的,双手一直揣在裤袋兜里。
这时美亚过来问要不要去打麻将,现在三缺一,琳达和莉迪亚都表示不想打,要聊天。
汤尼表示可以去,却被美亚笑着拒绝。莉迪亚感到纳闷为什么拒绝他。
沙发上已经没有什么人了,莉迪亚和琳达移位到沙发上去,没有注意到汤尼去哪里。
聊了近20分钟,隔壁不时传来麻将声夹杂着欢笑声,莉迪亚起身去了趟洗手间,
回来时,琳达正在看那本钱币纪念册,她边看边翻,自言自语:为什么第一页是空白?
莉迪亚一看果然第一页现在是空白的,后面的50元到1元全部都在,唯独第一页的一张
100元人民币和金币没有了,莉迪亚大吃一惊,刚才几个人都在看,怎么现在没有了,
她告诉琳达不要动,要立刻告诉美亚,去隔壁打麻将那里悄声告诉了她。
美亚过来看了脸色开始由红转青,这本纪念册她亲戚最近来探亲送给她的,是谁干的?
莉迪亚想到当时那个胖老美和汤尼在看,就告诉了美亚,她说绝不会是胖老美,他是
她家多年老朋友,大公司上班,从没有听说过人品问题,那汤尼呢?
她说汤尼已经回家了,莉迪亚问她为什么拒绝汤尼打麻将,她叹口气:汤尼智商很高,
对打牌,打麻将很会算,别人不愿意和他打,没有机会赢,他也从不让别人赢。
琳达说,他挺可怜的,老婆病逝了,还有自闭症小孩,一个人不容易啊。
美亚笑了,他从来没有结过婚,哪里来的老婆和小孩?琳达接着问:他不是在IT公司
上班有博士后学历吗?美亚说,没有听说他在IT公司上班,只是听说他经常去赌场,到
底在哪里上班不知道,他英文说的非常好,穿着讲究,经常神出鬼没,不知道他怎么
知道这次聚会的,已经快一年没见过他了。美亚说算了吧,以后这种人要远离点,但
是也没有证据证实是他拿的。
莉迪亚想起他那游离不安的眼神和总是手插在裤袋里的姿势,
琳达不禁问道:什么人都有,能浑水摸鱼混到什么呢?莉迪亚想了想:如果经常去
不同聚会,看运气了,有时混到奇货,没准还会混到美女呢!琳达似乎想明白了什么,
她们会心的笑了。
avatar
p*7
4
电影太悲惨,德国的龙兴之地就这样被分割,马祖人被迫屈辱地成为波兰人或者迁往德
国,很少见到波兰电影,非常值得!
avatar
h*k
5
他说最近觉得自己记性不好, 就去sam's club买了一瓶增强记忆力的药, 结了帐回到家
, 发现...
药忘记拿回来了... 哈哈哈
avatar
s*y
6
David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
的基因的准确率比那些所谓的marker 还要好。
文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
把这个文章据掉的杂志 (lol)
文章最后发表在
PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
Random gene sets can predict breast cancer survival better than cancer-
related signatures
And top-tier journals did not want to publish this surprising study.
By Ed Yong
10 January 2012
Email
Print
1 comment
Tumours are bundles of cells that grow and divide uncontrollably, and their
genes are deployed in unusual ways. By analysing the genes from different
tumour samples, scientists have tried to pin down the chaotic events that
lead to cancer. They seem to be making headway. Dozens of papers have
reported “gene expression signatures” that predict the risk of dying or
surviving from cancer, and new ones come out every month.
These signatures purportedly hint at how healthy cells transform into
tumours in the first place. If, for example, the genes in question are
involved in wound healing, this tells you that the healing process is
somehow involved in a tumour’s progression. These collections of genes
reveal deeper truths about the disease they’re associated with.
This idea sounds reasonable, but David Venet from the Université Libre de
Bruxelles has thrown a big spanner into the works. He has shown that
completely random sets of genes can predict the odds of surviving breast
cancer better than published signatures.
Venet found three signatures that are completely unconnected to cancer.
Instead, these collections of genes were associated with laughing at jokes
after lunch, with the experience of social defeat in mice, and with the
positioning of skin cells. All of them were associated with breast cancer
outcomes.
It got worse. Venet collected 47 breast cancer signatures from published
papers and compared them to sets of random genes. The random sets were
equally (or more) strongly associated with breast cancer outcomes than 60%
of the published ones. In fact, you can randomly select a group of 100 genes
or more, and be 90% sure of finding a statistically significant link with
breast cancer. Venet wrote, “Investigators are bound to find an association
however whimsical their marker is.”
Tubular Adenoma of Breast. Image from Flickr, by Ed Uthman
Venet’s study was described as a “must-read” by F1000 member Jinfeng Liu
from Genentech Inc. The results may seem unbelievable, but there is a simple
reason for them. The activities of thousands of genes across a breast
cancer cell’s genome are related to how quickly that cell proliferates (
grows and divides). And that is related to a patient’s prognosis.
As an analogy, you could find hundreds of things that correlate with a
person’s wellbeing and lifespan: the number of Apple products they own,
whether they have university degrees, how many cars they have, and so on.
But this doesn’t mean that these things improve our health; instead, they
reflect how wealthy we are, our lifestyle choices, and our access to good
healthcare.
Gene signatures may be relatively useless at illuminating the causes of
cancer, but the team stresses that they can still help doctors – after all,
they’re still related to prognosis. Writing in The Scientist, the study’s
lead author Vince Detours says, “Smoke does not drive fire, yet it is
powerful indicator of when and where a fire is burning.”
Detours also aims a blow at scientific publishers who have let studies of
genetic signatures proliferate uncontrollably. He wrote:
It took us four years and six rejections to get this work finally
published in a computational biology journal – not the most efficient venue
to reach the oncology community. Meanwhile, a steady stream of studies
confounded by proliferation rates has appeared.
He added,
This has to be said; one can no longer stay silent about the rather
limited self-correction capability of the top tier publishing system (Cell,
Nature Genetics, PNAS, etc.), which promoted these studies in the first
place
avatar
z*s
7
我下午申请的时候还可以的,不过没有install approved. 明天打电话试试
avatar
W*n
8
congratulations, 吃
avatar
r*1
9
这是天蝎月恭贺新版主上任的贺礼。
主要是描写人物性格,很容易猜到是什么星座,大家猜吧,猜中有包子。
请不要对号入座,小说就是小说。
avatar
c*s
10
那块地也不见得有那么珍贵,卡尔大帝的法兰克帝国和巴巴罗萨的神马都不包括那里

【在 p********7 的大作中提到】
: 电影太悲惨,德国的龙兴之地就这样被分割,马祖人被迫屈辱地成为波兰人或者迁往德
: 国,很少见到波兰电影,非常值得!

avatar
S*r
11
haha, nice one

【在 h*****k 的大作中提到】
: 他说最近觉得自己记性不好, 就去sam's club买了一瓶增强记忆力的药, 结了帐回到家
: , 发现...
: 药忘记拿回来了... 哈哈哈

avatar
K*S
12
nice

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

avatar
c*r
13
啊。。貌似我都是晚上申的。。我明天试试,多谢了,包子奉上。

【在 z****s 的大作中提到】
: 我下午申请的时候还可以的,不过没有install approved. 明天打电话试试
avatar
B*g
14
bless

【在 S**A 的大作中提到】
: 求祝福LD EAD 快批
: PD: Oct 2008
: RD: Jan 11 2012
: NSC
: 前20位包子.
: 多谢!!

avatar
p*t
15
我要下载到evernote慢慢读,赞!
avatar
i*o
16
haha
avatar
s*s
17
他那几个基因怎么来的?有没有general的意义还是碰巧?

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

avatar
H*6
18
bless
avatar
A*y
19
赞!效率真高。感谢你的支持。
写得画面感很强(有配插图的欲望)
对大家觉得汤尼是什么星座很好奇
avatar
l*x
20
起码他没忘记付钱

【在 h*****k 的大作中提到】
: 他说最近觉得自己记性不好, 就去sam's club买了一瓶增强记忆力的药, 结了帐回到家
: , 发现...
: 药忘记拿回来了... 哈哈哈

avatar
p*m
21
Venet found three signatures that are completely unconnected to cancer.
Instead, these collections of genes were associated with laughing at jokes
after lunch, with the experience of social defeat in mice, and with the
positioning of skin cells.
哈哈哈哈哈

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

avatar
b*e
22
祝福

【在 S**A 的大作中提到】
: 求祝福LD EAD 快批
: PD: Oct 2008
: RD: Jan 11 2012
: NSC
: 前20位包子.
: 多谢!!

avatar
r*1
23
写起来需要几个小时,不过构思是很难的,其中都有部分真实故事和人物。

【在 A********y 的大作中提到】
: 赞!效率真高。感谢你的支持。
: 写得画面感很强(有配插图的欲望)
: 对大家觉得汤尼是什么星座很好奇

avatar
a*k
24
扫了一眼
大意应该是随便抓100个以上的基因,(包括那些发表的看了joke表达不同的,social
有问题的,皮肤细胞问题的基因)90%的可能cancer和正常细胞的表达谱就会有区别。
作者抓了几十篇paper里面报道的所谓在breast cancer里面表达有区别的基因,和他随
便抓的基因比较,只要抓到100个基因以上,两个结果就相差不显著了。
然后他看了一下发表的那些所谓marker,大部分都和cell cycle/PCNA有关,如果拿
PCNA的表达做normalization,世界清静了,cancer marker基本失效。
结论就是cancer marker就是看细胞分裂的,没啥奇怪。

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

avatar
s*e
25
bless
avatar
r*1
26

昨晚太晚没有修改,下载修改过的吧。好好分析人物是什么星座。

【在 p**********t 的大作中提到】
: 我要下载到evernote慢慢读,赞!
avatar
s*s
27
抓100个基因有区别没啥问题啊!统计里面你做panel data (longitudinal)
对一堆random的东西regression, 总是抓住一堆dummy variable的

别。

【在 a********k 的大作中提到】
: 扫了一眼
: 大意应该是随便抓100个以上的基因,(包括那些发表的看了joke表达不同的,social
: 有问题的,皮肤细胞问题的基因)90%的可能cancer和正常细胞的表达谱就会有区别。
: 作者抓了几十篇paper里面报道的所谓在breast cancer里面表达有区别的基因,和他随
: 便抓的基因比较,只要抓到100个基因以上,两个结果就相差不显著了。
: 然后他看了一下发表的那些所谓marker,大部分都和cell cycle/PCNA有关,如果拿
: PCNA的表达做normalization,世界清静了,cancer marker基本失效。
: 结论就是cancer marker就是看细胞分裂的,没啥奇怪。

avatar
s*d
28
BLESS
avatar
F*e
29
写得惟妙惟肖。这会儿忙,回头再来猜。先赞!
avatar
p*m
30
是不奇怪 但是这个不奇怪才真的奇怪 因为大家都可以想象cancer cell和normal cell
应该有巨大差异 整体基因表达就应该有巨大差异 居然如此做biomarker的paper是怎么
发出来的呢?

别。

【在 a********k 的大作中提到】
: 扫了一眼
: 大意应该是随便抓100个以上的基因,(包括那些发表的看了joke表达不同的,social
: 有问题的,皮肤细胞问题的基因)90%的可能cancer和正常细胞的表达谱就会有区别。
: 作者抓了几十篇paper里面报道的所谓在breast cancer里面表达有区别的基因,和他随
: 便抓的基因比较,只要抓到100个基因以上,两个结果就相差不显著了。
: 然后他看了一下发表的那些所谓marker,大部分都和cell cycle/PCNA有关,如果拿
: PCNA的表达做normalization,世界清静了,cancer marker基本失效。
: 结论就是cancer marker就是看细胞分裂的,没啥奇怪。

avatar
W*d
31
bless

【在 S**A 的大作中提到】
: 求祝福LD EAD 快批
: PD: Oct 2008
: RD: Jan 11 2012
: NSC
: 前20位包子.
: 多谢!!

avatar
t*7
32
写的真好。送给莉迪亚一幅我很喜欢的画

【在 r****1 的大作中提到】
: 这是美国夏天的一个周末正好赶上假期,不少人在家里举行聚会,美亚是一个地产经纪
: 人,平时客户朋友不少,趁着机会开聚会,同大家联络感情交流信息,由于经纪人接触
: 人比较多,所以来美亚聚会的客人也是品流复杂,什么行业的人都有。莉迪亚赶到聚会
: 时,已经有些人了。
: 莉迪亚在一家银行投资部门工作多年。她记得是通过一个做贷款的同事认识的,美亚是
: 那种见面熟,很热情的女人,个头不高,下半身较粗,脸蛋总是红扑扑的,发型吹得高
: 高的,化了浓妆,穿着色彩明亮的紧身衣。每个人进门她都给以拥抱,让你感受她的
: 热情和温度。
: 莉迪亚是身材中等偏瘦,穿的是黑色小礼服,还有什么颜色比黑色和蓝色更合适她这种
: 冷静的人呢,她看上去是安静害羞的,不过她的观察能力可是一流,什么也逃不过她的

avatar
s*y
33
我觉得他的文章的意思就是大部分基因的表达程度都和细胞的活跃程度有关,
所以随便乱抓几个都能看出区别来,但是和癌症的机理基本上就是打酱油的关系。
总体意思就是目前的主流方法找出来的marker不能作为推测机理的起点。
他们在faculty 1000上抱怨说他们这篇文章一共投了4年,前后被六个
顶级杂志据了(他们直接点名的几家估计是对他们态度最糟糕的,哈哈哈)
这里是他们在PLoS Comp Biol 发表的文章的摘要。
Bridging the gap between animal or in vitro models and human disease is
essential in medical research. Researchers often suggest that a biological
mechanism is relevant to human cancer from the statistical association of a
gene expression marker (a signature) of this mechanism, that was discovered
in an experimental system, with disease outcome in humans. We examined this
argument for breast cancer. Surprisingly, we found that gene expression
signatures-unrelated to cancer-of the effect of postprandial laughter, of
mice social defeat and of skin fibroblast localization were all
significantly associated with breast cancer outcome. We next compared 47
published breast cancer outcome signatures to signatures made of random
genes. Twenty-eight of them (60%) were not significantly better outcome
predictors than random signatures of identical size and 11 (23%) were worst
predictors than the median random signature. More than 90% of random
signatures >100 genes were significant outcome predictors. We next derived a
metagene, called meta-PCNA, by selecting the 1% genes most positively
correlated with proliferation marker PCNA in a compendium of normal tissues
expression. Adjusting breast cancer expression data for meta-PCNA abrogated
almost entirely the outcome association of published and random signatures.
We also found that, in the absence of adjustment, the hazard ratio of
outcome association of a signature strongly correlated with meta-PCNA (R(2)&
#8202;= 0.9). This relation also applied to single-gene expression
markers. Moreover, >50% of the breast cancer transcriptome was correlated
with meta-PCNA. A corollary was that purging cell cycle genes out of a
signature failed to rule out the confounding effect of proliferation. Hence,
it is questionable to suggest that a mechanism is relevant to human breast
cancer from the finding that a gene expression marker for this mechanism
predicts human breast cancer outcome, because most markers do. The methods
we present help to overcome this problem.

cell

【在 p*****m 的大作中提到】
: 是不奇怪 但是这个不奇怪才真的奇怪 因为大家都可以想象cancer cell和normal cell
: 应该有巨大差异 整体基因表达就应该有巨大差异 居然如此做biomarker的paper是怎么
: 发出来的呢?
:
: 别。

avatar
r*t
34
bless
avatar
r*1
35
这么忧伤的画面,我先替莉迪亚谢谢你,喜欢什么的角色下次可以写续集,小说像真的
也是小说。

【在 t*******7 的大作中提到】
: 写的真好。送给莉迪亚一幅我很喜欢的画
avatar
i*e
36
那些做gene signature的文章用的p值都是设定在什么level?0.05?

【在 s******s 的大作中提到】
: 抓100个基因有区别没啥问题啊!统计里面你做panel data (longitudinal)
: 对一堆random的东西regression, 总是抓住一堆dummy variable的
:
: 别。

avatar
j*0
37
Bless!!!
avatar
m*8
38
写得太真实了,都不敢猜里面人的星座,那个汤尼是天蝎男,处女男吗?琳达是天秤?
要不是射手?莉迪亚貌似天蝎。
avatar
s*y
39
一般都比这个严格,经常就是 0.000001

【在 i*e 的大作中提到】
: 那些做gene signature的文章用的p值都是设定在什么level?0.05?
avatar
j*4
40
BLESS
avatar
F*e
41
按人物出场顺序,猜一把。
美亚:狮子 (见面熟,很热情,浓妆,色彩明亮)
莉迪亚:天蝎 (爱读侦探小说,观察入微,不喜聚会)
琳达:处女 (除了爱美、追求名牌之外,还追求完美)
汤尼:双子 (有语言天赋,什么话都说,什么事都做)
avatar
i*e
42
GWAS的结果本来就不应该作为推测机理
它理论依据本来就是基于几个假说
就算E-8的显著性阈值都还是假阳性很多

a
discovered

【在 s******y 的大作中提到】
: 我觉得他的文章的意思就是大部分基因的表达程度都和细胞的活跃程度有关,
: 所以随便乱抓几个都能看出区别来,但是和癌症的机理基本上就是打酱油的关系。
: 总体意思就是目前的主流方法找出来的marker不能作为推测机理的起点。
: 他们在faculty 1000上抱怨说他们这篇文章一共投了4年,前后被六个
: 顶级杂志据了(他们直接点名的几家估计是对他们态度最糟糕的,哈哈哈)
: 这里是他们在PLoS Comp Biol 发表的文章的摘要。
: Bridging the gap between animal or in vitro models and human disease is
: essential in medical research. Researchers often suggest that a biological
: mechanism is relevant to human cancer from the statistical association of a
: gene expression marker (a signature) of this mechanism, that was discovered

avatar
i*t
43
吃啊
我们PD挺靠近的

【在 S**A 的大作中提到】
: 求祝福LD EAD 快批
: PD: Oct 2008
: RD: Jan 11 2012
: NSC
: 前20位包子.
: 多谢!!

avatar
s*r
44
琳达好像射手啊
既然小说说莉迪亚冷静,那估计是天蝎
avatar
p*m
45
GWAS的文章很多统计都是胡来的 如果p cutoff选0.000001 一般说明作者乱选的统计方法

【在 s******y 的大作中提到】
: 一般都比这个严格,经常就是 0.000001
avatar
k*s
46
bless

【在 S**A 的大作中提到】
: 求祝福LD EAD 快批
: PD: Oct 2008
: RD: Jan 11 2012
: NSC
: 前20位包子.
: 多谢!!

avatar
A*y
47
也来猜一下~
美亚:射手,下半身较粗,热情,浓妆,不糊涂等等
莉迪亚:天蝎,银行投资部门,黑色和蓝色,冷静,观察能力,侦探小说,不爱聚会
琳达:双鱼,同情心,相信,从来没有准时过,喜欢高富帅,很多居然也让人相信的理
由,很海王星(原本想猜处女因为追求完美还要整形,但她看起来不善分析。爱打扮,
但浓烈的香水味也不象天秤)
汤尼:双子座,精瘦男人,眼神游离不安,智商很高,很会算,英文流利
avatar
s*s
48
good point. 不过,这个难道不是大家早就应该知道的么?
本来也就仅仅能是hint可能的机理。另外,其实细胞活跃程度
也不能说是和癌症完全打酱油,倒是找机理的时候把这部分
effect给control掉确实十个good point

a
discovered

【在 s******y 的大作中提到】
: 我觉得他的文章的意思就是大部分基因的表达程度都和细胞的活跃程度有关,
: 所以随便乱抓几个都能看出区别来,但是和癌症的机理基本上就是打酱油的关系。
: 总体意思就是目前的主流方法找出来的marker不能作为推测机理的起点。
: 他们在faculty 1000上抱怨说他们这篇文章一共投了4年,前后被六个
: 顶级杂志据了(他们直接点名的几家估计是对他们态度最糟糕的,哈哈哈)
: 这里是他们在PLoS Comp Biol 发表的文章的摘要。
: Bridging the gap between animal or in vitro models and human disease is
: essential in medical research. Researchers often suggest that a biological
: mechanism is relevant to human cancer from the statistical association of a
: gene expression marker (a signature) of this mechanism, that was discovered

avatar
s*x
49
Bless!
avatar
r*1
50
看来天蝎特征最明显了,大家都猜对了,其余几个尤其是汤尼,大家对双子的认识还是
比较准确,汤尼的盘里双子很重,不是双子,这几个人都是真实的,事件也是真实的,只
是每件事和每个人都发生在不同的地方,我把他们链接在一起了。
现在猜对的是天蝎莉迪亚,射手美亚,其余2个接着猜,chip对射手的把握的角度非常
准确佩服!,琳达的盘里双鱼也很重,但不是双鱼。对海王的认识并不容易,会有盲点。
汤尼最难猜,连我也没有想到。
提示:汤尼水星强。
avatar
s*y
51
其实能在高引用杂志发表出来的,大多数都是 10E -30 这么狠的P value.

方法

【在 p*****m 的大作中提到】
: GWAS的文章很多统计都是胡来的 如果p cutoff选0.000001 一般说明作者乱选的统计方法
avatar
j*l
52
bless
avatar
A*y
53
哦,是有真人的,那就有难度啦
avatar
s*s
54
其实,我觉得做生物的都至少要去上一门stat 101.
一个是大家天天搞的sd, error bar的问题
另一个是搞清楚association和causality的关系
最后,好好理解一下multitest correction

【在 s******y 的大作中提到】
: 其实能在高引用杂志发表出来的,大多数都是 10E -30 这么狠的P value.
:
: 方法

avatar
p*y
55
bless

【在 S**A 的大作中提到】
: 求祝福LD EAD 快批
: PD: Oct 2008
: RD: Jan 11 2012
: NSC
: 前20位包子.
: 多谢!!

avatar
r*1
56

我认为射手很难猜,你把困难的问题都解决了,其实琳达我描述的最多,应该很明显。
猜是什么星座,也跟自己是什么星座有关,不同的星座对此人的判断是不同的。

【在 A********y 的大作中提到】
: 哦,是有真人的,那就有难度啦
avatar
p*m
57
这样的P value本质上就是用错统计方法的结果

【在 s******y 的大作中提到】
: 其实能在高引用杂志发表出来的,大多数都是 10E -30 这么狠的P value.
:
: 方法

avatar
h*l
58
bless
avatar
A*y
59
汤尼水星强,处女从外形也挺象的。不过前面有人猜过了。难道是水瓶,水星也强,爱
party
avatar
l*a
60
ls 给讲讲multetest correction吧。真心求教。
avatar
j*1
61
Bless!
avatar
F*e
62
re "猜是什么星座,也跟自己是什么星座有关,不同的星座对此人的判断是不同的"
可能我自己射手气质不重?如果按照星座对射手的描述的话,我会猜亚美射手。但是我
自己和认识的射手都是素面朝天,不喜欢浓妆艳抹,更不喜欢找一堆互不相干的人聚会
。看来我们属于outliers?

【在 r****1 的大作中提到】
:
: 我认为射手很难猜,你把困难的问题都解决了,其实琳达我描述的最多,应该很明显。
: 猜是什么星座,也跟自己是什么星座有关,不同的星座对此人的判断是不同的。

avatar
n*k
63
Maybe I am not getting it...several quick points:
1. The paper/study set up the assumptions/targets and then shot down...
pretty amusing, isn't it? well, they might have a point that there is component of poor scientific publishing...
2. the study went to where it might deserve...I don't see why it shall fair
better...that said, it is agreed that some of those NCS are a step away from
junk:)))...
3. P value in biomedicine sucks and purely a joke---esp with so many
American biologists and beyond whose math intelligence is virtually zero but
always insistent on a P value...
4. Who cares if biomarkers have no bearing in mechanisms...I think this is
inevitably the trend/true for many complex diseases...otherwise it wouldn't
be called biomarkers...

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

avatar
v*7
64
bless
avatar
A*y
65
我射手是不少,不过前面确实是按stereotype猜的。所以有真人就复杂了,有的人不典
型。

【在 F**********e 的大作中提到】
: re "猜是什么星座,也跟自己是什么星座有关,不同的星座对此人的判断是不同的"
: 可能我自己射手气质不重?如果按照星座对射手的描述的话,我会猜亚美射手。但是我
: 自己和认识的射手都是素面朝天,不喜欢浓妆艳抹,更不喜欢找一堆互不相干的人聚会
: 。看来我们属于outliers?

avatar
n*k
66
no hope, you have to go back to the preschool and educate the american and
many more---the basic math...even it is possible, it would be a generation
away...I am amazed by many biologists who has no math intelligence
whatsoever but are solely possessed by P-value when reviewing data/MSs...

【在 s******s 的大作中提到】
: 其实,我觉得做生物的都至少要去上一门stat 101.
: 一个是大家天天搞的sd, error bar的问题
: 另一个是搞清楚association和causality的关系
: 最后,好好理解一下multitest correction

avatar
xR
67
congrats, 包子
avatar
F*e
68
汤尼不会是水瓶吧?
琳达是金牛?

,只
点。

【在 r****1 的大作中提到】
: 看来天蝎特征最明显了,大家都猜对了,其余几个尤其是汤尼,大家对双子的认识还是
: 比较准确,汤尼的盘里双子很重,不是双子,这几个人都是真实的,事件也是真实的,只
: 是每件事和每个人都发生在不同的地方,我把他们链接在一起了。
: 现在猜对的是天蝎莉迪亚,射手美亚,其余2个接着猜,chip对射手的把握的角度非常
: 准确佩服!,琳达的盘里双鱼也很重,但不是双鱼。对海王的认识并不容易,会有盲点。
: 汤尼最难猜,连我也没有想到。
: 提示:汤尼水星强。

avatar
s*y
69

of
你说的那个assumptions是因为你在直觉/理论上觉得那个是assumptions。
但是在这个文章之前没有人认真去检查过这个问题。
fair
from
but

【在 n********k 的大作中提到】
: Maybe I am not getting it...several quick points:
: 1. The paper/study set up the assumptions/targets and then shot down...
: pretty amusing, isn't it? well, they might have a point that there is component of poor scientific publishing...
: 2. the study went to where it might deserve...I don't see why it shall fair
: better...that said, it is agreed that some of those NCS are a step away from
: junk:)))...
: 3. P value in biomedicine sucks and purely a joke---esp with so many
: American biologists and beyond whose math intelligence is virtually zero but
: always insistent on a P value...
: 4. Who cares if biomarkers have no bearing in mechanisms...I think this is

avatar
e*u
70
BLESS
avatar
F*e
71
嗯,真人往往我们只能看到一个面。

【在 A********y 的大作中提到】
: 我射手是不少,不过前面确实是按stereotype猜的。所以有真人就复杂了,有的人不典
: 型。

avatar
sa
72
good one. finally someone come to say" the emperor has no clothes"
avatar
x*a
73
bless

【在 S**A 的大作中提到】
: 求祝福LD EAD 快批
: PD: Oct 2008
: RD: Jan 11 2012
: NSC
: 前20位包子.
: 多谢!!

avatar
r*1
74
不能冲化妆方面来猜射手,要从性格,谈话,形态,行为。

【在 F**********e 的大作中提到】
: re "猜是什么星座,也跟自己是什么星座有关,不同的星座对此人的判断是不同的"
: 可能我自己射手气质不重?如果按照星座对射手的描述的话,我会猜亚美射手。但是我
: 自己和认识的射手都是素面朝天,不喜欢浓妆艳抹,更不喜欢找一堆互不相干的人聚会
: 。看来我们属于outliers?

avatar
i*e
75
这不用我去说啊
早就已经争吵多时了
严谨点说,应该是GWAS不能“完全”用来推测机理
它只test一部分(尚不知大多比例)复杂疾病/性状
就这能验证出来就很了不起了
再说了,没有replication,GWAS自个假阳性太多太多

【在 s******y 的大作中提到】
:
: of
: 你说的那个assumptions是因为你在直觉/理论上觉得那个是assumptions。
: 但是在这个文章之前没有人认真去检查过这个问题。
: fair
: from
: but

avatar
p*e
76
bless
avatar
r*1
77

又猜对了1月30号生日,上升双子日水瓶月白羊水星处女。

【在 A********y 的大作中提到】
: 汤尼水星强,处女从外形也挺象的。不过前面有人猜过了。难道是水瓶,水星也强,爱
: party

avatar
e*e
78
话说发这种文章算不算scientific suicide? 美国人拿NIH钱的就算做了同样的结果估
计也不敢发。

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

avatar
L*O
79
re
avatar
r*1
80

汤尼是水瓶,不过琳达不是金牛。

【在 F**********e 的大作中提到】
: 汤尼不会是水瓶吧?
: 琳达是金牛?
:
: ,只
: 点。

avatar
l*s
81
Next generation sequence is going to replace GWAS anyway,it is beating a
dying horse.
avatar
m*o
82
bless!
avatar
A*y
83
那猜琳达狮子,爱名牌,海王星exaltation
avatar
p*m
84
这个有什么关系?

【在 l*********s 的大作中提到】
: Next generation sequence is going to replace GWAS anyway,it is beating a
: dying horse.

avatar
a*1
85
bless
avatar
r*1
86

恭喜!猜对了,琳达日狮子月双鱼,其他不详,只有固定宫的火象才会那么有毅力去锻
炼,狮子为整个外形工程付出的代价不比处女少,而且“固执的认为单身的原因就
是胸部不够完美”。
好吧吃包子!你们都很厉害。

【在 A********y 的大作中提到】
: 那猜琳达狮子,爱名牌,海王星exaltation
avatar
p*m
87
你这个搞笑了不是,病人的取病理组织 正常人的对照呢?

【在 s******y 的大作中提到】
:
: of
: 你说的那个assumptions是因为你在直觉/理论上觉得那个是assumptions。
: 但是在这个文章之前没有人认真去检查过这个问题。
: fair
: from
: but

avatar
t*9
88
bless

【在 S**A 的大作中提到】
: 求祝福LD EAD 快批
: PD: Oct 2008
: RD: Jan 11 2012
: NSC
: 前20位包子.
: 多谢!!

avatar
A*y
89
hoho~~
avatar
s*y
90
可以和自己身上其他组织相比啊。
有这么做的。而且已经有人开始这么建数据库了。

【在 p*****m 的大作中提到】
: 你这个搞笑了不是,病人的取病理组织 正常人的对照呢?
avatar
f*r
91
Bless
avatar
A*y
92
“固执的认为单身的原因就是胸部不够完美”。
我开始觉得这句是因为海王星认知不清,嗯,日狮月鱼,是挺象的.
avatar
p*m
93
这样测出来比GWAS还离谱吧 我知道有人做这种实验(microarray时代就有无数人这么
做cancer了) 但是这样解决的问题和GWAS是不一样的,或者说,试图解决的问题是不
一样的。。所以谈不上什么取代什么

【在 s******y 的大作中提到】
: 可以和自己身上其他组织相比啊。
: 有这么做的。而且已经有人开始这么建数据库了。

avatar
w*c
94
bless
avatar
r*1
95
对了,记得射手是月处女金天蝎。一切都很合理。
avatar
n*k
96
Please define GWAS, I think I am lost now...have to admit I am very naive
about GWAS...NGS V GWAS?? I thought one is technology, one is methodology..
.right?

【在 s******y 的大作中提到】
: 可以和自己身上其他组织相比啊。
: 有这么做的。而且已经有人开始这么建数据库了。

avatar
i*t
97
Bless
avatar
A*y
98
天蝎座的那个什么月座呢?
avatar
s*s
99
i guess they mean SNP vs Transcriptome.

..

【在 n********k 的大作中提到】
: Please define GWAS, I think I am lost now...have to admit I am very naive
: about GWAS...NGS V GWAS?? I thought one is technology, one is methodology..
: .right?

avatar
l*7
100
BLESS
avatar
r*1
101

天蝎是月天秤,其他不详。

【在 A********y 的大作中提到】
: 天蝎座的那个什么月座呢?
avatar
k*o
102

..
同困惑
另外,看了这个文章有点哭笑不得啊。不知道除了癌症,其它领域的biomarker数据又
有多可靠。

【在 n********k 的大作中提到】
: Please define GWAS, I think I am lost now...have to admit I am very naive
: about GWAS...NGS V GWAS?? I thought one is technology, one is methodology..
: .right?

avatar
c*d
103
bless
avatar
r*1
104
天蝎一般喜欢穿黑色,每次见到她不是黑色就是蓝色,感觉她很冷静,话少,可能月座
是水瓶或天秤,用了一个很自然的机会问她,她不情愿的说大概天秤吧。
avatar
k*o
105

个人觉得组织间的差异太难控制了。

【在 s******y 的大作中提到】
: 可以和自己身上其他组织相比啊。
: 有这么做的。而且已经有人开始这么建数据库了。

avatar
i*n
106
cong
avatar
A*y
107
蝎子是喜欢保密,没准不是月秤。。。

【在 r****1 的大作中提到】
: 天蝎一般喜欢穿黑色,每次见到她不是黑色就是蓝色,感觉她很冷静,话少,可能月座
: 是水瓶或天秤,用了一个很自然的机会问她,她不情愿的说大概天秤吧。

avatar
s*y
108
snp mutations between tissues should be very reliable.
they are not talking about transcription levels.

【在 k****o 的大作中提到】
:
: 个人觉得组织间的差异太难控制了。

avatar
p*e
109
bless
avatar
r*1
110

蝎子对个人隐私非常保密,莉迪亚这个原型在事业中很成功,感情曾经受挫,对她了解
还不够彻底,以后有机会写一篇分析她这样女人的文章。
水瓶不能用常人的思路理解,其实这个原型是非常聪明的,有phd学位,在一个金融部
门工作,也是感情非常受挫,辞职去赌场工作,
我想固定座的人,是很另类,经过沉沦洗礼,像凤凰涅槃一样,会重新活过,只会比越
来更好,但是一定要经过那个沉沦期,才能走出来。

【在 A********y 的大作中提到】
: 蝎子是喜欢保密,没准不是月秤。。。
avatar
n*k
111
In this article, I thought they are not talking or emphasizing about the
reliability of the biomarkers as markers but for mechanisms...That said, it
is surprising that randomly chosen set performed well or even better...what
one might say is too many sloppy studies from influential groups without
proper/well-thought controls...or there might be some inherited problems/
complexity with the methodology or math or biology here...God knows...

【在 k****o 的大作中提到】
:
: 个人觉得组织间的差异太难控制了。

avatar
B*r
112
bless

【在 S**A 的大作中提到】
: 求祝福LD EAD 快批
: PD: Oct 2008
: RD: Jan 11 2012
: NSC
: 前20位包子.
: 多谢!!

avatar
s*3
113
写得真不错,喜欢琳达,汤尼是水瓶不意外,很多星座把水瓶搞得高大上,水瓶是复杂
的。
avatar
s*y
114
Yeah, I think one of the main points is:
the current mothdology doesn't work

it
what

【在 n********k 的大作中提到】
: In this article, I thought they are not talking or emphasizing about the
: reliability of the biomarkers as markers but for mechanisms...That said, it
: is surprising that randomly chosen set performed well or even better...what
: one might say is too many sloppy studies from influential groups without
: proper/well-thought controls...or there might be some inherited problems/
: complexity with the methodology or math or biology here...God knows...

avatar
s*t
115
bless you!
avatar
s*3
116

打牌不让别人赢,不给比人机会赢,是月白羊吧,上升双子把别人骗了,水瓶很喜欢捉
弄人,也不是为钱,可能为好玩。

【在 r****1 的大作中提到】
:
: 蝎子对个人隐私非常保密,莉迪亚这个原型在事业中很成功,感情曾经受挫,对她了解
: 还不够彻底,以后有机会写一篇分析她这样女人的文章。
: 水瓶不能用常人的思路理解,其实这个原型是非常聪明的,有phd学位,在一个金融部
: 门工作,也是感情非常受挫,辞职去赌场工作,
: 我想固定座的人,是很另类,经过沉沦洗礼,像凤凰涅槃一样,会重新活过,只会比越
: 来更好,但是一定要经过那个沉沦期,才能走出来。

avatar
n*k
117
Does this study have anything to do with GAWS? It is about transcriptional
molecular signature, right? I am very naive about the field but now I am
completely lost with your discussion and response to mine...

【在 s******y 的大作中提到】
: snp mutations between tissues should be very reliable.
: they are not talking about transcription levels.

avatar
h*8
118
congrats!

【在 S**A 的大作中提到】
: 求祝福LD EAD 快批
: PD: Oct 2008
: RD: Jan 11 2012
: NSC
: 前20位包子.
: 多谢!!

avatar
m*8
119
水瓶太聪明,太冷酷,适应不了。
avatar
s*y
120
在我那个回复里的"they" 是指用NGS 作somatic mutation 的那些人,不是指
帖子标题相关的文章里的那些人。

【在 n********k 的大作中提到】
: Does this study have anything to do with GAWS? It is about transcriptional
: molecular signature, right? I am very naive about the field but now I am
: completely lost with your discussion and response to mine...

avatar
b*u
121
Bless
[发表自未名空间手机版 - m.mitbbs.com]
avatar
p*m
122
microarray时代大家对somatic mutation 和cancer的关系也是搞过不少研究的啊 我觉
得你说的这个样品量的问题不太成立 single cell microarray都做得了的

【在 s******y 的大作中提到】
: 在我那个回复里的"they" 是指用NGS 作somatic mutation 的那些人,不是指
: 帖子标题相关的文章里的那些人。

avatar
a*d
123
Bless!
avatar
s*y
124
transcriptome 的准确度远远比不上白纸黑字的DNA sequence mutation data 吧。
而且transcriptome 的可变性太高了,得出来的数据大部分都是垃圾。
别的不说,单是这个single cell microarray 的样品源就大有问题,
谁知道进去的那个细胞真的就是癌细胞?弄不好是样品里面污染的其他组织细胞
或者血细胞什么的,马上就和对照的transcriptome 不一样了。
但是单细胞的DNA sequencing 就不一样了,不管什么组织,在没有病变的
前提下,绝大部分的DNA sequence 应该都是相同的吧。

【在 p*****m 的大作中提到】
: microarray时代大家对somatic mutation 和cancer的关系也是搞过不少研究的啊 我觉
: 得你说的这个样品量的问题不太成立 single cell microarray都做得了的

avatar
U*u
125
bless
Baozi
avatar
p*m
126
也可以用genome microarray或者SNP array做GWAS,这样本质上和用NGS做好像没啥区别
事实上 做gwas的,用SNP array的比你说的彻底sequencing才是主流吧
所以我有点被你弄糊涂了。。

【在 s******y 的大作中提到】
: transcriptome 的准确度远远比不上白纸黑字的DNA sequence mutation data 吧。
: 而且transcriptome 的可变性太高了,得出来的数据大部分都是垃圾。
: 别的不说,单是这个single cell microarray 的样品源就大有问题,
: 谁知道进去的那个细胞真的就是癌细胞?弄不好是样品里面污染的其他组织细胞
: 或者血细胞什么的,马上就和对照的transcriptome 不一样了。
: 但是单细胞的DNA sequencing 就不一样了,不管什么组织,在没有病变的
: 前提下,绝大部分的DNA sequence 应该都是相同的吧。

avatar
h*a
127
bless
avatar
p*m
128
我说的microarray不是说cDNA array...

【在 s******y 的大作中提到】
: transcriptome 的准确度远远比不上白纸黑字的DNA sequence mutation data 吧。
: 而且transcriptome 的可变性太高了,得出来的数据大部分都是垃圾。
: 别的不说,单是这个single cell microarray 的样品源就大有问题,
: 谁知道进去的那个细胞真的就是癌细胞?弄不好是样品里面污染的其他组织细胞
: 或者血细胞什么的,马上就和对照的transcriptome 不一样了。
: 但是单细胞的DNA sequencing 就不一样了,不管什么组织,在没有病变的
: 前提下,绝大部分的DNA sequence 应该都是相同的吧。

avatar
c*n
129
BLESS
avatar
p*m
130
事实上好像也没有谁会用CDNA ARRAY做GWAS吧 我觉得你比较错东西了

【在 p*****m 的大作中提到】
: 我说的microarray不是说cDNA array...
avatar
a*a
131
cong

【在 S**A 的大作中提到】
: 求祝福LD EAD 快批
: PD: Oct 2008
: RD: Jan 11 2012
: NSC
: 前20位包子.
: 多谢!!

avatar
s*y
132
我的印象里SNP array 也是挺不准的。
因为本质上就是用很多很多的probe 来overlap 然后搞拼图游戏吧?
其准确度和probe 的设计,操作人员的水平,甚至环境温度都有关。
不如NGS 来个刨根问底的sequencing 干脆

【在 p*****m 的大作中提到】
: 我说的microarray不是说cDNA array...
avatar
a*9
133
re

【在 S**A 的大作中提到】
: 求祝福LD EAD 快批
: PD: Oct 2008
: RD: Jan 11 2012
: NSC
: 前20位包子.
: 多谢!!

avatar
s*r
134
此文对GWAS/NGS (DNA) 没有什么影响。Microarray/RNA-seq 关心的基因表达本来就混
乱成网,搞不清楚原因结果。
avatar
k*e
135
bless
avatar
p*m
136
所以你之前讨论microarry表达量测的不准啊样品用得多啊都应该打回去重写 呵呵 没
听说谁是用表达量(cDNA array)来做GWAS的,做GWAS无非就是几个办法,SNP array,
用得最多;genome tiling array,估计有些不差钱的人用。然后就是whole genome
sequnrcing,这个有了NGS估计会有很多人做。
不管哪个都和cDNA array没关系。。而且不管哪个也都解决不了GWAS本身不准的问题

【在 s******y 的大作中提到】
: 我的印象里SNP array 也是挺不准的。
: 因为本质上就是用很多很多的probe 来overlap 然后搞拼图游戏吧?
: 其准确度和probe 的设计,操作人员的水平,甚至环境温度都有关。
: 不如NGS 来个刨根问底的sequencing 干脆

avatar
s*n
137
bless
avatar
p*m
138
这个定义很清楚吧。。你引得这个文章本身和GWAS一点关系都没有 其实我也不知道话
题怎么转到GWAS来了。。我好像就是随口说了个GWAS的统计问题 结果。。

【在 s******y 的大作中提到】
: 我的印象里SNP array 也是挺不准的。
: 因为本质上就是用很多很多的probe 来overlap 然后搞拼图游戏吧?
: 其准确度和probe 的设计,操作人员的水平,甚至环境温度都有关。
: 不如NGS 来个刨根问底的sequencing 干脆

avatar
H*3
139
bless!

【在 S**A 的大作中提到】
: 求祝福LD EAD 快批
: PD: Oct 2008
: RD: Jan 11 2012
: NSC
: 前20位包子.
: 多谢!!

avatar
s*y
140
呵呵,我觉得我是讨论着讨论着就进了一个歧途。
这里得向大家道歉并澄清两点,免得误人子弟。
1。这篇文章其实本身和GWAS 没有直接关系。他们直接打击的是用trancriptome
找 bio-marker 的那些人。
这个话题之所以会引到GWAS上,主要是因为我自己对GWAS有偏见,三句话
不忘顺便打击GWAS,结果就把这个话题说到那边去了。
其实这个文章本身打击的直接对象不是GWAS,这个得澄清一下。
2。GWAS (作为一个思路) 和是否用NGS (方法)没有关系。

【在 p*****m 的大作中提到】
: 所以你之前讨论microarry表达量测的不准啊样品用得多啊都应该打回去重写 呵呵 没
: 听说谁是用表达量(cDNA array)来做GWAS的,做GWAS无非就是几个办法,SNP array,
: 用得最多;genome tiling array,估计有些不差钱的人用。然后就是whole genome
: sequnrcing,这个有了NGS估计会有很多人做。
: 不管哪个都和cDNA array没关系。。而且不管哪个也都解决不了GWAS本身不准的问题

avatar
n*e
141
bless!
avatar
s*y
142
因为有一个人在讨论的时候说NGS 会取代GWAS,
然后我纠正他的观点的时候又进行了一些思维跳跃。结果就变成了讨论到底什么
才是GWAS的问题了。呵呵

【在 p*****m 的大作中提到】
: 这个定义很清楚吧。。你引得这个文章本身和GWAS一点关系都没有 其实我也不知道话
: 题怎么转到GWAS来了。。我好像就是随口说了个GWAS的统计问题 结果。。

avatar
S*Y
143
cong
avatar
n*k
144
en, I feel I am normal now:)))

【在 s******y 的大作中提到】
: 因为有一个人在讨论的时候说NGS 会取代GWAS,
: 然后我纠正他的观点的时候又进行了一些思维跳跃。结果就变成了讨论到底什么
: 才是GWAS的问题了。呵呵

avatar
h*r
145
bless

【在 S**A 的大作中提到】
: 求祝福LD EAD 快批
: PD: Oct 2008
: RD: Jan 11 2012
: NSC
: 前20位包子.
: 多谢!!

avatar
n*k
146
Single cell NGS for genome is a mess too...still long way to go...it seems
Quake just reported end of last year...unless you have some insider
information on this, what I have heard it is a mess---God knows after all
those amlification step etc...

【在 p*****m 的大作中提到】
: 所以你之前讨论microarry表达量测的不准啊样品用得多啊都应该打回去重写 呵呵 没
: 听说谁是用表达量(cDNA array)来做GWAS的,做GWAS无非就是几个办法,SNP array,
: 用得最多;genome tiling array,估计有些不差钱的人用。然后就是whole genome
: sequnrcing,这个有了NGS估计会有很多人做。
: 不管哪个都和cDNA array没关系。。而且不管哪个也都解决不了GWAS本身不准的问题

avatar
h*n
147
cong
avatar
s*y
148
这个你说的对

【在 s*******r 的大作中提到】
: 此文对GWAS/NGS (DNA) 没有什么影响。Microarray/RNA-seq 关心的基因表达本来就混
: 乱成网,搞不清楚原因结果。

avatar
m*U
149
bless
avatar
F*Q
150
那篇文章最重要的是点出了目前做文章的普遍问题。当前社会基本只有做文章而没有真
正做Science的,不幸中的万幸是有少数文章做得碰巧和science一致。

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

avatar
B*o
151
Bless

求祝福LD EAD 快批PD: Oct 2008RD: Jan 11 2012NSC前20位包子.多谢!!
★ Sent from iPhone App: iReader Mitbbs Lite 7.39

【在 S**A 的大作中提到】
: 求祝福LD EAD 快批
: PD: Oct 2008
: RD: Jan 11 2012
: NSC
: 前20位包子.
: 多谢!!

avatar
t*d
152
It is weird.

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

avatar
F5
153
pai baozi
avatar
i*g
154
本来就是么,这些都是自娱自乐的东东
版上好多wsn,都来米帝国这么多年了,早就应该看破一些学界的把戏了
但心里嘲笑这些,写东西还是一板一眼的按8股文风写啊
avatar
Um
155
gxgx, chi baozi
avatar
A*n
156
不觉得这篇文章有那么轰动的意义。看了一下他们的方法,他们并不是用单个基因的信
息,而是100个基因做了PCA之后的PC1,很大程度上已经抹去了很多随机的因素,如果
有时间的话可以算一下100个基因的PC1和全基因组的PC1,说不定相关程度更大,这样
100个基因已经包含了很多的信息,具有一定的分类效果也就不奇怪了。其次本来
biomarker就不一定和机制有什么密不可分的联系,有些就是用来对病人进行分型,或
者预测治疗预后的,也早已经有很多报道表明不同的基因组合可以实现相同的分类性能
。但是如果都能实现较好的分类效果,并且基因数目相对较好的话,就已经可以达到
biomarker的目的啦。本来biomarker就是从实用性出发,而不应该包含太多因果的概念
在里面。就像癌症数据,找了那么mutation,而要找出driver mutation还是很不容易
,但并不代表找到的mutation没有意义了。

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

avatar
r*0
157
bless
avatar
s*y
158
可是如果随便选出来的基因能够比那些发表的基因更准确的话,那么人们干吗
还要做研究?
所以这里肯定有几个问题,要么就是那个方法本身就是有重大缺陷,
要么就是那些发表出来的基因都是错的。

【在 A*****n 的大作中提到】
: 不觉得这篇文章有那么轰动的意义。看了一下他们的方法,他们并不是用单个基因的信
: 息,而是100个基因做了PCA之后的PC1,很大程度上已经抹去了很多随机的因素,如果
: 有时间的话可以算一下100个基因的PC1和全基因组的PC1,说不定相关程度更大,这样
: 100个基因已经包含了很多的信息,具有一定的分类效果也就不奇怪了。其次本来
: biomarker就不一定和机制有什么密不可分的联系,有些就是用来对病人进行分型,或
: 者预测治疗预后的,也早已经有很多报道表明不同的基因组合可以实现相同的分类性能
: 。但是如果都能实现较好的分类效果,并且基因数目相对较好的话,就已经可以达到
: biomarker的目的啦。本来biomarker就是从实用性出发,而不应该包含太多因果的概念
: 在里面。就像癌症数据,找了那么mutation,而要找出driver mutation还是很不容易
: ,但并不代表找到的mutation没有意义了。

avatar
l*n
159
bless
avatar
n*k
160
I don't think you got it yet:)))...I was a bit confused, feeling something
not right but now after reading his post, I think I finally got it...Frankly
now I feel this paper could have deserved NCS but definitely not in the way
/angle they are going or you are suggesting...It would be exciting and I am
not gonna say anything in case it is wrong but wait to see any follow up:)))

【在 s******y 的大作中提到】
: 可是如果随便选出来的基因能够比那些发表的基因更准确的话,那么人们干吗
: 还要做研究?
: 所以这里肯定有几个问题,要么就是那个方法本身就是有重大缺陷,
: 要么就是那些发表出来的基因都是错的。

avatar
c*n
161
bless
avatar
s*s
162
这样的话,真没啥特别的。做统计的都知道,对一大堆毫无关联
的dummy variable做regression, 只要自变量够多,总是能match很好。如果
真的用了100个基因做出来的PC1,别说cancer marker了,几乎啥都
能解释

【在 A*****n 的大作中提到】
: 不觉得这篇文章有那么轰动的意义。看了一下他们的方法,他们并不是用单个基因的信
: 息,而是100个基因做了PCA之后的PC1,很大程度上已经抹去了很多随机的因素,如果
: 有时间的话可以算一下100个基因的PC1和全基因组的PC1,说不定相关程度更大,这样
: 100个基因已经包含了很多的信息,具有一定的分类效果也就不奇怪了。其次本来
: biomarker就不一定和机制有什么密不可分的联系,有些就是用来对病人进行分型,或
: 者预测治疗预后的,也早已经有很多报道表明不同的基因组合可以实现相同的分类性能
: 。但是如果都能实现较好的分类效果,并且基因数目相对较好的话,就已经可以达到
: biomarker的目的啦。本来biomarker就是从实用性出发,而不应该包含太多因果的概念
: 在里面。就像癌症数据,找了那么mutation,而要找出driver mutation还是很不容易
: ,但并不代表找到的mutation没有意义了。

avatar
b*t
163
bless~~~

【在 S**A 的大作中提到】
: 求祝福LD EAD 快批
: PD: Oct 2008
: RD: Jan 11 2012
: NSC
: 前20位包子.
: 多谢!!

avatar
a*n
164

我没具体看过这些算法, 但是我想这些算法提到的P value, 应该跟sudent test这些方
法的P value意义应该是不一样的吧

【在 p*****m 的大作中提到】
: 这样的P value本质上就是用错统计方法的结果
avatar
c*3
165
bless

【在 S**A 的大作中提到】
: 求祝福LD EAD 快批
: PD: Oct 2008
: RD: Jan 11 2012
: NSC
: 前20位包子.
: 多谢!!

avatar
a*n
166

能不能推荐一本教材?

【在 s******s 的大作中提到】
: 其实,我觉得做生物的都至少要去上一门stat 101.
: 一个是大家天天搞的sd, error bar的问题
: 另一个是搞清楚association和causality的关系
: 最后,好好理解一下multitest correction

avatar
w*6
167
Bless
avatar
s*s
168
我没看原文。如果别人只是几个或者十几个marker, 他搞一个100基因marker,
那是没啥可比的。就算都是100个基因的marker, 这么多dummy variable几乎
可以解释到极限了,其他的“未必”能有很大的提高。

【在 s******y 的大作中提到】
: 可是如果随便选出来的基因能够比那些发表的基因更准确的话,那么人们干吗
: 还要做研究?
: 所以这里肯定有几个问题,要么就是那个方法本身就是有重大缺陷,
: 要么就是那些发表出来的基因都是错的。

avatar
s*s
169
意义都是一样。问题是统计学做这些test都有很多假设要求先满足,
生物上拿来主义很多不符合条件就用,比如很多要求independence的
大家都无所谓,所以p value做出来可能不对

【在 a*******n 的大作中提到】
:
: 能不能推荐一本教材?

avatar
A*n
170
首先他们做完PCA之后就不再是完全的随机了,就像上面说的microarray数据一来,直
接做个PCA,实际上就能做到很好的效果了。之所以作biomarker的研究就是希望能够用
尽量少的基因数实现同样的目的。想象一下有个完美的基因,同时还有100个基因的表
达模式和其高度相关,不同的方法会选出这100个里面中间的一个。这个时候,方法没
有什么重大缺陷,基因也没有错,每个也都能作为一个很好的biomarker。错的其实就
是有些人在希望这个基因有很好分类性能的同时,还希望证明这个特定的基因和机制有
关系,这就相当于对biomarker寄予了太高的要求。

【在 s******y 的大作中提到】
: 可是如果随便选出来的基因能够比那些发表的基因更准确的话,那么人们干吗
: 还要做研究?
: 所以这里肯定有几个问题,要么就是那个方法本身就是有重大缺陷,
: 要么就是那些发表出来的基因都是错的。

avatar
z*t
171
GWAS一般用bonfferoni test

【在 a*******n 的大作中提到】
:
: 能不能推荐一本教材?

avatar
s*s
172
没啥教材,也就一两句话的事情
比如统计基本上只能做出association,要做causality要design实验或者trial一类的
multitest的意思是,统计里面95%的意思就算两个population一模一样,你随机
抽二十组sample,估计就会有一组是statistically different的,所以这个算出来
的p<0.05很可能有问题

【在 a*******n 的大作中提到】
:
: 能不能推荐一本教材?

avatar
s*y
173
从文章的摘要里面看,当他们把那些随便挑出来的marker 和已知的
markers set 相比的时候,是用同样多的size 来比较的:
Twenty-eight of them (60%) were not significantly better outcome predictors
than random signatures of identical size and 11 (23%) were worst predictors
than the median random signature
不过我也只看了摘要,没有看全文(因为看不懂。。。)

【在 s******s 的大作中提到】
: 我没看原文。如果别人只是几个或者十几个marker, 他搞一个100基因marker,
: 那是没啥可比的。就算都是100个基因的marker, 这么多dummy variable几乎
: 可以解释到极限了,其他的“未必”能有很大的提高。

avatar
s*2
174
现行的GWAS在方法学方面有严重缺陷,我正在投一篇paper更正一个问题。

【在 i*e 的大作中提到】
: GWAS的结果本来就不应该作为推测机理
: 它理论依据本来就是基于几个假说
: 就算E-8的显著性阈值都还是假阳性很多
:
: a
: discovered

avatar
s*s
175
就像我前面说的“就算都是100个基因的marker, 这么多dummy variable几乎
可以解释到极限了,其他的“未必”能有很大的提高。”
举个例子,苹果股票的价格可能40%是predictable的,另外60%是random的。
你可以用iphone的销量,android的升级,苹果研发费用等10个参数预测,可能
能预测30%。这时周星驰跳出来,用苹果员工领带颜色,裙子长短,非洲人肤色,
太平洋大马哈鱼数量,人马座亮度变化等来预测,只要用的参数够多,比如100
个,就很可能得到更好的结果,比如35%。这个预测已经离40%够近了,就算股票
专家把参数也扩展到100个,也未必能好多少。

predictors
predictors

【在 s******y 的大作中提到】
: 从文章的摘要里面看,当他们把那些随便挑出来的marker 和已知的
: markers set 相比的时候,是用同样多的size 来比较的:
: Twenty-eight of them (60%) were not significantly better outcome predictors
: than random signatures of identical size and 11 (23%) were worst predictors
: than the median random signature
: 不过我也只看了摘要,没有看全文(因为看不懂。。。)

avatar
s*y
176
那。。。你的意思是说。。。这个本来就是一个不可能测得很准的问题?或者
你的意思是说只要参数数量足够多,最后都能把一些不是紧密相关的参数和
结果联系起来?

【在 s******s 的大作中提到】
: 就像我前面说的“就算都是100个基因的marker, 这么多dummy variable几乎
: 可以解释到极限了,其他的“未必”能有很大的提高。”
: 举个例子,苹果股票的价格可能40%是predictable的,另外60%是random的。
: 你可以用iphone的销量,android的升级,苹果研发费用等10个参数预测,可能
: 能预测30%。这时周星驰跳出来,用苹果员工领带颜色,裙子长短,非洲人肤色,
: 太平洋大马哈鱼数量,人马座亮度变化等来预测,只要用的参数够多,比如100
: 个,就很可能得到更好的结果,比如35%。这个预测已经离40%够近了,就算股票
: 专家把参数也扩展到100个,也未必能好多少。
:
: predictors

avatar
i*e
177
没错
作者对prognostic biomarker“混淆”或者“不懂”或者“过多寄予厚望”
同理,很多人对GWAS的association和causality也是如此
只是现在都是先下手为强,有个hit就硬往functional靠

【在 A*****n 的大作中提到】
: 首先他们做完PCA之后就不再是完全的随机了,就像上面说的microarray数据一来,直
: 接做个PCA,实际上就能做到很好的效果了。之所以作biomarker的研究就是希望能够用
: 尽量少的基因数实现同样的目的。想象一下有个完美的基因,同时还有100个基因的表
: 达模式和其高度相关,不同的方法会选出这100个里面中间的一个。这个时候,方法没
: 有什么重大缺陷,基因也没有错,每个也都能作为一个很好的biomarker。错的其实就
: 是有些人在希望这个基因有很好分类性能的同时,还希望证明这个特定的基因和机制有
: 关系,这就相当于对biomarker寄予了太高的要求。

avatar
t*o
178
你说的这个似乎只能解释对现有结果的regression之类的吧,对未来的预测应该不会那
么准吧。就比如说machine learning里面,只要model的复杂度高一些,用100个随机变
量大概总能解释50个样本的结果,但是对于独立的另外一批50个样本的结果基本就是错
误率超高了。感觉就是个overfitting的问题。。。

【在 s******s 的大作中提到】
: 就像我前面说的“就算都是100个基因的marker, 这么多dummy variable几乎
: 可以解释到极限了,其他的“未必”能有很大的提高。”
: 举个例子,苹果股票的价格可能40%是predictable的,另外60%是random的。
: 你可以用iphone的销量,android的升级,苹果研发费用等10个参数预测,可能
: 能预测30%。这时周星驰跳出来,用苹果员工领带颜色,裙子长短,非洲人肤色,
: 太平洋大马哈鱼数量,人马座亮度变化等来预测,只要用的参数够多,比如100
: 个,就很可能得到更好的结果,比如35%。这个预测已经离40%够近了,就算股票
: 专家把参数也扩展到100个,也未必能好多少。
:
: predictors

avatar
t*o
179
对已经有的数据来说确实如此,但是对独立的另外一批样本应该就不行了,也就是说基
本没啥预测价值。

【在 s******y 的大作中提到】
: 那。。。你的意思是说。。。这个本来就是一个不可能测得很准的问题?或者
: 你的意思是说只要参数数量足够多,最后都能把一些不是紧密相关的参数和
: 结果联系起来?

avatar
i*e
180
这也就是1E-7阈值所在,那时候500M的SNP set
不过最近听一个报告,目前5M的SNP set
也被模拟论证不用再提高阈值了
其实最重要的是能否被replicate出来,p值倒是其次的

【在 z*t 的大作中提到】
: GWAS一般用bonfferoni test
avatar
k*o
181

统计学上有没有什么procedure是说明因果关系的?我不是学统计的,请教下。

【在 s******s 的大作中提到】
: 没啥教材,也就一两句话的事情
: 比如统计基本上只能做出association,要做causality要design实验或者trial一类的
: multitest的意思是,统计里面95%的意思就算两个population一模一样,你随机
: 抽二十组sample,估计就会有一组是statistically different的,所以这个算出来
: 的p<0.05很可能有问题

avatar
k*o
182
不知道把这篇文章的方法用到临床诊断会有什么后果..
avatar
i*e
183
也有可能很大程度heterogeneity的问题

【在 t*******o 的大作中提到】
: 你说的这个似乎只能解释对现有结果的regression之类的吧,对未来的预测应该不会那
: 么准吧。就比如说machine learning里面,只要model的复杂度高一些,用100个随机变
: 量大概总能解释50个样本的结果,但是对于独立的另外一批50个样本的结果基本就是错
: 误率超高了。感觉就是个overfitting的问题。。。

avatar
s*2
184
SNP数目的多少和p value没有直接关系。
p value和sample size有关。

【在 i*e 的大作中提到】
: 这也就是1E-7阈值所在,那时候500M的SNP set
: 不过最近听一个报告,目前5M的SNP set
: 也被模拟论证不用再提高阈值了
: 其实最重要的是能否被replicate出来,p值倒是其次的

avatar
i*e
185
我说的是p value multiple testing 的cutoff, alpha值

【在 s*******2 的大作中提到】
: SNP数目的多少和p value没有直接关系。
: p value和sample size有关。

avatar
i*e
186
biomark追求少比多好
J Natl Cancer Inst. 2012 Jan 18. [Epub ahead of print]
A Three-Gene Model to Robustly Identify Breast Cancer Molecular Subtypes.
Haibe-Kains B, Desmedt C, Loi S, Culhane AC, Bontempi G, Quackenbush J,
Sotiriou C.
PMID: 22262870

【在 A*****n 的大作中提到】
: 首先他们做完PCA之后就不再是完全的随机了,就像上面说的microarray数据一来,直
: 接做个PCA,实际上就能做到很好的效果了。之所以作biomarker的研究就是希望能够用
: 尽量少的基因数实现同样的目的。想象一下有个完美的基因,同时还有100个基因的表
: 达模式和其高度相关,不同的方法会选出这100个里面中间的一个。这个时候,方法没
: 有什么重大缺陷,基因也没有错,每个也都能作为一个很好的biomarker。错的其实就
: 是有些人在希望这个基因有很好分类性能的同时,还希望证明这个特定的基因和机制有
: 关系,这就相当于对biomarker寄予了太高的要求。

avatar
b*n
187
问题是不少clinical的文章就是这一批病人的数据,做出个模型就OK,如果下一批数据
明显不符合的话,这帮MD还可以bullshit一下说是其他原因。。

【在 t*******o 的大作中提到】
: 对已经有的数据来说确实如此,但是对独立的另外一批样本应该就不行了,也就是说基
: 本没啥预测价值。

avatar
s*s
188
这是个哲学问题 应该没有

【在 k****o 的大作中提到】
: 不知道把这篇文章的方法用到临床诊断会有什么后果..
avatar
s*s
189
数量够多就行
想象一下三维空间里面三个向量 不管某个坐标方向的分量多小
只要他们不线性相关 总能线性组合出三个正交坐标轴 也就是完美预测任何一个三维向量

【在 s******y 的大作中提到】
: 那。。。你的意思是说。。。这个本来就是一个不可能测得很准的问题?或者
: 你的意思是说只要参数数量足够多,最后都能把一些不是紧密相关的参数和
: 结果联系起来?

avatar
s*s
190
是呀 所以独立sample的validation最重要啦

【在 t*******o 的大作中提到】
: 你说的这个似乎只能解释对现有结果的regression之类的吧,对未来的预测应该不会那
: 么准吧。就比如说machine learning里面,只要model的复杂度高一些,用100个随机变
: 量大概总能解释50个样本的结果,但是对于独立的另外一批50个样本的结果基本就是错
: 误率超高了。感觉就是个overfitting的问题。。。

avatar
f*u
191
对于cancer来说,我感觉理论上的predictability应该很高,而randomness很小吧。
所以理论上应该可以从genotype来预测prognosis,具体怎么预测那是另一回事。
如果机理完全明确了,那自然就很容易预测了,
在机理不明的情况下,就算用100个基因,如果预测准确率能很高,也挺好。
关键词是预测,不是解释。
这类模型通常是用一个有限样本来建立的,自然能很好地解释这个样本。
如果不能比较准确的预测下一个样本,那就是白费。

【在 s******s 的大作中提到】
: 就像我前面说的“就算都是100个基因的marker, 这么多dummy variable几乎
: 可以解释到极限了,其他的“未必”能有很大的提高。”
: 举个例子,苹果股票的价格可能40%是predictable的,另外60%是random的。
: 你可以用iphone的销量,android的升级,苹果研发费用等10个参数预测,可能
: 能预测30%。这时周星驰跳出来,用苹果员工领带颜色,裙子长短,非洲人肤色,
: 太平洋大马哈鱼数量,人马座亮度变化等来预测,只要用的参数够多,比如100
: 个,就很可能得到更好的结果,比如35%。这个预测已经离40%够近了,就算股票
: 专家把参数也扩展到100个,也未必能好多少。
:
: predictors

avatar
i*e
192
预测还是不容易啊
low-hanging fruits 像BRCA1/2这种的
现有的模型都还不能很好的predict risk
基因表达这种比DNA sequences更variable,更难QC的预测模型就更难了

【在 f**u 的大作中提到】
: 对于cancer来说,我感觉理论上的predictability应该很高,而randomness很小吧。
: 所以理论上应该可以从genotype来预测prognosis,具体怎么预测那是另一回事。
: 如果机理完全明确了,那自然就很容易预测了,
: 在机理不明的情况下,就算用100个基因,如果预测准确率能很高,也挺好。
: 关键词是预测,不是解释。
: 这类模型通常是用一个有限样本来建立的,自然能很好地解释这个样本。
: 如果不能比较准确的预测下一个样本,那就是白费。

avatar
f*e
193
Bayesian network

【在 s******s 的大作中提到】
: 这是个哲学问题 应该没有
avatar
f*e
194
他们有没有做 cross validation? 如果是你说的 overfitting
问题的话 10fold cross Val 还是 bootstrapping 应该能抓出来

【在 s******s 的大作中提到】
: 我没看原文。如果别人只是几个或者十几个marker, 他搞一个100基因marker,
: 那是没啥可比的。就算都是100个基因的marker, 这么多dummy variable几乎
: 可以解释到极限了,其他的“未必”能有很大的提高。

avatar
l*1
195
Oui
please refer Network-based genome-wide association studies (NWAS)
for identifying prognostic gene signatures to predict cancer recurrence.
report on
//www.cse.buffalo.edu/ACM-BCB2010/
by
Ying-Wooi Wan, Swetha Bose, James Denvir, and Nancy Lan Guo
Title:
A Novel Network Model for Molecular Prognosis
Abstracts:
Network-based genome-wide association studies (NWAS) utilize the molecular interactions between genes
and functional pathways in biomarker identification. This study presents a novel network-based
methodology for identifying prognostic gene signatures to predict cancer recurrence.
full text:
//www.hsc.wvu.edu/mbrcc/fs/GuoLab/pdfs/ACMBCB2010_our%20paper.pdf
also please go to
2012 one relative paper:
//www.ncbi.nlm.nih.gov/pubmed/22161328

【在 f**********e 的大作中提到】
: Bayesian network
avatar
s*l
196
This paper is nothing new except complaining, I rememberer to read a paper (
2010), they already reported that randomly genes have predictive power, but
often not roust. Then they focused on cancer hallmark genes (mechanism-based
?) and get very good results which are better than all others.
yes, I find it:
Nat Commun. 2010 Jul 13;1:34. doi: 10.1038/ncomms1033.
Identification of high-quality cancer prognostic markers and metastasis
network modules.
avatar
l*1
197
RE LS
LZ is not SysBio filed and not family with this field
so just take this Top O floor past as watching broadly just.
Ps:
plus one paper:
Development of a Bayesian Classifier for Breast Cancer Risk Stratification:
A Feasibility Study
Results: Independent predictors of biopsy outcome in the BBN model included personal breast disease
history, breast size, EIS (low vs high risk) and imaging results, and Gail cutoff (5-year risk: <1.66% vs
≥1.66%). Area under the receiver operating characteristic curve and positive predictive value for benign and
malignant biopsy outcomes were 0.88 and 97% and 0.97 and 42%,
//www.decisionq.com/pdfs/decq_clinicaldecisionsupport_casestudy02.pdf

(
but
based

【在 s******l 的大作中提到】
: This paper is nothing new except complaining, I rememberer to read a paper (
: 2010), they already reported that randomly genes have predictive power, but
: often not roust. Then they focused on cancer hallmark genes (mechanism-based
: ?) and get very good results which are better than all others.
: yes, I find it:
: Nat Commun. 2010 Jul 13;1:34. doi: 10.1038/ncomms1033.
: Identification of high-quality cancer prognostic markers and metastasis
: network modules.

avatar
s*2
198
我知道。但是有缺陷。

【在 i*e 的大作中提到】
: 我说的是p value multiple testing 的cutoff, alpha值
avatar
w*n
199
Google Causal Inference

【在 s******s 的大作中提到】
: 这是个哲学问题 应该没有
avatar
z*n
200
看了半天没看明白,他到底用的啥统计方法???谁看明白的说一下??
avatar
n*a
201
我觉得他这个文章指出的是统计学在生物里的的应用的问题。
我觉得他得出这个结论的前提条件就是对biomarker定义的一个误导。
至少我是这样认为的
biomarker首先是要有bio然后才有marker。
biomarker的重要一点就是它要在bio上说的过去。而且biomarker目前也不是用于诊断
,它只是给你一个大方向,让你可以试着有的放矢,尽可能的避免资源浪费,尽可能的
使病人得到最有效的治疗。
单就统计方法来说,biomarker的产生其实就是比较两组数据之间的最大差别。任和已
知方法的目的就是通过各种分类,简化来找出最大区别。说白了就是通过数据优化来达
到分类效果。所以任选任何100个基因可以outperform现有signature的现象一点都不奇
怪。有太多未知的因素可以使跟癌症可能完全不相关的基因产生更明显的差别。如果这
个差别大于你biomarker的差别,你当然会得出好的signature。我觉得这也是为什么好
多更为复杂,先进的数学方法没有应用到生物学的原因。因为没有必要,我们根本不知
道什么方法可以用来准确对生物数据进行简化。如果简单易懂,适合短时间,大批量操
作的方法,没有必要用复杂,局限性更大的方法。因为biomarker的产生重要的不是在
统计这一环。重要的是在如何选取数据,如何分类数据,从而更大程度的保证统计方法
中简化的数据真的是重复的数据。我不是学统计的。所以错误之处请谅解。
所以,一个好的biomarker着重的是生物学上的意义,而不是统计学上的score。 你有
再好的score不能从生物学上解释也不能算biomarker。所以通畅来说,发表一个
biomarker其实不是说我这些基因score有多好,而是说用这些基因来区别这种癌症在生
物学上说得通。这些基因的不同是在现有知识基础上有生物学意义的。比如说特定的
pathway被激活,特定的受体被抑制之类。其实一个biomarker重要的是它背后的这个生
物故事。我觉得。
当然,也存在很多paper为了说故事而说故事。这是在现存条件下不能避免的。所谓的
garbage in garbage out。但这不代表所有的biomarker都不可以相信。
我个人觉得这个paper不被顶级杂志接受是有道理的。不能说作者不懂生物,但我个人
觉得作者有哗众取宠之闲。因为所有我认识的搞biomarker的人都承认你可以fit任何一
组数据来达到更好的结果。但你这个结果是否通得过实验和临床得验证就不一定了。像
paper里说的任选的100个基因,有人会相信这些基因可以推出未知的癌症调控机理吗?
avatar
r*t
202
granger causality

【在 k****o 的大作中提到】
: 不知道把这篇文章的方法用到临床诊断会有什么后果..
avatar
s*s
203
看不懂。解释一下吧。看上去像是统计里面用了causality,而不是
用统计推导causality

【在 w*****n 的大作中提到】
: Google Causal Inference
avatar
X*2
204
你这个说法老夫非常赞同。
老夫觉得作者的论证有问题,100个随机挑选的marker
得到的结果优于少数“精心”挑选出来的marker
并不能说明那少数marker没有价值。
老夫曾经由于其它问题研究过在混合高斯模型下,
从高维数据中随机抽取部分特征后的“表达力”问题。
发现这随机抽取的特征只需要满足很弱的协相关
性的假设,那么这些特征的表达能力跟用全部特
征差别不大。具体取决于全部特征本身的表达能
力,以及抽取的特征数量占全部特征数量的比例。
由于这样随机抽取100 个marker以后,其表达能
力跟用全部基因的表达能力差别不大,所以这100
个marker的表达能力就很强了。因此它们会跟“精心”
挑出来的少数基因结果差不多甚至更优越。
当然话说回来,目前的很多相关研究都是有问题
的。自欺欺人地在用统计却不管任何条件和假设,
反正投稿或是写proposal都没有问题,因为关系
的作用太大了,而且裁判很多都是没有严格科学
训练而又自以为是的MD。

【在 s******s 的大作中提到】
: 我没看原文。如果别人只是几个或者十几个marker, 他搞一个100基因marker,
: 那是没啥可比的。就算都是100个基因的marker, 这么多dummy variable几乎
: 可以解释到极限了,其他的“未必”能有很大的提高。

avatar
f*e
205
Causal inference 是个纲领,实际的技术(之一)
就是 Bayesian network. BN 的 structure learning
是很成熟的技术,虽然也有 over fitting 的问题。

【在 s******s 的大作中提到】
: 看不懂。解释一下吧。看上去像是统计里面用了causality,而不是
: 用统计推导causality

avatar
l*s
206
good to know.Intuitively, how and why BN works?

【在 f**********e 的大作中提到】
: Causal inference 是个纲领,实际的技术(之一)
: 就是 Bayesian network. BN 的 structure learning
: 是很成熟的技术,虽然也有 over fitting 的问题。

avatar
V*b
207
“其他的组织”也会有这个somatic mutation的。就算没有,这个mutation也不见得是
病因,各个组织的微环境/细胞群很不同。在这个问题上,没有perfect control。

【在 s******y 的大作中提到】
: 可以和自己身上其他组织相比啊。
: 有这么做的。而且已经有人开始这么建数据库了。

avatar
V*b
208
transcriptome和proteome的相关性非常差。DNA sequencing几乎100%准确。但是
transcriptome可以提供些epigenetics的信息,DNA却不能。

【在 s******y 的大作中提到】
: transcriptome 的准确度远远比不上白纸黑字的DNA sequence mutation data 吧。
: 而且transcriptome 的可变性太高了,得出来的数据大部分都是垃圾。
: 别的不说,单是这个single cell microarray 的样品源就大有问题,
: 谁知道进去的那个细胞真的就是癌细胞?弄不好是样品里面污染的其他组织细胞
: 或者血细胞什么的,马上就和对照的transcriptome 不一样了。
: 但是单细胞的DNA sequencing 就不一样了,不管什么组织,在没有病变的
: 前提下,绝大部分的DNA sequence 应该都是相同的吧。

avatar
V*b
209
这篇文章发PLOS恰如其分。很水。这篇文章挑出来的那些著名的marker其实80%都是
driver;那些所谓随机挑的一些基因80%都是passenger。driver发生变化,乳腺癌了,
然后passenger也跟着变了,然后这几个作者跳出来说:你们看,这两堆基因没什么差
异嘛,都变了。
问题是:driver是有效的药物靶位点,passenger不是。

【在 s******y 的大作中提到】
: 可是如果随便选出来的基因能够比那些发表的基因更准确的话,那么人们干吗
: 还要做研究?
: 所以这里肯定有几个问题,要么就是那个方法本身就是有重大缺陷,
: 要么就是那些发表出来的基因都是错的。

avatar
V*b
210
同意这句话。

【在 i*e 的大作中提到】
: 预测还是不容易啊
: low-hanging fruits 像BRCA1/2这种的
: 现有的模型都还不能很好的predict risk
: 基因表达这种比DNA sequences更variable,更难QC的预测模型就更难了

avatar
V*b
211
同意。

【在 n***a 的大作中提到】
: 我觉得他这个文章指出的是统计学在生物里的的应用的问题。
: 我觉得他得出这个结论的前提条件就是对biomarker定义的一个误导。
: 至少我是这样认为的
: biomarker首先是要有bio然后才有marker。
: biomarker的重要一点就是它要在bio上说的过去。而且biomarker目前也不是用于诊断
: ,它只是给你一个大方向,让你可以试着有的放矢,尽可能的避免资源浪费,尽可能的
: 使病人得到最有效的治疗。
: 单就统计方法来说,biomarker的产生其实就是比较两组数据之间的最大差别。任和已
: 知方法的目的就是通过各种分类,简化来找出最大区别。说白了就是通过数据优化来达
: 到分类效果。所以任选任何100个基因可以outperform现有signature的现象一点都不奇

avatar
f*e
212
BN 把一个高维联合分布用 acyclic directed graph (DAG) 写成
许多的条件分布。所有的随机变量都是用有向的边连接的,这自然隐含
了因果关系。如果你能准确地知道所有随机变量的联合分布,你自然
可以对这系统进行任何推论。

【在 l*********s 的大作中提到】
: good to know.Intuitively, how and why BN works?
avatar
D*a
213
同意这个看法,我觉得他就是给大家提醒下不要瞎胡闹,我觉得他潜在意思应该是,
就算不是任选的100个基因,你们各位发表的据说有生物学效用的基因,又有多少人(
包括你们自己)会相信这些基因可以推出未知的癌症调控机理?

【在 n***a 的大作中提到】
: 我觉得他这个文章指出的是统计学在生物里的的应用的问题。
: 我觉得他得出这个结论的前提条件就是对biomarker定义的一个误导。
: 至少我是这样认为的
: biomarker首先是要有bio然后才有marker。
: biomarker的重要一点就是它要在bio上说的过去。而且biomarker目前也不是用于诊断
: ,它只是给你一个大方向,让你可以试着有的放矢,尽可能的避免资源浪费,尽可能的
: 使病人得到最有效的治疗。
: 单就统计方法来说,biomarker的产生其实就是比较两组数据之间的最大差别。任和已
: 知方法的目的就是通过各种分类,简化来找出最大区别。说白了就是通过数据优化来达
: 到分类效果。所以任选任何100个基因可以outperform现有signature的现象一点都不奇

avatar
l*1
214
BN is belong to one
time independently stochastic analysis.
one possible mentor for this field:
//www.math.umn.edu/~othmer/
his refresh new paper:
//www.math.umn.edu/~othmer/papers/final.pdf

【在 f**********e 的大作中提到】
: BN 把一个高维联合分布用 acyclic directed graph (DAG) 写成
: 许多的条件分布。所有的随机变量都是用有向的边连接的,这自然隐含
: 了因果关系。如果你能准确地知道所有随机变量的联合分布,你自然
: 可以对这系统进行任何推论。

avatar
l*s
215
However, knowing conditional probabilities is not the same as know the
causal relationship. a-> b and b-> a are statistically equivalent structures
.I think in the end, the causal relationship can only be established from temporal orders.If you don't have any prior knowledge, no shapshot analysis can help you, including the allmighty BN.

【在 f**********e 的大作中提到】
: BN 把一个高维联合分布用 acyclic directed graph (DAG) 写成
: 许多的条件分布。所有的随机变量都是用有向的边连接的,这自然隐含
: 了因果关系。如果你能准确地知道所有随机变量的联合分布,你自然
: 可以对这系统进行任何推论。

avatar
s*s
216
我自己做过structural equation modeling, 也是用有向边连接
的,貌似很容易解释成因果,实际上都不能。不知道这个causality
inference怎么做的,对我来说,无法想想不加其他条件,只靠stat
就能确定因果关系。前面一位也提到了一个causality test, 我wiki
了一下,里面说明其实只是一个hint, 无法证明因果.

【在 f**********e 的大作中提到】
: BN 把一个高维联合分布用 acyclic directed graph (DAG) 写成
: 许多的条件分布。所有的随机变量都是用有向的边连接的,这自然隐含
: 了因果关系。如果你能准确地知道所有随机变量的联合分布,你自然
: 可以对这系统进行任何推论。

avatar
f*e
217
如果没有 prior 的话,A->B 的确和 B->A 是对称的。但你只要对这个体系知道一
点点信息(打破这个对称),因果关系就会在一定程度上确立。
BN 只有在多变量,而且在模型结构有约束时才能用。如果你不加约束的话,你
会发现所有的 complete graph DAG 的 likelihood 都一样好 (overfitting)。 是的,
你得有一些 structural prior。是的,我同意时间资料很重要。BN 还有一个讨厌的
问题:隐变量。如果有一个无法观察的变量 X 在条件独立的情形下影响下面的 10
个变数,看起来就是那 10 个变数彼此纠缠。

structures
temporal orders.If you don't have any prior knowledge, no shapshot analysis
can help you, including the allmighty BN.

【在 l*********s 的大作中提到】
: However, knowing conditional probabilities is not the same as know the
: causal relationship. a-> b and b-> a are statistically equivalent structures
: .I think in the end, the causal relationship can only be established from temporal orders.If you don't have any prior knowledge, no shapshot analysis can help you, including the allmighty BN.

avatar
f*e
218
100% 的空手套白狼的确是不可能的。一组 data 可以存在多个 fit
得很好的 BN。很难解释成因果的原因我认为是模型本身的不确定性。

【在 s******s 的大作中提到】
: 我自己做过structural equation modeling, 也是用有向边连接
: 的,貌似很容易解释成因果,实际上都不能。不知道这个causality
: inference怎么做的,对我来说,无法想想不加其他条件,只靠stat
: 就能确定因果关系。前面一位也提到了一个causality test, 我wiki
: 了一下,里面说明其实只是一个hint, 无法证明因果.

avatar
o*r
219
Then the mutation is called a "germline" mutation, not a "somatic" mutation.
It is impossible to identify driver mutations from bioinformatics alone
using a single patient.

【在 V***b 的大作中提到】
: “其他的组织”也会有这个somatic mutation的。就算没有,这个mutation也不见得是
: 病因,各个组织的微环境/细胞群很不同。在这个问题上,没有perfect control。

avatar
V*b
220
我现在不明白大规模测序之后,拿到一堆数据,和什么去比对?怎样定义“正常组织”
?比如说Steve Jobs的测序结果怎样?如果发现EGFR/PI3K/Ras这些常见突变倒好说(
其实即便这样也很难下定论),最怕就是发现很多突变,却无法将5%,甚至更少的
cancerous mutation,以及各种cancerous mutation组合,从95%的harmless mutation
中分离出来。把Jobs的胰腺癌细胞和他身上正常组织的序列比较,或者跟另一个“健康
人”的序列比较,肯定有非常多的不一样。

mutation.

【在 o********r 的大作中提到】
: Then the mutation is called a "germline" mutation, not a "somatic" mutation.
: It is impossible to identify driver mutations from bioinformatics alone
: using a single patient.

avatar
o*r
221
For diseases not related to blood, blood cells are a good candidate for
germline sample.
How to use the WGS data is a big issue in this NGS era. One common strategy
used in paired tumor/germline analyses is to compare the mutation spectrum
across multiple patients (from the same cohort or at least same disease type
/subtype) to identify recurrent mutations, which provides leads to wet lab.
If you think bioinformatics alone can give you the definite answer for
driver mutations, probably you will be disappointed. Just like a highly
significant GWAS marker is not necessary a good predictor and not a verdict
for the guilty of nearby genes, I consider bioinformatics as a hypothesis
generator, which give you leads to the solution rather than the definitive
conclusion itself.
Some tumor cells can be dramatically different from the matching germline
samples while others bear very few functional somatic mutations.

mutation

【在 V***b 的大作中提到】
: 我现在不明白大规模测序之后,拿到一堆数据,和什么去比对?怎样定义“正常组织”
: ?比如说Steve Jobs的测序结果怎样?如果发现EGFR/PI3K/Ras这些常见突变倒好说(
: 其实即便这样也很难下定论),最怕就是发现很多突变,却无法将5%,甚至更少的
: cancerous mutation,以及各种cancerous mutation组合,从95%的harmless mutation
: 中分离出来。把Jobs的胰腺癌细胞和他身上正常组织的序列比较,或者跟另一个“健康
: 人”的序列比较,肯定有非常多的不一样。
:
: mutation.

avatar
s*y
222
David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
的基因的准确率比那些所谓的marker 还要好。
文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
把这个文章据掉的杂志 (lol)
文章最后发表在
PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
Random gene sets can predict breast cancer survival better than cancer-
related signatures
And top-tier journals did not want to publish this surprising study.
By Ed Yong
10 January 2012
Email
Print
1 comment
Tumours are bundles of cells that grow and divide uncontrollably, and their
genes are deployed in unusual ways. By analysing the genes from different
tumour samples, scientists have tried to pin down the chaotic events that
lead to cancer. They seem to be making headway. Dozens of papers have
reported “gene expression signatures” that predict the risk of dying or
surviving from cancer, and new ones come out every month.
These signatures purportedly hint at how healthy cells transform into
tumours in the first place. If, for example, the genes in question are
involved in wound healing, this tells you that the healing process is
somehow involved in a tumour’s progression. These collections of genes
reveal deeper truths about the disease they’re associated with.
This idea sounds reasonable, but David Venet from the Université Libre de
Bruxelles has thrown a big spanner into the works. He has shown that
completely random sets of genes can predict the odds of surviving breast
cancer better than published signatures.
Venet found three signatures that are completely unconnected to cancer.
Instead, these collections of genes were associated with laughing at jokes
after lunch, with the experience of social defeat in mice, and with the
positioning of skin cells. All of them were associated with breast cancer
outcomes.
It got worse. Venet collected 47 breast cancer signatures from published
papers and compared them to sets of random genes. The random sets were
equally (or more) strongly associated with breast cancer outcomes than 60%
of the published ones. In fact, you can randomly select a group of 100 genes
or more, and be 90% sure of finding a statistically significant link with
breast cancer. Venet wrote, “Investigators are bound to find an association
however whimsical their marker is.”
Tubular Adenoma of Breast. Image from Flickr, by Ed Uthman
Venet’s study was described as a “must-read” by F1000 member Jinfeng Liu
from Genentech Inc. The results may seem unbelievable, but there is a simple
reason for them. The activities of thousands of genes across a breast
cancer cell’s genome are related to how quickly that cell proliferates (
grows and divides). And that is related to a patient’s prognosis.
As an analogy, you could find hundreds of things that correlate with a
person’s wellbeing and lifespan: the number of Apple products they own,
whether they have university degrees, how many cars they have, and so on.
But this doesn’t mean that these things improve our health; instead, they
reflect how wealthy we are, our lifestyle choices, and our access to good
healthcare.
Gene signatures may be relatively useless at illuminating the causes of
cancer, but the team stresses that they can still help doctors – after all,
they’re still related to prognosis. Writing in The Scientist, the study’s
lead author Vince Detours says, “Smoke does not drive fire, yet it is
powerful indicator of when and where a fire is burning.”
Detours also aims a blow at scientific publishers who have let studies of
genetic signatures proliferate uncontrollably. He wrote:
It took us four years and six rejections to get this work finally
published in a computational biology journal – not the most efficient venue
to reach the oncology community. Meanwhile, a steady stream of studies
confounded by proliferation rates has appeared.
He added,
This has to be said; one can no longer stay silent about the rather
limited self-correction capability of the top tier publishing system (Cell,
Nature Genetics, PNAS, etc.), which promoted these studies in the first
place
avatar
K*S
223
nice

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

avatar
s*s
224
他那几个基因怎么来的?有没有general的意义还是碰巧?

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

avatar
p*m
225
Venet found three signatures that are completely unconnected to cancer.
Instead, these collections of genes were associated with laughing at jokes
after lunch, with the experience of social defeat in mice, and with the
positioning of skin cells.
哈哈哈哈哈

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

avatar
a*k
226
扫了一眼
大意应该是随便抓100个以上的基因,(包括那些发表的看了joke表达不同的,social
有问题的,皮肤细胞问题的基因)90%的可能cancer和正常细胞的表达谱就会有区别。
作者抓了几十篇paper里面报道的所谓在breast cancer里面表达有区别的基因,和他随
便抓的基因比较,只要抓到100个基因以上,两个结果就相差不显著了。
然后他看了一下发表的那些所谓marker,大部分都和cell cycle/PCNA有关,如果拿
PCNA的表达做normalization,世界清静了,cancer marker基本失效。
结论就是cancer marker就是看细胞分裂的,没啥奇怪。

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

avatar
s*s
227
抓100个基因有区别没啥问题啊!统计里面你做panel data (longitudinal)
对一堆random的东西regression, 总是抓住一堆dummy variable的

别。

【在 a********k 的大作中提到】
: 扫了一眼
: 大意应该是随便抓100个以上的基因,(包括那些发表的看了joke表达不同的,social
: 有问题的,皮肤细胞问题的基因)90%的可能cancer和正常细胞的表达谱就会有区别。
: 作者抓了几十篇paper里面报道的所谓在breast cancer里面表达有区别的基因,和他随
: 便抓的基因比较,只要抓到100个基因以上,两个结果就相差不显著了。
: 然后他看了一下发表的那些所谓marker,大部分都和cell cycle/PCNA有关,如果拿
: PCNA的表达做normalization,世界清静了,cancer marker基本失效。
: 结论就是cancer marker就是看细胞分裂的,没啥奇怪。

avatar
p*m
228
是不奇怪 但是这个不奇怪才真的奇怪 因为大家都可以想象cancer cell和normal cell
应该有巨大差异 整体基因表达就应该有巨大差异 居然如此做biomarker的paper是怎么
发出来的呢?

别。

【在 a********k 的大作中提到】
: 扫了一眼
: 大意应该是随便抓100个以上的基因,(包括那些发表的看了joke表达不同的,social
: 有问题的,皮肤细胞问题的基因)90%的可能cancer和正常细胞的表达谱就会有区别。
: 作者抓了几十篇paper里面报道的所谓在breast cancer里面表达有区别的基因,和他随
: 便抓的基因比较,只要抓到100个基因以上,两个结果就相差不显著了。
: 然后他看了一下发表的那些所谓marker,大部分都和cell cycle/PCNA有关,如果拿
: PCNA的表达做normalization,世界清静了,cancer marker基本失效。
: 结论就是cancer marker就是看细胞分裂的,没啥奇怪。

avatar
s*y
229
我觉得他的文章的意思就是大部分基因的表达程度都和细胞的活跃程度有关,
所以随便乱抓几个都能看出区别来,但是和癌症的机理基本上就是打酱油的关系。
总体意思就是目前的主流方法找出来的marker不能作为推测机理的起点。
他们在faculty 1000上抱怨说他们这篇文章一共投了4年,前后被六个
顶级杂志据了(他们直接点名的几家估计是对他们态度最糟糕的,哈哈哈)
这里是他们在PLoS Comp Biol 发表的文章的摘要。
Bridging the gap between animal or in vitro models and human disease is
essential in medical research. Researchers often suggest that a biological
mechanism is relevant to human cancer from the statistical association of a
gene expression marker (a signature) of this mechanism, that was discovered
in an experimental system, with disease outcome in humans. We examined this
argument for breast cancer. Surprisingly, we found that gene expression
signatures-unrelated to cancer-of the effect of postprandial laughter, of
mice social defeat and of skin fibroblast localization were all
significantly associated with breast cancer outcome. We next compared 47
published breast cancer outcome signatures to signatures made of random
genes. Twenty-eight of them (60%) were not significantly better outcome
predictors than random signatures of identical size and 11 (23%) were worst
predictors than the median random signature. More than 90% of random
signatures >100 genes were significant outcome predictors. We next derived a
metagene, called meta-PCNA, by selecting the 1% genes most positively
correlated with proliferation marker PCNA in a compendium of normal tissues
expression. Adjusting breast cancer expression data for meta-PCNA abrogated
almost entirely the outcome association of published and random signatures.
We also found that, in the absence of adjustment, the hazard ratio of
outcome association of a signature strongly correlated with meta-PCNA (R(2)&
#8202;= 0.9). This relation also applied to single-gene expression
markers. Moreover, >50% of the breast cancer transcriptome was correlated
with meta-PCNA. A corollary was that purging cell cycle genes out of a
signature failed to rule out the confounding effect of proliferation. Hence,
it is questionable to suggest that a mechanism is relevant to human breast
cancer from the finding that a gene expression marker for this mechanism
predicts human breast cancer outcome, because most markers do. The methods
we present help to overcome this problem.

cell

【在 p*****m 的大作中提到】
: 是不奇怪 但是这个不奇怪才真的奇怪 因为大家都可以想象cancer cell和normal cell
: 应该有巨大差异 整体基因表达就应该有巨大差异 居然如此做biomarker的paper是怎么
: 发出来的呢?
:
: 别。

avatar
i*e
230
那些做gene signature的文章用的p值都是设定在什么level?0.05?

【在 s******s 的大作中提到】
: 抓100个基因有区别没啥问题啊!统计里面你做panel data (longitudinal)
: 对一堆random的东西regression, 总是抓住一堆dummy variable的
:
: 别。

avatar
s*y
231
一般都比这个严格,经常就是 0.000001

【在 i*e 的大作中提到】
: 那些做gene signature的文章用的p值都是设定在什么level?0.05?
avatar
i*e
232
GWAS的结果本来就不应该作为推测机理
它理论依据本来就是基于几个假说
就算E-8的显著性阈值都还是假阳性很多

a
discovered

【在 s******y 的大作中提到】
: 我觉得他的文章的意思就是大部分基因的表达程度都和细胞的活跃程度有关,
: 所以随便乱抓几个都能看出区别来,但是和癌症的机理基本上就是打酱油的关系。
: 总体意思就是目前的主流方法找出来的marker不能作为推测机理的起点。
: 他们在faculty 1000上抱怨说他们这篇文章一共投了4年,前后被六个
: 顶级杂志据了(他们直接点名的几家估计是对他们态度最糟糕的,哈哈哈)
: 这里是他们在PLoS Comp Biol 发表的文章的摘要。
: Bridging the gap between animal or in vitro models and human disease is
: essential in medical research. Researchers often suggest that a biological
: mechanism is relevant to human cancer from the statistical association of a
: gene expression marker (a signature) of this mechanism, that was discovered

avatar
p*m
233
GWAS的文章很多统计都是胡来的 如果p cutoff选0.000001 一般说明作者乱选的统计方法

【在 s******y 的大作中提到】
: 一般都比这个严格,经常就是 0.000001
avatar
s*s
234
good point. 不过,这个难道不是大家早就应该知道的么?
本来也就仅仅能是hint可能的机理。另外,其实细胞活跃程度
也不能说是和癌症完全打酱油,倒是找机理的时候把这部分
effect给control掉确实十个good point

a
discovered

【在 s******y 的大作中提到】
: 我觉得他的文章的意思就是大部分基因的表达程度都和细胞的活跃程度有关,
: 所以随便乱抓几个都能看出区别来,但是和癌症的机理基本上就是打酱油的关系。
: 总体意思就是目前的主流方法找出来的marker不能作为推测机理的起点。
: 他们在faculty 1000上抱怨说他们这篇文章一共投了4年,前后被六个
: 顶级杂志据了(他们直接点名的几家估计是对他们态度最糟糕的,哈哈哈)
: 这里是他们在PLoS Comp Biol 发表的文章的摘要。
: Bridging the gap between animal or in vitro models and human disease is
: essential in medical research. Researchers often suggest that a biological
: mechanism is relevant to human cancer from the statistical association of a
: gene expression marker (a signature) of this mechanism, that was discovered

avatar
s*y
235
其实能在高引用杂志发表出来的,大多数都是 10E -30 这么狠的P value.

方法

【在 p*****m 的大作中提到】
: GWAS的文章很多统计都是胡来的 如果p cutoff选0.000001 一般说明作者乱选的统计方法
avatar
s*s
236
其实,我觉得做生物的都至少要去上一门stat 101.
一个是大家天天搞的sd, error bar的问题
另一个是搞清楚association和causality的关系
最后,好好理解一下multitest correction

【在 s******y 的大作中提到】
: 其实能在高引用杂志发表出来的,大多数都是 10E -30 这么狠的P value.
:
: 方法

avatar
p*m
237
这样的P value本质上就是用错统计方法的结果

【在 s******y 的大作中提到】
: 其实能在高引用杂志发表出来的,大多数都是 10E -30 这么狠的P value.
:
: 方法

avatar
l*a
238
ls 给讲讲multetest correction吧。真心求教。
avatar
n*k
239
Maybe I am not getting it...several quick points:
1. The paper/study set up the assumptions/targets and then shot down...
pretty amusing, isn't it? well, they might have a point that there is component of poor scientific publishing...
2. the study went to where it might deserve...I don't see why it shall fair
better...that said, it is agreed that some of those NCS are a step away from
junk:)))...
3. P value in biomedicine sucks and purely a joke---esp with so many
American biologists and beyond whose math intelligence is virtually zero but
always insistent on a P value...
4. Who cares if biomarkers have no bearing in mechanisms...I think this is
inevitably the trend/true for many complex diseases...otherwise it wouldn't
be called biomarkers...

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

avatar
n*k
240
no hope, you have to go back to the preschool and educate the american and
many more---the basic math...even it is possible, it would be a generation
away...I am amazed by many biologists who has no math intelligence
whatsoever but are solely possessed by P-value when reviewing data/MSs...

【在 s******s 的大作中提到】
: 其实,我觉得做生物的都至少要去上一门stat 101.
: 一个是大家天天搞的sd, error bar的问题
: 另一个是搞清楚association和causality的关系
: 最后,好好理解一下multitest correction

avatar
s*y
241

of
你说的那个assumptions是因为你在直觉/理论上觉得那个是assumptions。
但是在这个文章之前没有人认真去检查过这个问题。
fair
from
but

【在 n********k 的大作中提到】
: Maybe I am not getting it...several quick points:
: 1. The paper/study set up the assumptions/targets and then shot down...
: pretty amusing, isn't it? well, they might have a point that there is component of poor scientific publishing...
: 2. the study went to where it might deserve...I don't see why it shall fair
: better...that said, it is agreed that some of those NCS are a step away from
: junk:)))...
: 3. P value in biomedicine sucks and purely a joke---esp with so many
: American biologists and beyond whose math intelligence is virtually zero but
: always insistent on a P value...
: 4. Who cares if biomarkers have no bearing in mechanisms...I think this is

avatar
sa
242
good one. finally someone come to say" the emperor has no clothes"
avatar
i*e
243
这不用我去说啊
早就已经争吵多时了
严谨点说,应该是GWAS不能“完全”用来推测机理
它只test一部分(尚不知大多比例)复杂疾病/性状
就这能验证出来就很了不起了
再说了,没有replication,GWAS自个假阳性太多太多

【在 s******y 的大作中提到】
:
: of
: 你说的那个assumptions是因为你在直觉/理论上觉得那个是assumptions。
: 但是在这个文章之前没有人认真去检查过这个问题。
: fair
: from
: but

avatar
e*e
244
话说发这种文章算不算scientific suicide? 美国人拿NIH钱的就算做了同样的结果估
计也不敢发。

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

avatar
l*s
245
Next generation sequence is going to replace GWAS anyway,it is beating a
dying horse.
avatar
p*m
246
这个有什么关系?

【在 l*********s 的大作中提到】
: Next generation sequence is going to replace GWAS anyway,it is beating a
: dying horse.

avatar
p*m
247
你这个搞笑了不是,病人的取病理组织 正常人的对照呢?

【在 s******y 的大作中提到】
:
: of
: 你说的那个assumptions是因为你在直觉/理论上觉得那个是assumptions。
: 但是在这个文章之前没有人认真去检查过这个问题。
: fair
: from
: but

avatar
s*y
248
可以和自己身上其他组织相比啊。
有这么做的。而且已经有人开始这么建数据库了。

【在 p*****m 的大作中提到】
: 你这个搞笑了不是,病人的取病理组织 正常人的对照呢?
avatar
p*m
249
这样测出来比GWAS还离谱吧 我知道有人做这种实验(microarray时代就有无数人这么
做cancer了) 但是这样解决的问题和GWAS是不一样的,或者说,试图解决的问题是不
一样的。。所以谈不上什么取代什么

【在 s******y 的大作中提到】
: 可以和自己身上其他组织相比啊。
: 有这么做的。而且已经有人开始这么建数据库了。

avatar
n*k
250
Please define GWAS, I think I am lost now...have to admit I am very naive
about GWAS...NGS V GWAS?? I thought one is technology, one is methodology..
.right?

【在 s******y 的大作中提到】
: 可以和自己身上其他组织相比啊。
: 有这么做的。而且已经有人开始这么建数据库了。

avatar
s*s
251
i guess they mean SNP vs Transcriptome.

..

【在 n********k 的大作中提到】
: Please define GWAS, I think I am lost now...have to admit I am very naive
: about GWAS...NGS V GWAS?? I thought one is technology, one is methodology..
: .right?

avatar
k*o
252

..
同困惑
另外,看了这个文章有点哭笑不得啊。不知道除了癌症,其它领域的biomarker数据又
有多可靠。

【在 n********k 的大作中提到】
: Please define GWAS, I think I am lost now...have to admit I am very naive
: about GWAS...NGS V GWAS?? I thought one is technology, one is methodology..
: .right?

avatar
k*o
253

个人觉得组织间的差异太难控制了。

【在 s******y 的大作中提到】
: 可以和自己身上其他组织相比啊。
: 有这么做的。而且已经有人开始这么建数据库了。

avatar
s*y
254
snp mutations between tissues should be very reliable.
they are not talking about transcription levels.

【在 k****o 的大作中提到】
:
: 个人觉得组织间的差异太难控制了。

avatar
n*k
255
In this article, I thought they are not talking or emphasizing about the
reliability of the biomarkers as markers but for mechanisms...That said, it
is surprising that randomly chosen set performed well or even better...what
one might say is too many sloppy studies from influential groups without
proper/well-thought controls...or there might be some inherited problems/
complexity with the methodology or math or biology here...God knows...

【在 k****o 的大作中提到】
:
: 个人觉得组织间的差异太难控制了。

avatar
s*y
256
Yeah, I think one of the main points is:
the current mothdology doesn't work

it
what

【在 n********k 的大作中提到】
: In this article, I thought they are not talking or emphasizing about the
: reliability of the biomarkers as markers but for mechanisms...That said, it
: is surprising that randomly chosen set performed well or even better...what
: one might say is too many sloppy studies from influential groups without
: proper/well-thought controls...or there might be some inherited problems/
: complexity with the methodology or math or biology here...God knows...

avatar
n*k
257
Does this study have anything to do with GAWS? It is about transcriptional
molecular signature, right? I am very naive about the field but now I am
completely lost with your discussion and response to mine...

【在 s******y 的大作中提到】
: snp mutations between tissues should be very reliable.
: they are not talking about transcription levels.

avatar
s*y
258
在我那个回复里的"they" 是指用NGS 作somatic mutation 的那些人,不是指
帖子标题相关的文章里的那些人。

【在 n********k 的大作中提到】
: Does this study have anything to do with GAWS? It is about transcriptional
: molecular signature, right? I am very naive about the field but now I am
: completely lost with your discussion and response to mine...

avatar
p*m
259
microarray时代大家对somatic mutation 和cancer的关系也是搞过不少研究的啊 我觉
得你说的这个样品量的问题不太成立 single cell microarray都做得了的

【在 s******y 的大作中提到】
: 在我那个回复里的"they" 是指用NGS 作somatic mutation 的那些人,不是指
: 帖子标题相关的文章里的那些人。

avatar
s*y
260
transcriptome 的准确度远远比不上白纸黑字的DNA sequence mutation data 吧。
而且transcriptome 的可变性太高了,得出来的数据大部分都是垃圾。
别的不说,单是这个single cell microarray 的样品源就大有问题,
谁知道进去的那个细胞真的就是癌细胞?弄不好是样品里面污染的其他组织细胞
或者血细胞什么的,马上就和对照的transcriptome 不一样了。
但是单细胞的DNA sequencing 就不一样了,不管什么组织,在没有病变的
前提下,绝大部分的DNA sequence 应该都是相同的吧。

【在 p*****m 的大作中提到】
: microarray时代大家对somatic mutation 和cancer的关系也是搞过不少研究的啊 我觉
: 得你说的这个样品量的问题不太成立 single cell microarray都做得了的

avatar
p*m
261
也可以用genome microarray或者SNP array做GWAS,这样本质上和用NGS做好像没啥区别
事实上 做gwas的,用SNP array的比你说的彻底sequencing才是主流吧
所以我有点被你弄糊涂了。。

【在 s******y 的大作中提到】
: transcriptome 的准确度远远比不上白纸黑字的DNA sequence mutation data 吧。
: 而且transcriptome 的可变性太高了,得出来的数据大部分都是垃圾。
: 别的不说,单是这个single cell microarray 的样品源就大有问题,
: 谁知道进去的那个细胞真的就是癌细胞?弄不好是样品里面污染的其他组织细胞
: 或者血细胞什么的,马上就和对照的transcriptome 不一样了。
: 但是单细胞的DNA sequencing 就不一样了,不管什么组织,在没有病变的
: 前提下,绝大部分的DNA sequence 应该都是相同的吧。

avatar
p*m
262
我说的microarray不是说cDNA array...

【在 s******y 的大作中提到】
: transcriptome 的准确度远远比不上白纸黑字的DNA sequence mutation data 吧。
: 而且transcriptome 的可变性太高了,得出来的数据大部分都是垃圾。
: 别的不说,单是这个single cell microarray 的样品源就大有问题,
: 谁知道进去的那个细胞真的就是癌细胞?弄不好是样品里面污染的其他组织细胞
: 或者血细胞什么的,马上就和对照的transcriptome 不一样了。
: 但是单细胞的DNA sequencing 就不一样了,不管什么组织,在没有病变的
: 前提下,绝大部分的DNA sequence 应该都是相同的吧。

avatar
p*m
263
事实上好像也没有谁会用CDNA ARRAY做GWAS吧 我觉得你比较错东西了

【在 p*****m 的大作中提到】
: 我说的microarray不是说cDNA array...
avatar
s*y
264
我的印象里SNP array 也是挺不准的。
因为本质上就是用很多很多的probe 来overlap 然后搞拼图游戏吧?
其准确度和probe 的设计,操作人员的水平,甚至环境温度都有关。
不如NGS 来个刨根问底的sequencing 干脆

【在 p*****m 的大作中提到】
: 我说的microarray不是说cDNA array...
avatar
s*r
265
此文对GWAS/NGS (DNA) 没有什么影响。Microarray/RNA-seq 关心的基因表达本来就混
乱成网,搞不清楚原因结果。
avatar
p*m
266
所以你之前讨论microarry表达量测的不准啊样品用得多啊都应该打回去重写 呵呵 没
听说谁是用表达量(cDNA array)来做GWAS的,做GWAS无非就是几个办法,SNP array,
用得最多;genome tiling array,估计有些不差钱的人用。然后就是whole genome
sequnrcing,这个有了NGS估计会有很多人做。
不管哪个都和cDNA array没关系。。而且不管哪个也都解决不了GWAS本身不准的问题

【在 s******y 的大作中提到】
: 我的印象里SNP array 也是挺不准的。
: 因为本质上就是用很多很多的probe 来overlap 然后搞拼图游戏吧?
: 其准确度和probe 的设计,操作人员的水平,甚至环境温度都有关。
: 不如NGS 来个刨根问底的sequencing 干脆

avatar
p*m
267
这个定义很清楚吧。。你引得这个文章本身和GWAS一点关系都没有 其实我也不知道话
题怎么转到GWAS来了。。我好像就是随口说了个GWAS的统计问题 结果。。

【在 s******y 的大作中提到】
: 我的印象里SNP array 也是挺不准的。
: 因为本质上就是用很多很多的probe 来overlap 然后搞拼图游戏吧?
: 其准确度和probe 的设计,操作人员的水平,甚至环境温度都有关。
: 不如NGS 来个刨根问底的sequencing 干脆

avatar
s*y
268
呵呵,我觉得我是讨论着讨论着就进了一个歧途。
这里得向大家道歉并澄清两点,免得误人子弟。
1。这篇文章其实本身和GWAS 没有直接关系。他们直接打击的是用trancriptome
找 bio-marker 的那些人。
这个话题之所以会引到GWAS上,主要是因为我自己对GWAS有偏见,三句话
不忘顺便打击GWAS,结果就把这个话题说到那边去了。
其实这个文章本身打击的直接对象不是GWAS,这个得澄清一下。
2。GWAS (作为一个思路) 和是否用NGS (方法)没有关系。

【在 p*****m 的大作中提到】
: 所以你之前讨论microarry表达量测的不准啊样品用得多啊都应该打回去重写 呵呵 没
: 听说谁是用表达量(cDNA array)来做GWAS的,做GWAS无非就是几个办法,SNP array,
: 用得最多;genome tiling array,估计有些不差钱的人用。然后就是whole genome
: sequnrcing,这个有了NGS估计会有很多人做。
: 不管哪个都和cDNA array没关系。。而且不管哪个也都解决不了GWAS本身不准的问题

avatar
s*y
269
因为有一个人在讨论的时候说NGS 会取代GWAS,
然后我纠正他的观点的时候又进行了一些思维跳跃。结果就变成了讨论到底什么
才是GWAS的问题了。呵呵

【在 p*****m 的大作中提到】
: 这个定义很清楚吧。。你引得这个文章本身和GWAS一点关系都没有 其实我也不知道话
: 题怎么转到GWAS来了。。我好像就是随口说了个GWAS的统计问题 结果。。

avatar
n*k
270
en, I feel I am normal now:)))

【在 s******y 的大作中提到】
: 因为有一个人在讨论的时候说NGS 会取代GWAS,
: 然后我纠正他的观点的时候又进行了一些思维跳跃。结果就变成了讨论到底什么
: 才是GWAS的问题了。呵呵

avatar
n*k
271
Single cell NGS for genome is a mess too...still long way to go...it seems
Quake just reported end of last year...unless you have some insider
information on this, what I have heard it is a mess---God knows after all
those amlification step etc...

【在 p*****m 的大作中提到】
: 所以你之前讨论microarry表达量测的不准啊样品用得多啊都应该打回去重写 呵呵 没
: 听说谁是用表达量(cDNA array)来做GWAS的,做GWAS无非就是几个办法,SNP array,
: 用得最多;genome tiling array,估计有些不差钱的人用。然后就是whole genome
: sequnrcing,这个有了NGS估计会有很多人做。
: 不管哪个都和cDNA array没关系。。而且不管哪个也都解决不了GWAS本身不准的问题

avatar
s*y
272
这个你说的对

【在 s*******r 的大作中提到】
: 此文对GWAS/NGS (DNA) 没有什么影响。Microarray/RNA-seq 关心的基因表达本来就混
: 乱成网,搞不清楚原因结果。

avatar
F*Q
273
那篇文章最重要的是点出了目前做文章的普遍问题。当前社会基本只有做文章而没有真
正做Science的,不幸中的万幸是有少数文章做得碰巧和science一致。

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

avatar
t*d
274
It is weird.

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

avatar
i*g
275
本来就是么,这些都是自娱自乐的东东
版上好多wsn,都来米帝国这么多年了,早就应该看破一些学界的把戏了
但心里嘲笑这些,写东西还是一板一眼的按8股文风写啊
avatar
A*n
276
不觉得这篇文章有那么轰动的意义。看了一下他们的方法,他们并不是用单个基因的信
息,而是100个基因做了PCA之后的PC1,很大程度上已经抹去了很多随机的因素,如果
有时间的话可以算一下100个基因的PC1和全基因组的PC1,说不定相关程度更大,这样
100个基因已经包含了很多的信息,具有一定的分类效果也就不奇怪了。其次本来
biomarker就不一定和机制有什么密不可分的联系,有些就是用来对病人进行分型,或
者预测治疗预后的,也早已经有很多报道表明不同的基因组合可以实现相同的分类性能
。但是如果都能实现较好的分类效果,并且基因数目相对较好的话,就已经可以达到
biomarker的目的啦。本来biomarker就是从实用性出发,而不应该包含太多因果的概念
在里面。就像癌症数据,找了那么mutation,而要找出driver mutation还是很不容易
,但并不代表找到的mutation没有意义了。

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

avatar
s*y
277
可是如果随便选出来的基因能够比那些发表的基因更准确的话,那么人们干吗
还要做研究?
所以这里肯定有几个问题,要么就是那个方法本身就是有重大缺陷,
要么就是那些发表出来的基因都是错的。

【在 A*****n 的大作中提到】
: 不觉得这篇文章有那么轰动的意义。看了一下他们的方法,他们并不是用单个基因的信
: 息,而是100个基因做了PCA之后的PC1,很大程度上已经抹去了很多随机的因素,如果
: 有时间的话可以算一下100个基因的PC1和全基因组的PC1,说不定相关程度更大,这样
: 100个基因已经包含了很多的信息,具有一定的分类效果也就不奇怪了。其次本来
: biomarker就不一定和机制有什么密不可分的联系,有些就是用来对病人进行分型,或
: 者预测治疗预后的,也早已经有很多报道表明不同的基因组合可以实现相同的分类性能
: 。但是如果都能实现较好的分类效果,并且基因数目相对较好的话,就已经可以达到
: biomarker的目的啦。本来biomarker就是从实用性出发,而不应该包含太多因果的概念
: 在里面。就像癌症数据,找了那么mutation,而要找出driver mutation还是很不容易
: ,但并不代表找到的mutation没有意义了。

avatar
n*k
278
I don't think you got it yet:)))...I was a bit confused, feeling something
not right but now after reading his post, I think I finally got it...Frankly
now I feel this paper could have deserved NCS but definitely not in the way
/angle they are going or you are suggesting...It would be exciting and I am
not gonna say anything in case it is wrong but wait to see any follow up:)))

【在 s******y 的大作中提到】
: 可是如果随便选出来的基因能够比那些发表的基因更准确的话,那么人们干吗
: 还要做研究?
: 所以这里肯定有几个问题,要么就是那个方法本身就是有重大缺陷,
: 要么就是那些发表出来的基因都是错的。

avatar
s*s
279
这样的话,真没啥特别的。做统计的都知道,对一大堆毫无关联
的dummy variable做regression, 只要自变量够多,总是能match很好。如果
真的用了100个基因做出来的PC1,别说cancer marker了,几乎啥都
能解释

【在 A*****n 的大作中提到】
: 不觉得这篇文章有那么轰动的意义。看了一下他们的方法,他们并不是用单个基因的信
: 息,而是100个基因做了PCA之后的PC1,很大程度上已经抹去了很多随机的因素,如果
: 有时间的话可以算一下100个基因的PC1和全基因组的PC1,说不定相关程度更大,这样
: 100个基因已经包含了很多的信息,具有一定的分类效果也就不奇怪了。其次本来
: biomarker就不一定和机制有什么密不可分的联系,有些就是用来对病人进行分型,或
: 者预测治疗预后的,也早已经有很多报道表明不同的基因组合可以实现相同的分类性能
: 。但是如果都能实现较好的分类效果,并且基因数目相对较好的话,就已经可以达到
: biomarker的目的啦。本来biomarker就是从实用性出发,而不应该包含太多因果的概念
: 在里面。就像癌症数据,找了那么mutation,而要找出driver mutation还是很不容易
: ,但并不代表找到的mutation没有意义了。

avatar
a*n
280

我没具体看过这些算法, 但是我想这些算法提到的P value, 应该跟sudent test这些方
法的P value意义应该是不一样的吧

【在 p*****m 的大作中提到】
: 这样的P value本质上就是用错统计方法的结果
avatar
a*n
281

能不能推荐一本教材?

【在 s******s 的大作中提到】
: 其实,我觉得做生物的都至少要去上一门stat 101.
: 一个是大家天天搞的sd, error bar的问题
: 另一个是搞清楚association和causality的关系
: 最后,好好理解一下multitest correction

avatar
s*s
282
我没看原文。如果别人只是几个或者十几个marker, 他搞一个100基因marker,
那是没啥可比的。就算都是100个基因的marker, 这么多dummy variable几乎
可以解释到极限了,其他的“未必”能有很大的提高。

【在 s******y 的大作中提到】
: 可是如果随便选出来的基因能够比那些发表的基因更准确的话,那么人们干吗
: 还要做研究?
: 所以这里肯定有几个问题,要么就是那个方法本身就是有重大缺陷,
: 要么就是那些发表出来的基因都是错的。

avatar
s*s
283
意义都是一样。问题是统计学做这些test都有很多假设要求先满足,
生物上拿来主义很多不符合条件就用,比如很多要求independence的
大家都无所谓,所以p value做出来可能不对

【在 a*******n 的大作中提到】
:
: 能不能推荐一本教材?

avatar
A*n
284
首先他们做完PCA之后就不再是完全的随机了,就像上面说的microarray数据一来,直
接做个PCA,实际上就能做到很好的效果了。之所以作biomarker的研究就是希望能够用
尽量少的基因数实现同样的目的。想象一下有个完美的基因,同时还有100个基因的表
达模式和其高度相关,不同的方法会选出这100个里面中间的一个。这个时候,方法没
有什么重大缺陷,基因也没有错,每个也都能作为一个很好的biomarker。错的其实就
是有些人在希望这个基因有很好分类性能的同时,还希望证明这个特定的基因和机制有
关系,这就相当于对biomarker寄予了太高的要求。

【在 s******y 的大作中提到】
: 可是如果随便选出来的基因能够比那些发表的基因更准确的话,那么人们干吗
: 还要做研究?
: 所以这里肯定有几个问题,要么就是那个方法本身就是有重大缺陷,
: 要么就是那些发表出来的基因都是错的。

avatar
z*t
285
GWAS一般用bonfferoni test

【在 a*******n 的大作中提到】
:
: 能不能推荐一本教材?

avatar
s*s
286
没啥教材,也就一两句话的事情
比如统计基本上只能做出association,要做causality要design实验或者trial一类的
multitest的意思是,统计里面95%的意思就算两个population一模一样,你随机
抽二十组sample,估计就会有一组是statistically different的,所以这个算出来
的p<0.05很可能有问题

【在 a*******n 的大作中提到】
:
: 能不能推荐一本教材?

avatar
s*y
287
从文章的摘要里面看,当他们把那些随便挑出来的marker 和已知的
markers set 相比的时候,是用同样多的size 来比较的:
Twenty-eight of them (60%) were not significantly better outcome predictors
than random signatures of identical size and 11 (23%) were worst predictors
than the median random signature
不过我也只看了摘要,没有看全文(因为看不懂。。。)

【在 s******s 的大作中提到】
: 我没看原文。如果别人只是几个或者十几个marker, 他搞一个100基因marker,
: 那是没啥可比的。就算都是100个基因的marker, 这么多dummy variable几乎
: 可以解释到极限了,其他的“未必”能有很大的提高。

avatar
s*2
288
现行的GWAS在方法学方面有严重缺陷,我正在投一篇paper更正一个问题。

【在 i*e 的大作中提到】
: GWAS的结果本来就不应该作为推测机理
: 它理论依据本来就是基于几个假说
: 就算E-8的显著性阈值都还是假阳性很多
:
: a
: discovered

avatar
s*s
289
就像我前面说的“就算都是100个基因的marker, 这么多dummy variable几乎
可以解释到极限了,其他的“未必”能有很大的提高。”
举个例子,苹果股票的价格可能40%是predictable的,另外60%是random的。
你可以用iphone的销量,android的升级,苹果研发费用等10个参数预测,可能
能预测30%。这时周星驰跳出来,用苹果员工领带颜色,裙子长短,非洲人肤色,
太平洋大马哈鱼数量,人马座亮度变化等来预测,只要用的参数够多,比如100
个,就很可能得到更好的结果,比如35%。这个预测已经离40%够近了,就算股票
专家把参数也扩展到100个,也未必能好多少。

predictors
predictors

【在 s******y 的大作中提到】
: 从文章的摘要里面看,当他们把那些随便挑出来的marker 和已知的
: markers set 相比的时候,是用同样多的size 来比较的:
: Twenty-eight of them (60%) were not significantly better outcome predictors
: than random signatures of identical size and 11 (23%) were worst predictors
: than the median random signature
: 不过我也只看了摘要,没有看全文(因为看不懂。。。)

avatar
s*y
290
那。。。你的意思是说。。。这个本来就是一个不可能测得很准的问题?或者
你的意思是说只要参数数量足够多,最后都能把一些不是紧密相关的参数和
结果联系起来?

【在 s******s 的大作中提到】
: 就像我前面说的“就算都是100个基因的marker, 这么多dummy variable几乎
: 可以解释到极限了,其他的“未必”能有很大的提高。”
: 举个例子,苹果股票的价格可能40%是predictable的,另外60%是random的。
: 你可以用iphone的销量,android的升级,苹果研发费用等10个参数预测,可能
: 能预测30%。这时周星驰跳出来,用苹果员工领带颜色,裙子长短,非洲人肤色,
: 太平洋大马哈鱼数量,人马座亮度变化等来预测,只要用的参数够多,比如100
: 个,就很可能得到更好的结果,比如35%。这个预测已经离40%够近了,就算股票
: 专家把参数也扩展到100个,也未必能好多少。
:
: predictors

avatar
i*e
291
没错
作者对prognostic biomarker“混淆”或者“不懂”或者“过多寄予厚望”
同理,很多人对GWAS的association和causality也是如此
只是现在都是先下手为强,有个hit就硬往functional靠

【在 A*****n 的大作中提到】
: 首先他们做完PCA之后就不再是完全的随机了,就像上面说的microarray数据一来,直
: 接做个PCA,实际上就能做到很好的效果了。之所以作biomarker的研究就是希望能够用
: 尽量少的基因数实现同样的目的。想象一下有个完美的基因,同时还有100个基因的表
: 达模式和其高度相关,不同的方法会选出这100个里面中间的一个。这个时候,方法没
: 有什么重大缺陷,基因也没有错,每个也都能作为一个很好的biomarker。错的其实就
: 是有些人在希望这个基因有很好分类性能的同时,还希望证明这个特定的基因和机制有
: 关系,这就相当于对biomarker寄予了太高的要求。

avatar
t*o
292
你说的这个似乎只能解释对现有结果的regression之类的吧,对未来的预测应该不会那
么准吧。就比如说machine learning里面,只要model的复杂度高一些,用100个随机变
量大概总能解释50个样本的结果,但是对于独立的另外一批50个样本的结果基本就是错
误率超高了。感觉就是个overfitting的问题。。。

【在 s******s 的大作中提到】
: 就像我前面说的“就算都是100个基因的marker, 这么多dummy variable几乎
: 可以解释到极限了,其他的“未必”能有很大的提高。”
: 举个例子,苹果股票的价格可能40%是predictable的,另外60%是random的。
: 你可以用iphone的销量,android的升级,苹果研发费用等10个参数预测,可能
: 能预测30%。这时周星驰跳出来,用苹果员工领带颜色,裙子长短,非洲人肤色,
: 太平洋大马哈鱼数量,人马座亮度变化等来预测,只要用的参数够多,比如100
: 个,就很可能得到更好的结果,比如35%。这个预测已经离40%够近了,就算股票
: 专家把参数也扩展到100个,也未必能好多少。
:
: predictors

avatar
t*o
293
对已经有的数据来说确实如此,但是对独立的另外一批样本应该就不行了,也就是说基
本没啥预测价值。

【在 s******y 的大作中提到】
: 那。。。你的意思是说。。。这个本来就是一个不可能测得很准的问题?或者
: 你的意思是说只要参数数量足够多,最后都能把一些不是紧密相关的参数和
: 结果联系起来?

avatar
i*e
294
这也就是1E-7阈值所在,那时候500M的SNP set
不过最近听一个报告,目前5M的SNP set
也被模拟论证不用再提高阈值了
其实最重要的是能否被replicate出来,p值倒是其次的

【在 z*t 的大作中提到】
: GWAS一般用bonfferoni test
avatar
k*o
295

统计学上有没有什么procedure是说明因果关系的?我不是学统计的,请教下。

【在 s******s 的大作中提到】
: 没啥教材,也就一两句话的事情
: 比如统计基本上只能做出association,要做causality要design实验或者trial一类的
: multitest的意思是,统计里面95%的意思就算两个population一模一样,你随机
: 抽二十组sample,估计就会有一组是statistically different的,所以这个算出来
: 的p<0.05很可能有问题

avatar
k*o
296
不知道把这篇文章的方法用到临床诊断会有什么后果..
avatar
i*e
297
也有可能很大程度heterogeneity的问题

【在 t*******o 的大作中提到】
: 你说的这个似乎只能解释对现有结果的regression之类的吧,对未来的预测应该不会那
: 么准吧。就比如说machine learning里面,只要model的复杂度高一些,用100个随机变
: 量大概总能解释50个样本的结果,但是对于独立的另外一批50个样本的结果基本就是错
: 误率超高了。感觉就是个overfitting的问题。。。

avatar
s*2
298
SNP数目的多少和p value没有直接关系。
p value和sample size有关。

【在 i*e 的大作中提到】
: 这也就是1E-7阈值所在,那时候500M的SNP set
: 不过最近听一个报告,目前5M的SNP set
: 也被模拟论证不用再提高阈值了
: 其实最重要的是能否被replicate出来,p值倒是其次的

avatar
i*e
299
我说的是p value multiple testing 的cutoff, alpha值

【在 s*******2 的大作中提到】
: SNP数目的多少和p value没有直接关系。
: p value和sample size有关。

avatar
i*e
300
biomark追求少比多好
J Natl Cancer Inst. 2012 Jan 18. [Epub ahead of print]
A Three-Gene Model to Robustly Identify Breast Cancer Molecular Subtypes.
Haibe-Kains B, Desmedt C, Loi S, Culhane AC, Bontempi G, Quackenbush J,
Sotiriou C.
PMID: 22262870

【在 A*****n 的大作中提到】
: 首先他们做完PCA之后就不再是完全的随机了,就像上面说的microarray数据一来,直
: 接做个PCA,实际上就能做到很好的效果了。之所以作biomarker的研究就是希望能够用
: 尽量少的基因数实现同样的目的。想象一下有个完美的基因,同时还有100个基因的表
: 达模式和其高度相关,不同的方法会选出这100个里面中间的一个。这个时候,方法没
: 有什么重大缺陷,基因也没有错,每个也都能作为一个很好的biomarker。错的其实就
: 是有些人在希望这个基因有很好分类性能的同时,还希望证明这个特定的基因和机制有
: 关系,这就相当于对biomarker寄予了太高的要求。

avatar
b*n
301
问题是不少clinical的文章就是这一批病人的数据,做出个模型就OK,如果下一批数据
明显不符合的话,这帮MD还可以bullshit一下说是其他原因。。

【在 t*******o 的大作中提到】
: 对已经有的数据来说确实如此,但是对独立的另外一批样本应该就不行了,也就是说基
: 本没啥预测价值。

avatar
s*s
302
这是个哲学问题 应该没有

【在 k****o 的大作中提到】
: 不知道把这篇文章的方法用到临床诊断会有什么后果..
avatar
s*s
303
数量够多就行
想象一下三维空间里面三个向量 不管某个坐标方向的分量多小
只要他们不线性相关 总能线性组合出三个正交坐标轴 也就是完美预测任何一个三维向量

【在 s******y 的大作中提到】
: 那。。。你的意思是说。。。这个本来就是一个不可能测得很准的问题?或者
: 你的意思是说只要参数数量足够多,最后都能把一些不是紧密相关的参数和
: 结果联系起来?

avatar
s*s
304
是呀 所以独立sample的validation最重要啦

【在 t*******o 的大作中提到】
: 你说的这个似乎只能解释对现有结果的regression之类的吧,对未来的预测应该不会那
: 么准吧。就比如说machine learning里面,只要model的复杂度高一些,用100个随机变
: 量大概总能解释50个样本的结果,但是对于独立的另外一批50个样本的结果基本就是错
: 误率超高了。感觉就是个overfitting的问题。。。

avatar
f*u
305
对于cancer来说,我感觉理论上的predictability应该很高,而randomness很小吧。
所以理论上应该可以从genotype来预测prognosis,具体怎么预测那是另一回事。
如果机理完全明确了,那自然就很容易预测了,
在机理不明的情况下,就算用100个基因,如果预测准确率能很高,也挺好。
关键词是预测,不是解释。
这类模型通常是用一个有限样本来建立的,自然能很好地解释这个样本。
如果不能比较准确的预测下一个样本,那就是白费。

【在 s******s 的大作中提到】
: 就像我前面说的“就算都是100个基因的marker, 这么多dummy variable几乎
: 可以解释到极限了,其他的“未必”能有很大的提高。”
: 举个例子,苹果股票的价格可能40%是predictable的,另外60%是random的。
: 你可以用iphone的销量,android的升级,苹果研发费用等10个参数预测,可能
: 能预测30%。这时周星驰跳出来,用苹果员工领带颜色,裙子长短,非洲人肤色,
: 太平洋大马哈鱼数量,人马座亮度变化等来预测,只要用的参数够多,比如100
: 个,就很可能得到更好的结果,比如35%。这个预测已经离40%够近了,就算股票
: 专家把参数也扩展到100个,也未必能好多少。
:
: predictors

avatar
i*e
306
预测还是不容易啊
low-hanging fruits 像BRCA1/2这种的
现有的模型都还不能很好的predict risk
基因表达这种比DNA sequences更variable,更难QC的预测模型就更难了

【在 f**u 的大作中提到】
: 对于cancer来说,我感觉理论上的predictability应该很高,而randomness很小吧。
: 所以理论上应该可以从genotype来预测prognosis,具体怎么预测那是另一回事。
: 如果机理完全明确了,那自然就很容易预测了,
: 在机理不明的情况下,就算用100个基因,如果预测准确率能很高,也挺好。
: 关键词是预测,不是解释。
: 这类模型通常是用一个有限样本来建立的,自然能很好地解释这个样本。
: 如果不能比较准确的预测下一个样本,那就是白费。

avatar
f*e
307
Bayesian network

【在 s******s 的大作中提到】
: 这是个哲学问题 应该没有
avatar
f*e
308
他们有没有做 cross validation? 如果是你说的 overfitting
问题的话 10fold cross Val 还是 bootstrapping 应该能抓出来

【在 s******s 的大作中提到】
: 我没看原文。如果别人只是几个或者十几个marker, 他搞一个100基因marker,
: 那是没啥可比的。就算都是100个基因的marker, 这么多dummy variable几乎
: 可以解释到极限了,其他的“未必”能有很大的提高。

avatar
l*1
309
Oui
please refer Network-based genome-wide association studies (NWAS)
for identifying prognostic gene signatures to predict cancer recurrence.
report on
//www.cse.buffalo.edu/ACM-BCB2010/
by
Ying-Wooi Wan, Swetha Bose, James Denvir, and Nancy Lan Guo
Title:
A Novel Network Model for Molecular Prognosis
Abstracts:
Network-based genome-wide association studies (NWAS) utilize the molecular interactions between genes
and functional pathways in biomarker identification. This study presents a novel network-based
methodology for identifying prognostic gene signatures to predict cancer recurrence.
full text:
//www.hsc.wvu.edu/mbrcc/fs/GuoLab/pdfs/ACMBCB2010_our%20paper.pdf
also please go to
2012 one relative paper:
//www.ncbi.nlm.nih.gov/pubmed/22161328

【在 f**********e 的大作中提到】
: Bayesian network
avatar
s*l
310
This paper is nothing new except complaining, I rememberer to read a paper (
2010), they already reported that randomly genes have predictive power, but
often not roust. Then they focused on cancer hallmark genes (mechanism-based
?) and get very good results which are better than all others.
yes, I find it:
Nat Commun. 2010 Jul 13;1:34. doi: 10.1038/ncomms1033.
Identification of high-quality cancer prognostic markers and metastasis
network modules.
avatar
l*1
311
RE LS
LZ is not SysBio filed and not family with this field
so just take this Top O floor past as watching broadly just.
Ps:
plus one paper:
Development of a Bayesian Classifier for Breast Cancer Risk Stratification:
A Feasibility Study
Results: Independent predictors of biopsy outcome in the BBN model included personal breast disease
history, breast size, EIS (low vs high risk) and imaging results, and Gail cutoff (5-year risk: <1.66% vs
≥1.66%). Area under the receiver operating characteristic curve and positive predictive value for benign and
malignant biopsy outcomes were 0.88 and 97% and 0.97 and 42%,
//www.decisionq.com/pdfs/decq_clinicaldecisionsupport_casestudy02.pdf

(
but
based

【在 s******l 的大作中提到】
: This paper is nothing new except complaining, I rememberer to read a paper (
: 2010), they already reported that randomly genes have predictive power, but
: often not roust. Then they focused on cancer hallmark genes (mechanism-based
: ?) and get very good results which are better than all others.
: yes, I find it:
: Nat Commun. 2010 Jul 13;1:34. doi: 10.1038/ncomms1033.
: Identification of high-quality cancer prognostic markers and metastasis
: network modules.

avatar
s*2
312
我知道。但是有缺陷。

【在 i*e 的大作中提到】
: 我说的是p value multiple testing 的cutoff, alpha值
avatar
w*n
313
Google Causal Inference

【在 s******s 的大作中提到】
: 这是个哲学问题 应该没有
avatar
z*n
314
看了半天没看明白,他到底用的啥统计方法???谁看明白的说一下??
avatar
n*a
315
我觉得他这个文章指出的是统计学在生物里的的应用的问题。
我觉得他得出这个结论的前提条件就是对biomarker定义的一个误导。
至少我是这样认为的
biomarker首先是要有bio然后才有marker。
biomarker的重要一点就是它要在bio上说的过去。而且biomarker目前也不是用于诊断
,它只是给你一个大方向,让你可以试着有的放矢,尽可能的避免资源浪费,尽可能的
使病人得到最有效的治疗。
单就统计方法来说,biomarker的产生其实就是比较两组数据之间的最大差别。任和已
知方法的目的就是通过各种分类,简化来找出最大区别。说白了就是通过数据优化来达
到分类效果。所以任选任何100个基因可以outperform现有signature的现象一点都不奇
怪。有太多未知的因素可以使跟癌症可能完全不相关的基因产生更明显的差别。如果这
个差别大于你biomarker的差别,你当然会得出好的signature。我觉得这也是为什么好
多更为复杂,先进的数学方法没有应用到生物学的原因。因为没有必要,我们根本不知
道什么方法可以用来准确对生物数据进行简化。如果简单易懂,适合短时间,大批量操
作的方法,没有必要用复杂,局限性更大的方法。因为biomarker的产生重要的不是在
统计这一环。重要的是在如何选取数据,如何分类数据,从而更大程度的保证统计方法
中简化的数据真的是重复的数据。我不是学统计的。所以错误之处请谅解。
所以,一个好的biomarker着重的是生物学上的意义,而不是统计学上的score。 你有
再好的score不能从生物学上解释也不能算biomarker。所以通畅来说,发表一个
biomarker其实不是说我这些基因score有多好,而是说用这些基因来区别这种癌症在生
物学上说得通。这些基因的不同是在现有知识基础上有生物学意义的。比如说特定的
pathway被激活,特定的受体被抑制之类。其实一个biomarker重要的是它背后的这个生
物故事。我觉得。
当然,也存在很多paper为了说故事而说故事。这是在现存条件下不能避免的。所谓的
garbage in garbage out。但这不代表所有的biomarker都不可以相信。
我个人觉得这个paper不被顶级杂志接受是有道理的。不能说作者不懂生物,但我个人
觉得作者有哗众取宠之闲。因为所有我认识的搞biomarker的人都承认你可以fit任何一
组数据来达到更好的结果。但你这个结果是否通得过实验和临床得验证就不一定了。像
paper里说的任选的100个基因,有人会相信这些基因可以推出未知的癌症调控机理吗?
avatar
r*t
316
granger causality

【在 k****o 的大作中提到】
: 不知道把这篇文章的方法用到临床诊断会有什么后果..
avatar
s*s
317
看不懂。解释一下吧。看上去像是统计里面用了causality,而不是
用统计推导causality

【在 w*****n 的大作中提到】
: Google Causal Inference
avatar
X*2
318
你这个说法老夫非常赞同。
老夫觉得作者的论证有问题,100个随机挑选的marker
得到的结果优于少数“精心”挑选出来的marker
并不能说明那少数marker没有价值。
老夫曾经由于其它问题研究过在混合高斯模型下,
从高维数据中随机抽取部分特征后的“表达力”问题。
发现这随机抽取的特征只需要满足很弱的协相关
性的假设,那么这些特征的表达能力跟用全部特
征差别不大。具体取决于全部特征本身的表达能
力,以及抽取的特征数量占全部特征数量的比例。
由于这样随机抽取100 个marker以后,其表达能
力跟用全部基因的表达能力差别不大,所以这100
个marker的表达能力就很强了。因此它们会跟“精心”
挑出来的少数基因结果差不多甚至更优越。
当然话说回来,目前的很多相关研究都是有问题
的。自欺欺人地在用统计却不管任何条件和假设,
反正投稿或是写proposal都没有问题,因为关系
的作用太大了,而且裁判很多都是没有严格科学
训练而又自以为是的MD。

【在 s******s 的大作中提到】
: 我没看原文。如果别人只是几个或者十几个marker, 他搞一个100基因marker,
: 那是没啥可比的。就算都是100个基因的marker, 这么多dummy variable几乎
: 可以解释到极限了,其他的“未必”能有很大的提高。

avatar
f*e
319
Causal inference 是个纲领,实际的技术(之一)
就是 Bayesian network. BN 的 structure learning
是很成熟的技术,虽然也有 over fitting 的问题。

【在 s******s 的大作中提到】
: 看不懂。解释一下吧。看上去像是统计里面用了causality,而不是
: 用统计推导causality

avatar
l*s
320
good to know.Intuitively, how and why BN works?

【在 f**********e 的大作中提到】
: Causal inference 是个纲领,实际的技术(之一)
: 就是 Bayesian network. BN 的 structure learning
: 是很成熟的技术,虽然也有 over fitting 的问题。

avatar
V*b
321
“其他的组织”也会有这个somatic mutation的。就算没有,这个mutation也不见得是
病因,各个组织的微环境/细胞群很不同。在这个问题上,没有perfect control。

【在 s******y 的大作中提到】
: 可以和自己身上其他组织相比啊。
: 有这么做的。而且已经有人开始这么建数据库了。

avatar
V*b
322
transcriptome和proteome的相关性非常差。DNA sequencing几乎100%准确。但是
transcriptome可以提供些epigenetics的信息,DNA却不能。

【在 s******y 的大作中提到】
: transcriptome 的准确度远远比不上白纸黑字的DNA sequence mutation data 吧。
: 而且transcriptome 的可变性太高了,得出来的数据大部分都是垃圾。
: 别的不说,单是这个single cell microarray 的样品源就大有问题,
: 谁知道进去的那个细胞真的就是癌细胞?弄不好是样品里面污染的其他组织细胞
: 或者血细胞什么的,马上就和对照的transcriptome 不一样了。
: 但是单细胞的DNA sequencing 就不一样了,不管什么组织,在没有病变的
: 前提下,绝大部分的DNA sequence 应该都是相同的吧。

avatar
V*b
323
这篇文章发PLOS恰如其分。很水。这篇文章挑出来的那些著名的marker其实80%都是
driver;那些所谓随机挑的一些基因80%都是passenger。driver发生变化,乳腺癌了,
然后passenger也跟着变了,然后这几个作者跳出来说:你们看,这两堆基因没什么差
异嘛,都变了。
问题是:driver是有效的药物靶位点,passenger不是。

【在 s******y 的大作中提到】
: 可是如果随便选出来的基因能够比那些发表的基因更准确的话,那么人们干吗
: 还要做研究?
: 所以这里肯定有几个问题,要么就是那个方法本身就是有重大缺陷,
: 要么就是那些发表出来的基因都是错的。

avatar
V*b
324
同意这句话。

【在 i*e 的大作中提到】
: 预测还是不容易啊
: low-hanging fruits 像BRCA1/2这种的
: 现有的模型都还不能很好的predict risk
: 基因表达这种比DNA sequences更variable,更难QC的预测模型就更难了

avatar
V*b
325
同意。

【在 n***a 的大作中提到】
: 我觉得他这个文章指出的是统计学在生物里的的应用的问题。
: 我觉得他得出这个结论的前提条件就是对biomarker定义的一个误导。
: 至少我是这样认为的
: biomarker首先是要有bio然后才有marker。
: biomarker的重要一点就是它要在bio上说的过去。而且biomarker目前也不是用于诊断
: ,它只是给你一个大方向,让你可以试着有的放矢,尽可能的避免资源浪费,尽可能的
: 使病人得到最有效的治疗。
: 单就统计方法来说,biomarker的产生其实就是比较两组数据之间的最大差别。任和已
: 知方法的目的就是通过各种分类,简化来找出最大区别。说白了就是通过数据优化来达
: 到分类效果。所以任选任何100个基因可以outperform现有signature的现象一点都不奇

avatar
f*e
326
BN 把一个高维联合分布用 acyclic directed graph (DAG) 写成
许多的条件分布。所有的随机变量都是用有向的边连接的,这自然隐含
了因果关系。如果你能准确地知道所有随机变量的联合分布,你自然
可以对这系统进行任何推论。

【在 l*********s 的大作中提到】
: good to know.Intuitively, how and why BN works?
avatar
D*a
327
同意这个看法,我觉得他就是给大家提醒下不要瞎胡闹,我觉得他潜在意思应该是,
就算不是任选的100个基因,你们各位发表的据说有生物学效用的基因,又有多少人(
包括你们自己)会相信这些基因可以推出未知的癌症调控机理?

【在 n***a 的大作中提到】
: 我觉得他这个文章指出的是统计学在生物里的的应用的问题。
: 我觉得他得出这个结论的前提条件就是对biomarker定义的一个误导。
: 至少我是这样认为的
: biomarker首先是要有bio然后才有marker。
: biomarker的重要一点就是它要在bio上说的过去。而且biomarker目前也不是用于诊断
: ,它只是给你一个大方向,让你可以试着有的放矢,尽可能的避免资源浪费,尽可能的
: 使病人得到最有效的治疗。
: 单就统计方法来说,biomarker的产生其实就是比较两组数据之间的最大差别。任和已
: 知方法的目的就是通过各种分类,简化来找出最大区别。说白了就是通过数据优化来达
: 到分类效果。所以任选任何100个基因可以outperform现有signature的现象一点都不奇

avatar
l*1
328
BN is belong to one
time independently stochastic analysis.
Boolean function to cancer stochastic prediction with Monte-Carlo for Estimation of Hidden Markov Models
details please go to
//ba.stat.cmu.edu/journal/2008/vol03/issue04/issue04.pdf
or
//ba.stat.cmu.edu/journal/2008/vol03/issue04/purutcuoglu.pdf
if anyone whom had interest to Mathematic/Statistic Biology.

【在 f**********e 的大作中提到】
: BN 把一个高维联合分布用 acyclic directed graph (DAG) 写成
: 许多的条件分布。所有的随机变量都是用有向的边连接的,这自然隐含
: 了因果关系。如果你能准确地知道所有随机变量的联合分布,你自然
: 可以对这系统进行任何推论。

avatar
l*s
329
However, knowing conditional probabilities is not the same as know the
causal relationship. a-> b and b-> a are statistically equivalent structures
.I think in the end, the causal relationship can only be established from temporal orders.If you don't have any prior knowledge, no shapshot analysis can help you, including the allmighty BN.

【在 f**********e 的大作中提到】
: BN 把一个高维联合分布用 acyclic directed graph (DAG) 写成
: 许多的条件分布。所有的随机变量都是用有向的边连接的,这自然隐含
: 了因果关系。如果你能准确地知道所有随机变量的联合分布,你自然
: 可以对这系统进行任何推论。

avatar
s*s
330
我自己做过structural equation modeling, 也是用有向边连接
的,貌似很容易解释成因果,实际上都不能。不知道这个causality
inference怎么做的,对我来说,无法想想不加其他条件,只靠stat
就能确定因果关系。前面一位也提到了一个causality test, 我wiki
了一下,里面说明其实只是一个hint, 无法证明因果.

【在 f**********e 的大作中提到】
: BN 把一个高维联合分布用 acyclic directed graph (DAG) 写成
: 许多的条件分布。所有的随机变量都是用有向的边连接的,这自然隐含
: 了因果关系。如果你能准确地知道所有随机变量的联合分布,你自然
: 可以对这系统进行任何推论。

avatar
f*e
331
如果没有 prior 的话,A->B 的确和 B->A 是对称的。但你只要对这个体系知道一
点点信息(打破这个对称),因果关系就会在一定程度上确立。
BN 只有在多变量,而且在模型结构有约束时才能用。如果你不加约束的话,你
会发现所有的 complete graph DAG 的 likelihood 都一样好 (overfitting)。 是的,
你得有一些 structural prior。是的,我同意时间资料很重要。BN 还有一个讨厌的
问题:隐变量。如果有一个无法观察的变量 X 在条件独立的情形下影响下面的 10
个变数,看起来就是那 10 个变数彼此纠缠。

structures
temporal orders.If you don't have any prior knowledge, no shapshot analysis
can help you, including the allmighty BN.

【在 l*********s 的大作中提到】
: However, knowing conditional probabilities is not the same as know the
: causal relationship. a-> b and b-> a are statistically equivalent structures
: .I think in the end, the causal relationship can only be established from temporal orders.If you don't have any prior knowledge, no shapshot analysis can help you, including the allmighty BN.

avatar
f*e
332
100% 的空手套白狼的确是不可能的。一组 data 可以存在多个 fit
得很好的 BN。很难解释成因果的原因我认为是模型本身的不确定性。

【在 s******s 的大作中提到】
: 我自己做过structural equation modeling, 也是用有向边连接
: 的,貌似很容易解释成因果,实际上都不能。不知道这个causality
: inference怎么做的,对我来说,无法想想不加其他条件,只靠stat
: 就能确定因果关系。前面一位也提到了一个causality test, 我wiki
: 了一下,里面说明其实只是一个hint, 无法证明因果.

avatar
o*r
333
Then the mutation is called a "germline" mutation, not a "somatic" mutation.
It is impossible to identify driver mutations from bioinformatics alone
using a single patient.

【在 V***b 的大作中提到】
: “其他的组织”也会有这个somatic mutation的。就算没有,这个mutation也不见得是
: 病因,各个组织的微环境/细胞群很不同。在这个问题上,没有perfect control。

avatar
V*b
334
我现在不明白大规模测序之后,拿到一堆数据,和什么去比对?怎样定义“正常组织”
?比如说Steve Jobs的测序结果怎样?如果发现EGFR/PI3K/Ras这些常见突变倒好说(
其实即便这样也很难下定论),最怕就是发现很多突变,却无法将5%,甚至更少的
cancerous mutation,以及各种cancerous mutation组合,从95%的harmless mutation
中分离出来。把Jobs的胰腺癌细胞和他身上正常组织的序列比较,或者跟另一个“健康
人”的序列比较,肯定有非常多的不一样。

mutation.

【在 o********r 的大作中提到】
: Then the mutation is called a "germline" mutation, not a "somatic" mutation.
: It is impossible to identify driver mutations from bioinformatics alone
: using a single patient.

avatar
o*r
335
For diseases not related to blood, blood cells are a good candidate for
germline sample.
How to use the WGS data is a big issue in this NGS era. One common strategy
used in paired tumor/germline analyses is to compare the mutation spectrum
across multiple patients (from the same cohort or at least same disease type
/subtype) to identify recurrent mutations, which provides leads to wet lab.
If you think bioinformatics alone can give you the definite answer for
driver mutations, probably you will be disappointed. Just like a highly
significant GWAS marker is not necessary a good predictor and not a verdict
for the guilty of nearby genes, I consider bioinformatics as a hypothesis
generator, which give you leads to the solution rather than the definitive
conclusion itself.
Some tumor cells can be dramatically different from the matching germline
samples while others bear very few functional somatic mutations.

mutation

【在 V***b 的大作中提到】
: 我现在不明白大规模测序之后,拿到一堆数据,和什么去比对?怎样定义“正常组织”
: ?比如说Steve Jobs的测序结果怎样?如果发现EGFR/PI3K/Ras这些常见突变倒好说(
: 其实即便这样也很难下定论),最怕就是发现很多突变,却无法将5%,甚至更少的
: cancerous mutation,以及各种cancerous mutation组合,从95%的harmless mutation
: 中分离出来。把Jobs的胰腺癌细胞和他身上正常组织的序列比较,或者跟另一个“健康
: 人”的序列比较,肯定有非常多的不一样。
:
: mutation.

avatar
o*m
336
我觉得在你判断别人文章水的时候,是否真正理解了别人的文章?
这篇文章指出在现有的biomarker 研究中,利用survival证明他们找到的biomarkers具
有生物意义这个方法是不正确的。
如果只是用predicting survival就说明这个gene signantures是重要的biomarker的话
。我随便设计一个乱七八糟的实验,找到一组差异基因,然后预测一下survival,就说
我找到的差异基因是有意义的话。那正如曹操所说:不知天下几人称王几人称帝!
另外现在多数研究都是找研究中的差异基因,并不是所谓的driver,这些基因,我相信
多数是passenger gene,而不是driver。 Driver基因可能需要通过mutation,copy
number等去寻找,而现有的gene signantures多数都是differentially expressed
genes。
也就是说你假设的那些driver 根本就是不存在或者很稀少的。
殊不知,多少paper是就拿两种样本比比,找点差异基因,然后找个独立的数据预测一
下,然后忽悠说多么有意义。
真不敢科学竟然如此固执,就像当年哥白尼反对地心说一样。

【在 V***b 的大作中提到】
: 这篇文章发PLOS恰如其分。很水。这篇文章挑出来的那些著名的marker其实80%都是
: driver;那些所谓随机挑的一些基因80%都是passenger。driver发生变化,乳腺癌了,
: 然后passenger也跟着变了,然后这几个作者跳出来说:你们看,这两堆基因没什么差
: 异嘛,都变了。
: 问题是:driver是有效的药物靶位点,passenger不是。

avatar
o*m
337
在定义一个biomarker是否是一个好的biomarker时,你首先要达到一定的统计标准,再
去谈生物意义。你连最基本的score都达不到,你后面牵强附会地加上生物意义谁信呢?
按照你的观点,那大家不要做分析了,直接去搜文献,读NCBI-GENE,找和疾病相关的
基因,然后使劲说生物意义,恐怕每个你都能说的很好。但是这样有什么意义呢?
那篇文章并不是说高score就是好的,他恰恰指出的是只是有score是不行的。他所研究
中的那些breast cancer gene signantures哪个不是响当当地具有显著p值?他正驳倒
的是这个p值。你认为有高的score,没有生物意义不行。他说的是有高的score,但这
个score所证明的不是生物意义上的高score,这也是不行的。所以他说的比你的要高。
你没懂,不能说他不对。

所以,一个好的biomarker着重的是生物学上的意义,而不是统计学上的score。 你有
再好的score不能从生物学上解释也不能算biomarker。所以通畅来说,发表一个
biomarker其实不是说我这些基因score有多好,而是说用这些基因来区别这种癌症在生
物学上说得通。这些基因的不同是在现有知识基础上有生物学意义的。比如说特定的
pathway被激活,特定的受体被抑制之类。其实一个biomarker重要的是它背后的这个生
物故事。我觉得。

【在 n***a 的大作中提到】
: 我觉得他这个文章指出的是统计学在生物里的的应用的问题。
: 我觉得他得出这个结论的前提条件就是对biomarker定义的一个误导。
: 至少我是这样认为的
: biomarker首先是要有bio然后才有marker。
: biomarker的重要一点就是它要在bio上说的过去。而且biomarker目前也不是用于诊断
: ,它只是给你一个大方向,让你可以试着有的放矢,尽可能的避免资源浪费,尽可能的
: 使病人得到最有效的治疗。
: 单就统计方法来说,biomarker的产生其实就是比较两组数据之间的最大差别。任和已
: 知方法的目的就是通过各种分类,简化来找出最大区别。说白了就是通过数据优化来达
: 到分类效果。所以任选任何100个基因可以outperform现有signature的现象一点都不奇

avatar
o*m
338
我不觉得你完全同意了那个哥们的回复。
但我同意你的观点,这个论文是提醒大家正确地理解统计p值说明的问题。不是说 苹果
比葡萄显著地大就证明苹果比葡萄甜。gene signantures能significantly predictive
survival,也只能说明这些,不能说明gene signantures就是有生物意义的东西。
我也在想,那些发表这些gene signantures的人有几个能真正相信自己的gene
signantures有什么生物意义?如果真信的话,为什么发了paper之后没见几个后续研究
呢,都继续转战到找其他gene signantures了呢?如果真那么有意义,继续开发下去,
岂不是能用于临床和药物,这才是更好的科学。正是因为他们不信,所以,只是发来
paper就算永远和他的biomarker说拜拜了。

【在 D*a 的大作中提到】
: 同意这个看法,我觉得他就是给大家提醒下不要瞎胡闹,我觉得他潜在意思应该是,
: 就算不是任选的100个基因,你们各位发表的据说有生物学效用的基因,又有多少人(
: 包括你们自己)会相信这些基因可以推出未知的癌症调控机理?

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。