e*6
2 楼
在bioinformatics里边,各种做prediction是个热门话题,但是有个问题始终搞不明白
比如看这篇文章,http://www.nature.com/articles/srep28517
他的方法以及他对比的方法,都有1%的false positive,这在同类研究中已经算是非常
好的成果了, 画个ROC算个AUC都很好看,但
是有个问题很不解,因为在整个基因组上,想要的interesting points(这里是
promoter)是非常非常稀疏的,也就几万个,人体基因组有3 billion bp,就算100个
bp一个间隔来创造备选的样品(长度200bp来算只有50% overlap了),这就有30
million个samples,就算百分之一的false positive,那就有30万个false positive,
已经是true positive的好多倍了,这种问题如何在进一步解决呢?
并且,类似这种paper,包括发在非常decent,high-impact的journal上的(包括plos
系列,BMC系列,包括这篇是nature系列的),都没提到过如何解决这个问题?
比如看这篇文章,http://www.nature.com/articles/srep28517
他的方法以及他对比的方法,都有1%的false positive,这在同类研究中已经算是非常
好的成果了, 画个ROC算个AUC都很好看,但
是有个问题很不解,因为在整个基因组上,想要的interesting points(这里是
promoter)是非常非常稀疏的,也就几万个,人体基因组有3 billion bp,就算100个
bp一个间隔来创造备选的样品(长度200bp来算只有50% overlap了),这就有30
million个samples,就算百分之一的false positive,那就有30万个false positive,
已经是true positive的好多倍了,这种问题如何在进一步解决呢?
并且,类似这种paper,包括发在非常decent,high-impact的journal上的(包括plos
系列,BMC系列,包括这篇是nature系列的),都没提到过如何解决这个问题?
I*r
4 楼
你说的是文章中的accuracy 吗?
n*g
8 楼
decent? Scientific Report is a trash journal.
Even Nature is trash
plos
【在 e*********6 的大作中提到】
: 在bioinformatics里边,各种做prediction是个热门话题,但是有个问题始终搞不明白
: 比如看这篇文章,http://www.nature.com/articles/srep28517
: 他的方法以及他对比的方法,都有1%的false positive,这在同类研究中已经算是非常
: 好的成果了, 画个ROC算个AUC都很好看,但
: 是有个问题很不解,因为在整个基因组上,想要的interesting points(这里是
: promoter)是非常非常稀疏的,也就几万个,人体基因组有3 billion bp,就算100个
: bp一个间隔来创造备选的样品(长度200bp来算只有50% overlap了),这就有30
: million个samples,就算百分之一的false positive,那就有30万个false positive,
: 已经是true positive的好多倍了,这种问题如何在进一步解决呢?
: 并且,类似这种paper,包括发在非常decent,high-impact的journal上的(包括plos
Even Nature is trash
plos
【在 e*********6 的大作中提到】
: 在bioinformatics里边,各种做prediction是个热门话题,但是有个问题始终搞不明白
: 比如看这篇文章,http://www.nature.com/articles/srep28517
: 他的方法以及他对比的方法,都有1%的false positive,这在同类研究中已经算是非常
: 好的成果了, 画个ROC算个AUC都很好看,但
: 是有个问题很不解,因为在整个基因组上,想要的interesting points(这里是
: promoter)是非常非常稀疏的,也就几万个,人体基因组有3 billion bp,就算100个
: bp一个间隔来创造备选的样品(长度200bp来算只有50% overlap了),这就有30
: million个samples,就算百分之一的false positive,那就有30万个false positive,
: 已经是true positive的好多倍了,这种问题如何在进一步解决呢?
: 并且,类似这种paper,包括发在非常decent,high-impact的journal上的(包括plos
e*e
9 楼
可以从网上搜一个词含有这个字,每次都拷贝进去:)
s*c
10 楼
1% false negative?
On average, PEDLA achieved 95.0% accuracy, a 96.8% GM (99.0% sensitivity and
94.6% specificity) and a 78.7% F1-score (99.0% recall and 65.4% precision)
99% sensitivity or recall means FN is 1% of the TP.
65% precision means FP is 50% of TP. not 好多倍
94.6% specificity means FP is 5.7% of TN.
TP:TN ~ 1:10
plos
【在 e*********6 的大作中提到】
: 在bioinformatics里边,各种做prediction是个热门话题,但是有个问题始终搞不明白
: 比如看这篇文章,http://www.nature.com/articles/srep28517
: 他的方法以及他对比的方法,都有1%的false positive,这在同类研究中已经算是非常
: 好的成果了, 画个ROC算个AUC都很好看,但
: 是有个问题很不解,因为在整个基因组上,想要的interesting points(这里是
: promoter)是非常非常稀疏的,也就几万个,人体基因组有3 billion bp,就算100个
: bp一个间隔来创造备选的样品(长度200bp来算只有50% overlap了),这就有30
: million个samples,就算百分之一的false positive,那就有30万个false positive,
: 已经是true positive的好多倍了,这种问题如何在进一步解决呢?
: 并且,类似这种paper,包括发在非常decent,high-impact的journal上的(包括plos
e*6
12 楼
问题就在这里,他抽样了是tp比tn一比十,从方法上说没问题,但现实应用起来,实际
是一比一百万
and
【在 s*****c 的大作中提到】
:
: 1% false negative?
: On average, PEDLA achieved 95.0% accuracy, a 96.8% GM (99.0% sensitivity and
: 94.6% specificity) and a 78.7% F1-score (99.0% recall and 65.4% precision)
: 99% sensitivity or recall means FN is 1% of the TP.
: 65% precision means FP is 50% of TP. not 好多倍
: 94.6% specificity means FP is 5.7% of TN.
: TP:TN ~ 1:10
: plos
是一比一百万
and
【在 s*****c 的大作中提到】
:
: 1% false negative?
: On average, PEDLA achieved 95.0% accuracy, a 96.8% GM (99.0% sensitivity and
: 94.6% specificity) and a 78.7% F1-score (99.0% recall and 65.4% precision)
: 99% sensitivity or recall means FN is 1% of the TP.
: 65% precision means FP is 50% of TP. not 好多倍
: 94.6% specificity means FP is 5.7% of TN.
: TP:TN ~ 1:10
: plos
r*6
14 楼
[在 nostring (尼) 的大作中提到:]
:decent? Scientific Report is a trash journal.
:Even Nature is trash
:plos
老兄火气很很大啊 哈哈哈哈哈
:decent? Scientific Report is a trash journal.
:Even Nature is trash
:plos
老兄火气很很大啊 哈哈哈哈哈
k*y
15 楼
谢谢楼上个位 让俺来试试
a*t
17 楼
ebay去买个同型号的键盘来 找人帮你换一下就是了
便宜得很。。。
便宜得很。。。
相关阅读
中国现在炸药奖少的真正原因Chemspider上那个“Symbiosys LASSO”参考价值有多大?生信技术员补充说明包子 求文献Protein designpaper help包子 求文献need help on system biology @ Retinoids请教怎样从GEO数据库里下载到某一类肿瘤完整的数据?Re: 辞职是否可以不告诉现雇主下家是谁 (转载)文章被接收。发包子!包子 求文献包子1枚 求 Paper full textelife的审稿状态军队反腐进行中--贺福初被查华大基因怎么样###此帖已应当事人要求删除###paper help with link一段不堪回首的华人公司经历 (转载)名校面试已开始 (转载)