whole-genome数据来call structural variation(SV)和copy number variation(CNV)
一般SV就是三种signal, read-pair(RP), read-depth(RD), split-read(SR)
1000Genome project里用了一些比如Breakdancer,CNVnator这样元老型的软件,但缺
点是都只用一种signal
现在使用combine multiple signal的软件越来越多并且成了主流,比如Delly。Delly
主要是基于SR和RP,当然现在也有了后期基于RD的filter
SV的问题是,SV本质过于复杂,有不同size,不同type的SV,一种signal或者
algorithm很难完全对付,所以sensitivity和specificity都不高(跟SNP calling比起
来);为了得到更好的结果,有两种想法:
1. 对于一个genome,把Breakdancer,CNVnator,Delly等等的结果merge起来;只挑选
出同时被好几种tools支持的SV callings。这个很容易想到,就是用bedtools找
overlap,最后specificity会大大提高,但问题是sensitivity会大大降低
2. 就只用Delly这种先进的软件。比如Delly结果上进一步用RD来filter,让最后结果
是基于SR, RP, RD 三种signal,这样比硬生生的intersect两种不同的tools要温和点
(我个人觉得),或许sensitivity不会那么受到损伤
是不是第二种做法更好呢,尤其如果我现在只研究deletion?不知道自己讲明白了没。
希望听更多高人的指点