举个例子:
数据B:已发表的我们发现的SNPs,大概这样(chromosome,位点,和SNPs,其余省略)
chr1 1240 *** C
chr1 1270 *** T
数据A:最新的测序数据,大概这样(chromosome,序列起点,末点,CIGAR,序列,其
余略)
chr1 1234 1279 * * * 20M5D20M AAAAACCCCCCTTTTTGGGGGAAAAACCCCCTTTTTGGGGG
任务
1)确定A序列包含了B里面的SNP(两个SNPs都在1234-1279的区间,是我要的)
2)进一步根据序列,找出对应位点的base
example 1 是在第6个(1240-1234=6)base上,那么是C
example 2 是在第36个(1270-1234=36)base上,根据CIGAR code,有5个deletion,
股序列应该是:
AAAAACCCCCCTTTTTGGGGG*****AAAAACCCCCTTTTTGGGGG
那么应该是也是T
我现在就是有数据A和B,需要有软件能够:自动比较区间,同时根据CIGAR code找出对
应的base 是什么type。
包子先发一部分,后面继续帮助的会接着发,谢谢咯!!