一个NGS的问题一直不清楚 - 未名空间MITBBS历史存档

一个NGS的问题一直不清楚# Biology - 生物学

D*32015-12-19 08:12

1 楼

情人节快乐！！！

b*r2015-12-19 08:12

2 楼

我知道一般NGS的结果都会先往reference genome 去做alignment
我关心的是recurrent translocation，断裂重接到位置相对固定，我的目的是想找到
手里的十万个细胞里有多少发生了这种translocation
用NGS的话，怎么来做比较好？直接align的话，那些跨过断裂点的可能根本align不上
被扔了。de novo assembly显然计算工作量大，而且如果translocation的细胞的丰度
低，可能直接就测不到。
不知道这么做难不难：就是把常见断裂并且重接的那一段突变后序列也加到reference
genome里面，然后随便给他个命名比如chromosome 24，然后去align，有重接的序列会
和这一段非常吻合，就不会被扔掉了。
或者还有什么别的比较简单的办法吗

m*52015-12-19 08:12

3 楼

同问！！

s*s2015-12-19 08:12

4 楼

我瞎说两句没试过。
如果你知道具体的断裂点，就是只想看几千上万的candidate，而不是全看的话。
你把这个看成RNA就行了。把chromosome看成gene，把断裂点之间看成exon,
把跨断裂点的序列看成transcript, 自己做一个GTF file，然后用TOPHAT2, STAR
一类的试试。

reference

【在 b****r 的大作中提到】

: 我知道一般NGS的结果都会先往reference genome 去做alignment
: 我关心的是recurrent translocation，断裂重接到位置相对固定，我的目的是想找到
: 手里的十万个细胞里有多少发生了这种translocation
: 用NGS的话，怎么来做比较好？直接align的话，那些跨过断裂点的可能根本align不上
: 被扔了。de novo assembly显然计算工作量大，而且如果translocation的细胞的丰度
: 低，可能直接就测不到。
: 不知道这么做难不难：就是把常见断裂并且重接的那一段突变后序列也加到reference
: genome里面，然后随便给他个命名比如chromosome 24，然后去align，有重接的序列会
: 和这一段非常吻合，就不会被扔掉了。
: 或者还有什么别的比较简单的办法吗

m*52015-12-19 08:12

5 楼

great idea!!
sounds similar to circular RNA mapping methods

【在 s******s 的大作中提到】

: 我瞎说两句没试过。
: 如果你知道具体的断裂点，就是只想看几千上万的candidate，而不是全看的话。
: 你把这个看成RNA就行了。把chromosome看成gene，把断裂点之间看成exon,
: 把跨断裂点的序列看成transcript, 自己做一个GTF file，然后用TOPHAT2, STAR
: 一类的试试。
:
: reference

b*r2015-12-19 08:12

6 楼

这想法确实不错，有现成的软件可用。有个问题，如果这个断裂点不固定，可能在二十
个碱基上下移动，这个方法还行吗。

【在 s******s 的大作中提到】

: 我瞎说两句没试过。
: 如果你知道具体的断裂点，就是只想看几千上万的candidate，而不是全看的话。
: 你把这个看成RNA就行了。把chromosome看成gene，把断裂点之间看成exon,
: 把跨断裂点的序列看成transcript, 自己做一个GTF file，然后用TOPHAT2, STAR
: 一类的试试。
:
: reference

d*u2015-12-19 08:12

7 楼

现在做variant calling的软件已经很成熟了，你要做的这个肯定有很多软件可以用。
我不是做variant-calling的，但是我分析RNA-seq的数据并且对VC有一点了解吧，你说
的这种junction-spanning reads, 只要测序的通量上去了且序列够长（100bp），做
alignment的软件都会考虑进去的。找断裂点跟找novel splicing junction很像，假如
你的断裂点很固定的话，也可以采用你说的那种方法做。但是在考虑这些之前，我觉得
完全可以先试试现有的软件。

reference

【在 b****r 的大作中提到】

: 我知道一般NGS的结果都会先往reference genome 去做alignment
: 我关心的是recurrent translocation，断裂重接到位置相对固定，我的目的是想找到
: 手里的十万个细胞里有多少发生了这种translocation
: 用NGS的话，怎么来做比较好？直接align的话，那些跨过断裂点的可能根本align不上
: 被扔了。de novo assembly显然计算工作量大，而且如果translocation的细胞的丰度
: 低，可能直接就测不到。
: 不知道这么做难不难：就是把常见断裂并且重接的那一段突变后序列也加到reference
: genome里面，然后随便给他个命名比如chromosome 24，然后去align，有重接的序列会
: 和这一段非常吻合，就不会被扔掉了。
: 或者还有什么别的比较简单的办法吗

b*r2015-12-19 08:12

8 楼

收到，学习了！

【在 d*********u 的大作中提到】

: 现在做variant calling的软件已经很成熟了，你要做的这个肯定有很多软件可以用。
: 我不是做variant-calling的，但是我分析RNA-seq的数据并且对VC有一点了解吧，你说
: 的这种junction-spanning reads, 只要测序的通量上去了且序列够长（100bp），做
: alignment的软件都会考虑进去的。找断裂点跟找novel splicing junction很像，假如
: 你的断裂点很固定的话，也可以采用你说的那种方法做。但是在考虑这些之前，我觉得
: 完全可以先试试现有的软件。
:
: reference

s*s2015-12-19 08:12

9 楼

有些mapper能support novel splice junction detection, 比如STAR 2-pass, 不知道
能不能有点用。
如果断裂点浮动，实在不行就都写到GTF就行了，取决于你的candidate到底多少了，
不知道有没有performance的问题。

【在 b****r 的大作中提到】

: 这想法确实不错，有现成的软件可用。有个问题，如果这个断裂点不固定，可能在二十
: 个碱基上下移动，这个方法还行吗。

n*e2015-12-19 08:12

10 楼

这个帖子很好，学习了，谢谢！

x*e2015-12-19 08:12

11 楼

如果是pair end reads只要分别align sense和antisense的5' 然后比较位置就可以了
，不需要准确知道junction point

【在 b****r 的大作中提到】

: 这想法确实不错，有现成的软件可用。有个问题，如果这个断裂点不固定，可能在二十
: 个碱基上下移动，这个方法还行吗。

S*t2015-12-19 08:12

12 楼

这个有现成的方法可参考。简单说来，你可以利用4C的pipeline高效准确地定位你的
translocation。4C的pipeline就是利用一个已知的片段去寻找跟它连接在一起的未知
片段。比如片段A和B容易形成translocation，那么将A或B分别作为fixed的片段输入到
pipeline里去寻找translocation partner，就可以找到B或者A，并且还会告诉你准确
的translocation junctions。除了A，B之外，你可能还能找到另外的translocation
partners. 但愿你有好运气。
话说回来，你这个用NGS全基因组测序真是大炮打蚊子。可以去看看Fred Alt实验室的
一些文章，主要做的就是genome-wide translocation的鉴定。

reference

【在 b****r 的大作中提到】

: 我知道一般NGS的结果都会先往reference genome 去做alignment
: 我关心的是recurrent translocation，断裂重接到位置相对固定，我的目的是想找到
: 手里的十万个细胞里有多少发生了这种translocation
: 用NGS的话，怎么来做比较好？直接align的话，那些跨过断裂点的可能根本align不上
: 被扔了。de novo assembly显然计算工作量大，而且如果translocation的细胞的丰度
: 低，可能直接就测不到。
: 不知道这么做难不难：就是把常见断裂并且重接的那一段突变后序列也加到reference
: genome里面，然后随便给他个命名比如chromosome 24，然后去align，有重接的序列会
: 和这一段非常吻合，就不会被扔掉了。
: 或者还有什么别的比较简单的办法吗

b*r2015-12-19 08:12

13 楼

我不是用全基因组测序，我就是打个比方，在根据reference genome节选出来的
wildtype reference sequence 之外加一截最有可能生成translocation的序列，以简
便的提高translocation的探测灵敏度
你的思路很明白，和我回头去看看你推荐的文章，谢谢

【在 S*******t 的大作中提到】

: 这个有现成的方法可参考。简单说来，你可以利用4C的pipeline高效准确地定位你的
: translocation。4C的pipeline就是利用一个已知的片段去寻找跟它连接在一起的未知
: 片段。比如片段A和B容易形成translocation，那么将A或B分别作为fixed的片段输入到
: pipeline里去寻找translocation partner，就可以找到B或者A，并且还会告诉你准确
: 的translocation junctions。除了A，B之外，你可能还能找到另外的translocation
: partners. 但愿你有好运气。
: 话说回来，你这个用NGS全基因组测序真是大炮打蚊子。可以去看看Fred Alt实验室的
: 一些文章，主要做的就是genome-wide translocation的鉴定。
:
: reference

s*s2015-12-19 08:12

14 楼

Structure variant还很不成熟。
记得dream challenge今年做过比赛，全世界小组竞争。好像一个200X的序列，
最好的一家也才50%。

【在 d*********u 的大作中提到】

: 现在做variant calling的软件已经很成熟了，你要做的这个肯定有很多软件可以用。
: 我不是做variant-calling的，但是我分析RNA-seq的数据并且对VC有一点了解吧，你说
: 的这种junction-spanning reads, 只要测序的通量上去了且序列够长（100bp），做
: alignment的软件都会考虑进去的。找断裂点跟找novel splicing junction很像，假如
: 你的断裂点很固定的话，也可以采用你说的那种方法做。但是在考虑这些之前，我觉得
: 完全可以先试试现有的软件。
:
: reference

b*r2015-12-19 08:12

15 楼

那我说的这种位置相对已知，而且配对的只有那么几种可能的情况呢，你推荐什么算法？

【在 s******s 的大作中提到】

: Structure variant还很不成熟。
: 记得dream challenge今年做过比赛，全世界小组竞争。好像一个200X的序列，
: 最好的一家也才50%。

s*s2015-12-19 08:12

16 楼

要是我做的，肯定第一个try的就是把structure variation那些做成extra的sequence,
然后
BWA; 第二种就是前面说的做GTF，然后用Bowtie/tophat/star做RNA-Seq.
第一种方法更加straightforward一点，不过后处理稍微麻烦一点，要仔细看一下最后
的结果，写一些script去filter掉一些cases，比如low quality的mapping, secondary／
alternative alignment, 还有map在这些contig的也未必跨SV。

法？

【在 b****r 的大作中提到】

: 那我说的这种位置相对已知，而且配对的只有那么几种可能的情况呢，你推荐什么算法？

m*T2015-12-19 08:12

17 楼

这个建议不错，赞一个

sequence,
secondary／

【在 s******s 的大作中提到】

: 要是我做的，肯定第一个try的就是把structure variation那些做成extra的sequence,
: 然后
: BWA; 第二种就是前面说的做GTF，然后用Bowtie/tophat/star做RNA-Seq.
: 第一种方法更加straightforward一点，不过后处理稍微麻烦一点，要仔细看一下最后
: 的结果，写一些script去filter掉一些cases，比如low quality的mapping, secondary／
: alternative alignment, 还有map在这些contig的也未必跨SV。
:
: 法？

m*T2015-12-19 08:12

18 楼

这个建议不错，赞一个

sequence,
secondary／

【在 s******s 的大作中提到】

: 要是我做的，肯定第一个try的就是把structure variation那些做成extra的sequence,
: 然后
: BWA; 第二种就是前面说的做GTF，然后用Bowtie/tophat/star做RNA-Seq.
: 第一种方法更加straightforward一点，不过后处理稍微麻烦一点，要仔细看一下最后
: 的结果，写一些script去filter掉一些cases，比如low quality的mapping, secondary／
: alternative alignment, 还有map在这些contig的也未必跨SV。
:
: 法？

d*u2015-12-19 08:12

19 楼

这样啊。我很久没有跟进SV的新文章了，想知道你说的这个DREAM Challenge有链接吗
？我一直觉得像translocation之类的SV理论上很好发现的，除非序列太短在
repetitive sequence里面。50%远远低于我的预期啊。。。

【在 s******s 的大作中提到】

: Structure variant还很不成熟。
: 记得dream challenge今年做过比赛，全世界小组竞争。好像一个200X的序列，
: 最好的一家也才50%。

e*62015-12-19 08:12

20 楼

这个问题很有意思。你提的解法很有道理，不过应该命名成chr25，有些人喜欢X，Y分
别叫23,24. 但是你的方法的问题是，你必须知道突变后的序列的各种可能的排列组合
。并且，如果你用pair end测序，是不是有更好的分析办法

reference

【在 b****r 的大作中提到】

: 我知道一般NGS的结果都会先往reference genome 去做alignment
: 我关心的是recurrent translocation，断裂重接到位置相对固定，我的目的是想找到
: 手里的十万个细胞里有多少发生了这种translocation
: 用NGS的话，怎么来做比较好？直接align的话，那些跨过断裂点的可能根本align不上
: 被扔了。de novo assembly显然计算工作量大，而且如果translocation的细胞的丰度
: 低，可能直接就测不到。
: 不知道这么做难不难：就是把常见断裂并且重接的那一段突变后序列也加到reference
: genome里面，然后随便给他个命名比如chromosome 24，然后去align，有重接的序列会
: 和这一段非常吻合，就不会被扔掉了。
: 或者还有什么别的比较简单的办法吗

b*r2015-12-19 08:12

21 楼

各种排列组合就是有几十种，做成几十段序列也是工作量很小的事情啊
有点想用ion torrent，所以pair end不好搞。好像都没看过谁用他家的pair end

【在 e*********6 的大作中提到】

: 这个问题很有意思。你提的解法很有道理，不过应该命名成chr25，有些人喜欢X，Y分
: 别叫23,24. 但是你的方法的问题是，你必须知道突变后的序列的各种可能的排列组合
: 。并且，如果你用pair end测序，是不是有更好的分析办法
:
: reference

s*s2015-12-19 08:12

22 楼

去google一下就行了。
cancer里面别说是最难的sv呢，就是snp indel各种所谓最好的caller call出来的东西
都有极大的不同。

【在 d*********u 的大作中提到】

: 这样啊。我很久没有跟进SV的新文章了，想知道你说的这个DREAM Challenge有链接吗
: ？我一直觉得像translocation之类的SV理论上很好发现的，除非序列太短在
: repetitive sequence里面。50%远远低于我的预期啊。。。

s*s2015-12-19 08:12

23 楼

如果只有几十种，还不如pcr。。。

【在 b****r 的大作中提到】

: 各种排列组合就是有几十种，做成几十段序列也是工作量很小的事情啊
: 有点想用ion torrent，所以pair end不好搞。好像都没看过谁用他家的pair end

s*s2015-12-19 08:12

24 楼

如果只有几十种，还不如pcr。。。

【在 b****r 的大作中提到】

: 各种排列组合就是有几十种，做成几十段序列也是工作量很小的事情啊
: 有点想用ion torrent，所以pair end不好搞。好像都没看过谁用他家的pair end

b*r2015-12-19 08:12

25 楼

如果你每天都要搞定几个这样的标本进来就不会这么想了吧

【在 s******s 的大作中提到】

: 如果只有几十种，还不如pcr。。。

e*62015-12-19 08:12

26 楼

这个我觉得需要单独做个统计分析，你的新片段里的各种排列组合有没有和原来基因组
的很像，一个误差之内呢？

【在 b****r 的大作中提到】

: 各种排列组合就是有几十种，做成几十段序列也是工作量很小的事情啊
: 有点想用ion torrent，所以pair end不好搞。好像都没看过谁用他家的pair end

n*72015-12-19 08:12

27 楼

确实
到现在都没有一个标准的pipeline

【在 s******s 的大作中提到】

: 去google一下就行了。
: cancer里面别说是最难的sv呢，就是snp indel各种所谓最好的caller call出来的东西
: 都有极大的不同。

s*s2015-12-19 08:12

28 楼

我说的是像cancerpanel那种，几十个targeted
region，然后还是ngs

【在 b****r 的大作中提到】

: 如果你每天都要搞定几个这样的标本进来就不会这么想了吧

m*T2015-12-19 08:12

29 楼

ion没有官方的paired-end？你可以自己设计

【在 b****r 的大作中提到】

: 各种排列组合就是有几十种，做成几十段序列也是工作量很小的事情啊
: 有点想用ion torrent，所以pair end不好搞。好像都没看过谁用他家的pair end