我的一点感觉,一个很重要的不同在于NGS等DNA/RNA测序可以做de novo assembly/ discovery,MS做蛋白、代谢物等测序高度依赖于数据库,没有办法做de novo,数据库 里没有的,即使检测到了,也很难知道是什么东东,而且成本高。 什么时候MS也能做de novo assembly,来发现数据库里没有的序列和结构了,那时绝对 又会是一个推广MS应用的大高潮。
你先来看看uniprot的annotation是啥吧。 Sequence annotations describe regions or sites of interest in the protein sequence, such as post-translational modifications, binding sites, enzyme active sites, local secondary structure or other characteristics reported in the cited references. Sequence conflicts between references are also described in this manner. cDNA sequence database的意义在于极高的coverage%,至于是不是准确反应gDNA序列 ,影响并不大啊。
扯得稍有点远,因为我们实验室蛋白组代谢组都在做,而且不是人和小鼠这种popular 模式动物,数据分析起来很麻烦。不管做代谢还是做蛋白,一个样本里能在data base 里search有结果或者可以预测出ptm的数据大概占总数据的百分之多少? RNA-seq reference不太好,有污染什么的,我的经验是可能50%-60%左右,算是比较差 的。好的时候80%-90%。90%以上的偶尔也有。
【在 g*****x 的大作中提到】 : 你先来看看uniprot的annotation是啥吧。 : Sequence annotations describe regions or sites of interest in the protein : sequence, such as post-translational modifications, binding sites, enzyme : active sites, local secondary structure or other characteristics reported in : the cited references. Sequence conflicts between references are also : described in this manner. : cDNA sequence database的意义在于极高的coverage%,至于是不是准确反应gDNA序列 : ,影响并不大啊。
那我们俩说的不是同一个annotation。我主要是说的gene model annotation。 一个物种测了genome或者测了transcriptome,然后做个组装,预测的gene model和 coding sequence,然后把这些通过genome sequencing和RNA-seq测序得到的“ predicted” protein sequence提交到了uniprot里边,大多数应该是靠谱的,但是有 相当一部分是不靠谱的。对于人和老鼠这种genome和gene model研究都相对透彻的系统 来说,问题不大,但对于其他动物来说,很可能就是一个严重的问题。至少我PhD期间 做的三个gene的蛋白序列在uniprot里边都是fragmented或者干脆就是错的。。。这些 错误都源自最早的genome sequencing的质量太差,gene model annotation不好,接下 来的以这个genome作为reference RNA-seq或者MS都会有些问题。除非是做de novo assembly绕过这个genome,或者重新做新的genome reference才会客服这个问题。
in
【在 g*****x 的大作中提到】 : 你先来看看uniprot的annotation是啥吧。 : Sequence annotations describe regions or sites of interest in the protein : sequence, such as post-translational modifications, binding sites, enzyme : active sites, local secondary structure or other characteristics reported in : the cited references. Sequence conflicts between references are also : described in this manner. : cDNA sequence database的意义在于极高的coverage%,至于是不是准确反应gDNA序列 : ,影响并不大啊。
是的,有没有生信/CS高手计算一下只有四种信号和有20中信号的de novo assembly的 算法复杂度分别是什么? 所以de novo assembly很关键,要在protein上做DNA/RNA这样的不依赖于data base( reference)的de novo assembly,要是有基于Oxford nanopore这种蛋白质测序技术就 好了。 或者可以随机fragmentation(不要用sequence-dependent proteinase消化),然后做 MS。但是这里的MS还是需要借助data base search来确定peptide序列,不然就miss掉 了。还是要有完整的data base。