单分子RNA-seq 测序仪器的错误率从15%减少到了不到0.1%。
pls refer :
美研究人员成功解码“学习能力”相关基因
translation from article:
Hybrid error correction and de novo assembly of single-molecule sequencing
reads
by
Koren S. et al. Nat Biotech (2012)
2012-07-18
据外媒报道,有US科学家称,他们组合了一条更完整的基因链条,这个基因链条可
以控制鹦鹉模仿主人和其他声音的能力。
研究者用一种新技术分解了鹦鹉的基因组中的某个区域,进行了单分子测序,并用
来自较早的DNA解码设备的数据对其进行了纠错。研究者还解码了来自玉米和细菌的难
以测序的基因物质,以此来证明他们新的排序方法。
单分子测序“在去年获得了大量宣传”,因为它产生了测序长读取,“使组装基因
组中的复杂部分变得更容易,”研究参与者之一,Duke大学的神经生物学家Erich
Jarvis说。
Jarvis对那些控制鹦鹉模仿能力的序列很感兴趣,因为它们能帮助神经科学家了解
控制人类语言发展的那些基因区域。
Jarvis 首先尝试用第二代测序技术把基因区域拼凑在一起,这种测序技术可以一
次性读取100到400个碱基对,然后用几天的时间把它们组合成一个基因组序列草图。在
进行测序的时候,科学家发现读取的长度不足以组装某些基因的调控序列,这些基因控
制着大脑中负责语言学习的回路。
马里兰大学的计算生物学家Adam Phillippy和Sergey Koren都是基因组组装方面的
专家,他们在一次会议上听到了Jarvis关于测序的建议,并提出了一种可能的解决方法
,调整处理DNA碱基对的算法。但是这样的改进似乎仍然不够。
去年,Roch 454已经可以读取1000对碱基对,太平洋生物科学公司(Pacbio)的单分
子测序仪器也做到了这一点。该公司可以一次性生成2250到23000个碱基对,在一天左
右的时间里制作出完整的基因组草图。
Jarvis 和其他人假设,新的技术将解决这个基因组测序的挑战。通过
Assemblathon竞争,科学家发现,太平洋生物科学公司的仪器在精确地解码虎皮鹦鹉基
因组的某些复杂区域时遇到了一些困难。这种仪器的错误率很高,在一个DNA序列中会
出现五分之一到六分之一的错误基因编码。Jarvis说,由于这样的错误,用这些较长的
读取来组装基因组几乎是不可能的。
但是在一组科学家的共同努力下,Phillippy、Koren和Jarvis纠正了太平洋生物科
学公司的测序仪器的错误,采用了第二代测序技术生成的较短的、更精确的编码。这样
的修正将单分子测序仪器的错误率从15%减少到了不到0.1%。
“最终,我们可以组装基因的调控区域,比如FoxP2和egr2,我们对它们的兴趣在
于它们能控制语言学习行为,”Jarvis说。
他解释说,FoxP2是人类的语言发展和鸟类学习模仿发声所必需的基因。Erg1是控
制大脑根据新的经验进行重组的基因。
由于能够解码和组织控制这些区域的DNA,神经科学家也许可以更好地理解是什么
样的基因机制使鸟类能够模仿人声和唱出美妙的歌曲。他们也许还能收集更多的信息,
了解影响人类学习沟通和语言能力的基因因素。Jarvis和同事计划在将来的论文中更详
细地描述鹦鹉的基因密码。
Jarvis补充说,随着更多的科学家使用这种混合型测序方法,他们也许可以解码与
癌细胞的发展有关的基因,或者解码控制大脑其他功能的基因序列。
//tech.creaders.net/newsViewer.php?nid=523980&id=1170990
original english version:
//m.today.duke.edu/2012/07/parrotgenome
or
Sergey Koren et al. (2012)
Hybrid error correction and de novo assembly of single-molecule sequencing
reads.
Nature Biotechnology. 10.1038/nbt.2280.
link:
//www.ncbi.nlm.nih.gov/pubmed/22750884
Abstracts:
Single-molecule sequencing instruments can generate multikilobase sequences
with the potential to greatly improve genome and transcriptome assembly.
However, the error rates of single-molecule reads are high, which has
limited their use thus far to resequencing bacteria. To address this
limitation, we introduce a correction algorithm and assembly strategy that
uses short, high-fidelity sequences to correct the error in single-molecule
sequences. We demonstrate the utility of this approach on reads generated by
a PacBio RS instrument from phage, prokaryotic and eukaryotic whole genomes
, including the previously unsequenced genome of the parrot Melopsittacus
undulatus, as well as for RNA-Seq reads of the corn (Zea mays) transcriptome
. Our long-read correction achieves >99.9% base-call accuracy, leading to
substantially better assemblies than current sequencing strategies: in the
best example, the median contig size was quintupled relative to high-
coverage, second-generation assemblies. Greater gains are predicted if read
lengths continue to increase, including the prospect of single-contig
bacterial chromosome assembly.
full text pls go to
//jarvislab.net/publications
then free down it .