Redian新闻
>
科研前沿揭秘:碱基不平衡文库,简直是基因测序的极限挑战!

科研前沿揭秘:碱基不平衡文库,简直是基因测序的极限挑战!

公众号新闻


导语:自1980年代第一代基因测序技术被发明以来,基因测序技术一直在飞速发展。对基因的检测也已经从全基因组测序向单细胞测序、空间组学等维度进发。

自从1980年代第一代基因测序技术问世以来,这个领域经历了令人瞩目的革新和进步。当前的生物科学领域正经历着一场由快速发展的基因测序技术驱动的变革。一系列尖端技术的出现开辟了新的研究维度,并助推我们向着更加个性化的医学以及更深层次的生物学理解前进。而基因测序在现代科学中的角色,正从单纯的序列解读转变为一个全方位的生物信息解码过程,不仅仅限于基因的原始序列,还包括基因如何、何时和在什么环境下发挥作用,以及其如何与疾病等生物学问题相互作用。


然而近年来我们发现我们所熟悉的基因组、转录组等组学对于中心法则的诠释仍有欠缺,研究人员开始进一步探讨更多维度的调控机制,表观遗传和转录调控就成为了研究热点。DNA甲基化测序(Whole Genome Bisulfite Sequencing,WGBS)、和翻译组测序(Ribosome sequencing,Ribo-Seq)也引起了大家的热议。


数据来源于:pubmed


随着WGBS和Ribo-seq研究的热潮不断高涨,研究人员开始注意到,与更传统的全基因组或外显子组测序相比,这些测序方法在文库制备上提出了更为严格的要求,并且在读取过程中更容易遭遇失败或产生质量较低的数据。造成这一现象的主要原因其实是相同的——碱基不平衡文库。


那么何为碱基不平衡文库?为何不碱基平衡文库会影响到测序准确性?在研究中能否让不碱基平衡文库被稳定读取呢?


这需要从NGS的原理说起。


技术介绍



在生物学中,碱基组成平衡是一种描述DNA或RNA中四种碱基——腺嘌呤(A)、胸腺嘧啶(T, 在RNA中为尿嘧啶U)、胞嘧啶(C)和鸟嘌呤(G)——出现频率相近的特征。这种均衡性被认为是基因组稳定性和复杂性的一种指标。在一个平衡的碱基组成中,理想状况下,每种碱基都占总序列的大约25%。然而,实际上不同物种和不同的基因区间内碱基组成可能存在差异。由这种碱基组成占比差异过大的DNA/RNA所构成的测序文库就被称为碱基不平衡文库(Unbalanced library或low diversity library)。


目前,已经商业化的主流测序平台均使用荧光标记的可逆终止子结合dNTP,通过不同的荧光信号对四种不同的核苷酸进行成像和识别。A/T/C/G将会被各拍摄一张“照片”,并通过软件处理将这4张荧光片叠加成一张。因此在碱基不平衡的情况下,往往出现4张片子中的一张乃至多张存在信号强度不够乃至没有信号的情况。这样的片子在图像叠加的过程中就会出现因信号强度不够被判定为质量低而被软件自动去除数据的情况,最终导致了碱基不平衡文库的检出质量可能偏低和序列误检率较平衡文库更高。(1)


且随着对DNA和RNA研究的深入,研究人员需要对更多的分子生物学层次进行准确和高效地测序分析。因此,在此背景下,研究人员遇到了越来越多的碱基不平衡文库类型。使用更加具有兼容性的方案进行更高难度的测序,从而获得更多新的分子数据,这种策略越来越受到科学界的青睐。据统计,涉及碱基不平衡文库的科研文献在近几年呈爆炸式增长,目前已累积至1615篇之多。而除了大家普遍熟知的不平衡文库,如甲基化测序、扩增子测序外,单细胞和翻译组测序也越来越多地应用于科研研究当中。


应用场景



实际上除了基因本身的碱基组成差异,测序方法本身也会导致测序使用的是不平衡文库。例如检测DNA甲基化情况的金标准——亚硫酸氢盐测序法(2)。其受到青睐主要因为单核苷酸水平的分辨率较高、适用范围广(跨越多个生物体和模型系统),以及对样本起始数量的要求极低,仅需10-100 pg的基因片段就足以进行测序(2)。因此,尽管在文库制备过程中C碱基会转化为U碱基,随后在PCR扩增中进一步被替换为T碱基,从而造成文库中C的极度匮乏,最终导致碱基组成严重失衡(2),这也是甲基化测序结果不理想的原因之一。尽管难度较高,但该技术却仍然是当前DNA甲基化检测中的主流方法。


另一方面,研究人员还注意到,测序平台采用的软件版本差异对测序结果的影响不容忽视。例如,一项于来自日本的研究曾发现Illumina HiSeq平台上HCS软件版本 HCS v2.0.5在当时是执行全基因组DNA甲基化测序(WGBS)的最优选项(1)。该版本能够较好地应对检测不平衡文库时G碱基的不准确调用问题。这是在其他软件版本中经常遇到的难点。由于甲基化测序必然是碱基不平衡文库,这就导致了在平衡文库的测序中是可以被有效规避的G碱基不准确调用问题成为了影响测序结果质量的痛点。


问题及对策



为减少碱基不平衡的影响,研究人员可以采取多种策略:


首先就是优化实验设计。如果能选择能带来更好文库平衡性的样本提取和扩增方法当然是最好的。毕竟有些测序平台为了保证测序结果的可靠性,规定研究人员只能使用每种碱基含量不低于12.5%,不高于62.5%的文库。这样可以直接从源头掐灭文库不平衡导致的种种问题。然而,像亚硫酸氢盐测序法这种已经是检测DNA甲基化的金标准了,在测序平台突破不平衡文库限制以前,很难有其他方法在检测DNA甲基化方面取代亚硫酸氢盐测序法。


因此,科研人员往往会去寻求更为简便的处理方法:例如illumina提供的通过添加校准文库PhiX来降低待检测文库的碱基不平衡性的方案。校准文库的基因序列是已精确知晓的,但基因序列又与人类的基因序列相去甚远,能够比较容易的在检测结果中去除。因而最常见也是最常用的校准文库就是来自Illumina的PhiX对照文库。PhiX文库的GC 比例约为 40% ,与人类、哺乳类的基因组的 GC 比例接近,但它是来源于病毒基因的文库,与人类基因有明显区别且不含有index。所以在进行测序时,科研人员可以通过基因序列比对或数据拆分等方法将检测结果中由校准文库带来的结果偏差尽可能消除。


此外,使用生物信息工具对碱基不平衡文库的原始测序数据进行质量控制和校正也是一个减少碱基不平衡文库不良影响的处理方法。高级算法能有效考虑和校正不平衡带来的影响,为生物信息学分析提供更精确的计算框架。这些方法的应用可能涉及机器学习技术,以自动识别和消除测序数据中的偏差。


最后成本最高,但也是最行之有效的方法:结合使用不同的测序技术。根据来自英国的科研人员发表在Nature Biotechnology(IF=46.9)上的研究结果显示,5种常见的商业测序平台在靶向 DNA 甲基化检测上各有优劣。



这其中 NuGen RRBS 提供最短、最简单的DNA甲基化测序方案,仅需要 100 ng DNA,适合使用稀缺临床样本的高通量应用(4)



而Illumina 的DNA甲基化测序方案可以在 2 天内完成,并且通过复用四个样本,使每个样本所需的 DNA 量减少了一半 (500ng)(4)。在5个测序平台中具有最高的目标捕获效率。故科研人员可以根据需求选择最合适的测序平台或者结合使用不同的测序平台,对测序结果进行插补整合,以获得更加精确完整的测序结果。


结尾



除了文中介绍的两种应用,近几年大热的单细胞测序、扩增子测序、转录组和ChIP测序的测序文库都是碱基不平衡文库。得益于现代测序技术的进步,科研人员可以更精细地处理不平衡文库的问题。未来的研究工作和行业合作将进一步深化对不平衡文库的理解和处理,提高科研和应用领域的质量标准。业界专家普遍认为,在未来几年内,通过机器学习和人工智能的辅助,不平衡文库测序技术将实现更快的迭代与完善,为生命科学研究揭开新的一页。



参考文献:

1. Naik T, Sharda M, C P L, Virbhadra K, Pandit A. High-quality single amplicon sequencing method for illumina MiSeq platform using pool of 'N' (0-10) spacer-linked target specific primers without PhiX spike-in. BMC Genomics. 2023 Mar 23;24(1):141.

2. Singer BD. A Practical Guide to the Measurement and Analysis of DNA Methylation. Am J Respir Cell Mol Biol. 2019 Oct;61(4):417-428.

3. Toh H, Shirane K, Miura F, Kubo N, Ichiyanagi K, Hayashi K, Saitou M, Suyama M, Ito T, Sasaki H. Software updates in the Illumina HiSeq platform affect whole-genome bisulfite sequencing. BMC Genomics. 2017 Jan 5;18(1):31.

4. Tanić, M., Moghul, I., Rodney, S. et al. Comparison and imputation-aided integration of five commercial platforms for targeted DNA methylome analysis. Nat Biotechnol 40, 1478–1487 (2022).

END




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
测序读长达25000碱基,准确性达99.9%之后,PacBio如何开启下一步破局?AI早知道|Midjourney推出新功能Room;百度文库上线智能漫画功能这“四个人”是那“四个人”吗?俄罗斯政府已经乱成了一锅粥,又快解体了!真上头!汤底都忍不住要炫光!$8.99金汤酸辣牛蛙还有配菜拉面,简直是懒人福音!这款“黑科技T恤”火了!上身立降5℃,出门5分钟出汗不湿身,简直是夏日救星~酒店里的机器人,简直是赛博二胎妒忌妻子爱狗多过爱自己!华男心里不平衡 狠将宠物犬摔死这个万金油专业,简直是藤校情结学生福音!破茧成蝶:赋能精准诊疗的“利刃”NGS,揭秘临床下一代测序的自动化与常规智能纤毛粘附设计新范式:超越壁虎仿生设计的极限 | NSR回国看军史, 蒋介石被斯大林泡了AI+数字化,想象力的极限在何方?大脑里的这个基因调控着你的食欲?!Adv Sci丨SH2B1基因在食欲控制与能量平衡调节中起到关键作用【旅游】带上勇气,迎接挑战!欧洲速度最快的过山车等你来战!去过天津,才知道松弛感的极限在哪美股基本面 - 2024_03_25 * 午报 * 美联储理事Cook强调在降息方面必须谨慎行事。Match与激进投资者Ell日本,还没到“忍耐的极限”?广美被国外抄袭!这设计不能说毫无关系,简直是一模一样...别不懂行!这才是盖饭的极限吃法,犯懒的时候就做它带上勇气,迎接挑战!欧洲速度最快的过山车等你来战!快、准、稳!NextSeq 1000/2000外显子组测序解决方案,开启下一个测序革新!攀登珠峰成为当下的极限运动 | 经济学人文化再回首 (二十八)国内住院,同病房有人说\'你叛国\'高级认知的基因分析两篇:视觉变换的基因分析和视觉轮廓整合效应的基因分析缓存与效果的极限拉扯:从MHA、MQA、GQA到MLA中国2亿美元物理学“极限挑战”实验室全面运行,助力超导研究专访普译生物黄亿华:从头研发具有自主知识产权的「第四代测序仪」,成立仅2年已推出首款中通量纳米孔测序系统华为儿童手表5 Pro极限挑战安全守护:没电没网5天,也能找到你!客服很痛苦?!这个AI工具,简直是大救星,谁用谁知道AI内容创作开卷,为什么百度文库成为超强玩家?这身【刺绣镂空衬衫+卡其色休闲裤】,简直是为优雅的职场女性量身定做!基于无酶和有酶策略的体外单碱基突变检测研究进展 | NSR综述溪长生物:致力打造千亿级Fab合成噬菌体文库,助力诊断与制药产业同时降本增效俄乌战争,简直是给中国送钱!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。