Redian新闻
>
里程碑式研究:UK Biobank全基因组测序项目揭示人类遗传多样性

里程碑式研究:UK Biobank全基因组测序项目揭示人类遗传多样性

公众号新闻

在2023年12月13日举办的UK Biobank 2023科学会议上,有一篇发表在医学类论文预印本网站medRxiv的论文Whole-genome sequencing of half-a-million UK Biobank participants引发了学术界的广泛关注。

该研究对约50万人,包括了5个人种的参与者进行了全基因组测序,堪称人类基因探索的又一里程碑式研究。虽然此研究尚未正式通过同行评审正式发表,但我们也可以通过该预印本先睹为快。



研究背景


随着基因测序技术的不断发展,我们对于基因了解也越来越多。但了解越多,未知的领域也更多展现在人们眼前。为此,UK Biobank在之前的基因分型和全外显子组测序 (WES) 研究工作的基础上进行了一个涵盖近50万人的超大规模全基因组测序(WGS)工程,也是迄今为止最大规模的涵盖了5个人种的全基因组测序。

下图为研究框架图:

研究人员首先通过英国生物样本库收集患者样本,然后进行WGS。对测序结果使用 GraphTyper 和 DRAGEN 数据集进行质量控制,然后对 SNP、in/dels 和结构变体 (SV) 进行变体调用。此后,研究人员定义了与 SV、SNP 和基因水平相关的表型(二元和定量)(罕见变异分析),并得出结论。然后将五个人种——NFE(非芬兰欧洲人)、SAS(南亚人)、AFR(非洲人)、ASJ(阿什肯纳兹犹太人)和EAS(东亚人),和集体关联效应定义为跨祖先荟萃分析。


样本来源及方法


研究使用了Illumina因美纳NovaSeq™ 6000测序平台,对490,640名UK Biobank的参与者进行WGS。WGS的平均测序覆盖深度为32.5倍,并采用了重复样品作为质量控制。

之后,Illumina因美纳 的DRAGEN Bio-IT平台又成功调用了大量的SNP和indel变异(均处于高准确性范围),其中,SNP检测到的灵敏度是99.77%,精度为99.91%;indel灵敏度为99.70%,精度为99.83% 。

最后,对WSG测序结果、GraphTyper和DRAGEN系统的变异调用结果执行单变异测试、多祖源meta分析、罕见变异聚合分析和结构变异分析等。


结果


图1变异类型和频率的描述

Figure 1由多个子图组成,涉及到基因组变异的不同类型和频率分布:

a) 不同群体中各类型变异的密度/数目:这个子图展示了在五个不同祖先背景的群体中,每个个体识别出的变异数目。具体来说,变异类型包括了SNP(单核苷酸多态性)、indels(插入或缺失变异)、singleton SNPs/indels(仅出现一次的SNP/indels)、结构变异中的插入和重复(insertions/duplications)以及删除(deletions)。
b) 结构变异(SV)的长度分布:此子图中关注SVs的大小分布,并通过颜色代码区分不同频率的变异,其中红色区域代表变异大小的第25至75百分位数值,直线代表中位数,顶部横线表示95%置信区间。长度分布显示了结果趋向于更短的SVs。
c) 不同类型SVs数量:这里显示了按照变异类别(复制、插入、删除)分类的SV数量。
d) 插入和删除的大小分布:此子图指明了插入(insertions)和删除(deletions)的尺寸范围,从50bp到1,000bp、10,000bp甚至100,000bp的变异大小进行了分类说明。

图2样本量的变异增加分析

Figure 2描述了如何通过不同样本量(从1000到490,541)揭示不同等位基因频率范围内的变异数。具体地,横轴表示随机下采样分析中的样本数量,纵轴表示识别出的变异量。
从Figure 2可以看出:对于常见变异(如,>1%频率),即使样本数量增大,我们也只观察到了变异数量较小的增加。对于稀有变异(如,<=0.001%频率),随着样本量的增加,变异数量显著增长,并且在样本量最大时仍未看到增长平稳,这表明继续进行大规模测序工作对于发现新的和高影响力的稀有变异具有重要价值。

图3跨祖先的 GWS(全基因组显着性)关联的扰乱图

Figure 3是一个UpSet交互图,常用来展示多个集合之间交集和独特元素的分布。这里显示了全基因组显著性(GWS)关联的分布情况,包括跨不同祖先(种族群体)的meta-analysis以及特定祖先内的关联。横轴标签按照GWS关联数量进行排序:meta-analysis、NFE(非芬兰欧洲人)、SAS(南亚人)、AFR(非洲人)、ASJ(阿什肯纳兹犹太人)和EAS(东亚人)。
根据Figure 3显示,最多的GWS关联发现在非芬兰欧洲人群体中,紧随其后的是meta-analysis,这表明某些基因与性状的关联横跨多个种族群体。非欧洲人群中的相对少量GWS发现亦表明研究仍有进一步挖掘这些群体特异性遗传关联的空间。

图4HBB-HBE1基因座与贫血相关疾病的关联

Figure 4的左半边展示了HBB-HBE1与溶血性贫血(D55-59)在非芬兰欧洲人(NFE)、非洲人(AFR)、南亚人(SAS)中的关联,右半边展示了HBB-HBE1与地中海贫血(Thalassaemia, D56)在NFE、AFR、SAS种族中的关联。
Figure 4显示了针对特定性状——贫血的关联信号在不同人群中的分布。图中突出了某些单核苷酸变异(SNPs),如rs334。该变异是SCD(镰状细胞病)的一个常见原因,并与HBB基因的一个错义突变有关。这些关联揭示了基因变异与疾病表型之间的联系,以及这些关联如何因不同种族而具有不同的流行病学特征。rs334在非洲人群中较为常见,但在非芬兰欧洲人和南亚人中较为稀少。研究结果依据不同群体种系特有的基因频率揭示了天然选择的痕迹,例如特定基因座的变异对抗疟疾的保护作用可能导致在某群体中变异频率较高。rs334还与其他生化指标(如肌酐、尿素)有关联,与镰状细胞病的临床表象一致。同样,地中海贫血相关性状的关联研究提供了进一步针对基因影响疾病表型的证据。

图5携带有害pLoF/P/LP变异基因的人数

Figure 5描述了在全基因组测序(WGS)和全外显子测序(WES)数据集中发现携带有害变异的基因的数量。pLoF是预测的失功能变异(putative Loss-of-Function variants),P/LP是临床上认定的致病/可能致病变异(Pathogenic/Likely Pathogenic variants)。横坐标X轴显示了参与者的数量,纵坐标Y轴表示具有至少一个特定数量(1,25,50,100)携带者的自体染色体基因的数量。
Figure 5显示,WGS检测到的具有至少100个携带有害变异的基因数量超过了WES数据集中的基因数量。Figure 5突出了WGS与WES数据集在揭示有害变异方面的比较,证明了WGS对于发现并理解构成特定遗传疾病风险的罕见和可能有害的遗传变异的重要性。通过WGS,我们能够在更广泛的基因组区域内发现之前可能在WES中未被检测到的有害变异,这在病因学研究及潜在的靶向治疗中极为重要。

图6 UTR基因型与表型的关联

Figure 6是一个塌陷分析图,展示了通过合并分析罕见UTR变异与表型关联的情况。图片的上半部分展示了二进制性状(binary phenotypes)的关联分析结果,下半部分展示了定量性状(quantitative traits)的关联分析结果。不同的颜色代表不同的UTR模型(5’ UTR、3’ UTR和两者结合),且图中对P值 < 1e-30的显著关联信号进行了标注。
Figure 6说明了稀有的UTR变异对于一些生物学性状和疾病表型确实具有重要的关联性,在某些情况下,纯UTR变异与特定表型的联合分析可导致新的统计学上显著关联。说明UTR变异在转录后调控以及相关疾病过程中可能存在重要作用,这些关联和作用在以前基于WES技术进行的研究中可能被忽视了。对于那些仅在蛋白质编码区有信号而UTR变异未被考虑的性状,这一发现意味着应扩大对罕见变异和非编码区域的探索,以更好地理解疾病机制。


总结


在这个研究中,WGS检测到约1.5亿个变异,包括单核苷酸多态性(SNP)、插入缺失变异(indels)和结构变异(SV),这在观察到的人类变异中较基因芯片插补和WES增加了18.8倍和40倍以上。相比仅通过WES能发现的变异,WGS能覆盖更多的蛋白编码区以及5’ 和3’ 未翻译区(UTR)序列的变异。大规模的WGS数据带来了对稀有非编码变异在健康和疾病中作用的扩展理解潜力,例如:

WGS数据显示,在所有注释类别中捕获的变异数量都超过了WES。构变异(SV)发现,虽然数量少于SNP和indels,但平均影响的碱基对数与SNP和indels相当。通过多祖源meta分析,发现细胞色素C反应蛋白降低与APOE基因突变rs429358-C有关,而通常认为这种突变会增加老年痴呆症的风险。发现结构变异的检测能够揭示基因与性状之间的新关联,例如,PCSK9基因中的SV与非高密度脂蛋白胆固醇水平显著相关。

这项研究提升了我们对人类遗传变异及其疾病发生影响的认识,并将为新的诊断方法、更有效和更安全的疗法的发现,以及为可能改善全球健康的精准医学策略开发打下基础。此外,这项研究也为探寻“选择作用”在致病变异和保护性变异塑造人类遗传多样性的过程中,扮演了何种角色奠定了研究基础。

UK Biobank这一项目所开展的全基因组测序(WGS)采用了因美纳NovaSeq™ 6000测序平台,测序地点包括冰岛deCODE Genetics和英国维康桑格研究所。对此 英国生物样本库副首席执行官Mark Effingham博士也曾表示:“如此大规模的全基因组测序对技术的精确度和灵敏度都有着极高的要求。”因美纳成为英国生物样本库当时首选的技术合作伙伴。此外,同时值得关注的是,该项目的分析亦采用了以高效和准确著称的因美纳DRAGEN Germline分析流程。这一分析流程与其他大规模群体基因组学计划所采用的分析流程相一致,以便今后对数据进行交叉分析。其他大型群体基因组学计划包括新加坡国家精准医学项目PRECISE、英国Genomics England十万人基因组计划、由美国国立卫生研究院支持的百万自然人群队列研究项目All of Us,以及由Nashville Biosciences牵头的基因组发现联盟(Alliance for Genomic Discovery)。

本论文的原文链接:
https://www.medrxiv.org/content/10.1101/2023.12.06.23299426v1

END


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
美国医疗里程碑!世界顶尖专家揭示一系列颠覆性的医学发现,影响全球数百万患者......​EMNLP 2023 | Explore-Instruct: 通过LLM的主动探索提高特定领域指令多样性“相亲对象要给我发52w??”再次见证了物种多样性...里程碑突破!全球首个 CRISPR 基因编辑疗法获FDA批准学界速递 | EHT发布M87黑洞新照片;黑死病没有重塑人类基因组服务超5000名用户、检测2万多人基因组序列,这家企业通过基因组测序对抗衰老 【衰老标志物检测】【AS $300 返 1200 里程】赚里程啦!里程 Portals 购物促销汇总从神经多样性视角看待我在 C 语言上的开源之旅 | Linux 中国法律翻译 | 金斯伯格大法官判例集锦:美国残疾人平权运动里程碑式判例——Olmstead诉L.C.案46、长篇民国小说《永泰里》第十章 同根异枝(1)自噬研究:2023年发文近万篇,基金项目持续增长,涉及几乎所有疾病;大数据揭示追这个热点的高效方法LLaMA2+RLHF=脆皮大模型?ICLR 2024高分投稿:多样性驱动的红蓝对抗科技|遗憾!SpaceX第二次试飞星舰仍然失败~但已取得里程碑式进展hé bàng?hé bèng?Nature子刊 | 清华大学孙前文实验室揭示DNA引物酶促进转录复制间的竞争并影响基因组稳定性的新机制《Nature Genetics》黑暗基因组研究:新方法大大改善癌症T细胞治疗人类里程碑!马斯克宣布:脑机接口芯片首次植入大脑,可用意念操作手机遗传性耳聋有望根治!复旦团队全球首个基因疗法登上柳叶刀,为治疗先天性遗传性耳聋9型(DFNB9)开辟新路径!自动驾驶汽车揭示人工智能的风险首次!广州母婴研究发现东亚人群特有的新的遗传变异,包括与孕期体重增加有关的遗传因素 | 环球科学要闻里程碑,Elon Musk将芯片植入人类大脑early days of the founding of Israel by Zionists.英语的故事(三)命运组合论----目录Nat Genet | 冯园庆等发现人类肤色进化和多样性的遗传机制广角•生态┃COP28与生物多样性保护温西首个“一改多”项目Harlowe House,里程碑式的创时代宜居典范!里程碑式的重大发现!华裔科学家发现癌症新疗法,有效阻止癌细胞生长!医疗里程碑!遗传性聋病儿童接受新疗法,五位患者中四人成功重获听力揭秘DNA甲基化与IgE水平关联:哮喘新靶标的表观基因组学研究单次准确率超97%!普译生物发布中通量纳米孔基因测序仪,实现高精准长读长测序里程碑式突破:可根治两种遗传血液病的CRISPR疗法在英国获批临床应用命运组合论----梁瑞堂Nature |利用6156个人类基因组序列成功构建出人类基因组约束图谱新增到50万个体的完整基因组,全球最大的人类基因组数据库开放获取!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。