最后一块拼图,人类Y染色体的完整序列首次公布
点击上方蓝字关注“尹哥聊基因”
最近微信改版,容易找不到尹哥的文章,大家记得把尹哥设为星标⭐️ 哦~
几十年来,由于结构上的复杂性,Y 染色体一直是基因组学界面临的众所周知的挑战。现在,这个棘手的基因组区域终于被完全测序了。
这一突破性成果最终带来了端到端的人类染色体序列,并为人类参考基因组增添了 3000 万个新碱基,其中大部分来自难以测序的卫星 DNA 。这些碱基揭示了 41 个额外的蛋白质编码基因,并为研究与生殖、进化和种群变化等有关问题提供了重要见解。
端粒到端粒(T2T)联盟的研究人员于本周在 Nature 杂志上发表了这项成果。这个联盟由加州大学圣克鲁斯分校生物分子工程学助理教授 Karen Miga 共同领导。目前,带有注释的完整Y染色体参考序列已发布在 USUC Genome Browser 上,也可通过 Github 访问。
共同第一作者、加州大学圣克鲁兹分校的博士后研究员 Monika Cechova 表示:“就在几年前,几乎一半的人类 Y 染色体序列在文献中还是缺失的。当时我们甚至不知道是否能够对它进行测序,这太令人困惑了。如今确实发生了巨大的转变。”
01
完成 Y 染色体的测序
Y 染色体的结构一直具有挑战性,因为一些 DNA 是以回文形式排列的(即正向和反向序列相同),跨度长达 100 多万个碱基对。此外,Y 染色体中有很大一部分是卫星 DNA ,这也是之前版本的 Y 染色体参考序列所缺少的。在 Y 染色体上,两段卫星 DNA 相互连接,进一步加大了测序的难度。
研究人员能够实现 Y 染色体的无间隙读取,主要得益于长读长测序技术的进步以及创新的计算组装方法,这些方法能够处理重复序列,并将测序的原始数据转化为可用的资源。这些新方法让研究团队能够解决Y染色体组装上的一些重大难题,比如精确地界定回文序列中反转发生的位置。
美国国家人类基因组研究所的科学家 Arang Rhie 谈到:“在之前的参考基因组中,Y 染色体缺少的序列最多。每当我们试图开展任何分析时,总会发现我们遗漏了一半的 Y 染色体,这真是令人恼火。我很高兴我们能够整理出第一个完整的 Y,看看我们究竟遗漏了什么,以及我们现在可以做什么。”他也是这篇论文的共同第一作者。
2018 年,Miga 及其同事发布了首个人类 Y 染色体着丝粒的完整图谱。2022 年,T2T 联盟又发布了首个完整测序的人类基因组(包括所有常染色体和 X 染色体)。如今,在此基础上,他们又增加了 3000 万个碱基对。
02
推动新的科学研究
Y 染色体通常出现在男性个体中,但也可能存在于其他人群中,比如双性人。虽然 Y 染色体上的基因相对较少,但却是复杂和动态的,它们编码了重要的功能,比如精子发生。完整的 Y 染色体参考序列将帮助科学家更好地研究人类基因组中这一部分的多个特征。
Y 染色体结构复杂,其基因家族迅速进化。事实上,Y 染色体是变化最快的人类染色体,这意味着两个健康人的 Y 染色体可能看起来完全不同——例如,一个人可能有 40 个基因拷贝,而另一个人只有 19 个拷贝。有了新的参考序列和成熟的 Y 染色体测序方法,人们如今能够更好地研究这种进化。这也许是未来体外受精或其他不孕不育症研究的重点。
对研究人类种群进化和漂移的人来说,端到端的 Y 染色体序列也是一个很重要的资源。这是因为 Y 染色体是一组遗传物质代代相传,很少与外界发生重组,而人类常染色体和 X 染色体上的基因则不同,它们经常重组并彼此共享遗传物质。对 Y 染色体有了更清晰的了解,就可以更容易地追踪跨代遗传的基因,并了解基因的位置和内容如何随着时间而变化。
如今,在 Y 染色体参考序列中新增了 3000 万个碱基后,人们有望研究独特的 Y 染色体序列模式,比如两个卫星 DNA 的结构以及基因的位置和拷贝数。即使在 Y 染色体内,基因也被分成几个区域,这些区域在内容、结构和进化历史上都大不相同。了解 Y 染色体的变化速率以及如何解释这种变化,也是相当有趣的。
有研究表明,携带 Y 染色体的人随着年龄增长可能会失去部分或全部遗传物质,但科学家们还没有完全弄清这种情况发生的原因及其可能产生的影响。完整的 Y 染色体参考序列可能有助于解开这个谜团。研究与 Y 染色体有关的疾病也将变得更加容易,比如精子产生不足。
03
细菌基因组的污染
这篇论文的一个意外发现是,在过去的研究中,由于细菌 DNA 中的人类污染未完全去除,Y 染色体 DNA 曾多次被误认为是细菌 DNA。这一发现有望改善对细菌基因组的研究。
人类 DNA 有可能成为细菌样本中的污染物,因为细菌 DNA 通常是从人类皮肤上提取的。科学家们使用现有的人类基因组参考序列来确定哪些序列来自人类污染,并去除这些序列,只留下细菌 DNA 用于他们的研究。然而,由于过去的人类参考序列中缺失了 Y 染色体中的大部分序列,科学家们无法将其识别为人类,因此误认为是他们正在研究的细菌物种中的一部分。
这篇论文发现的证据表明,在一个公共数据库中,大约 5000 个细菌基因组可能含有与人类 Y 染色体序列相匹配的污染。研究这些细菌物种的团队可以使用更新的 Y 参考序列,将所有人类污染从他们的参考基因组中去除,并更清晰地了解细菌基因组。
“这是一件令人惊讶的事情,” Rhie 谈道。“人们一直在猜测,但直到现在才能证明这种情况真的在发生。”
04
Y 染色体的泛基因组研究
虽然完整的人类 Y 染色体将为许多新发现打开大门,但研究人员计划将 Y 染色体纳入未来版本的人类泛基因组,以便进一步改进对该区域的研究。泛基因组是基因组学的一个新参考,它结合了不同祖先背景的多个人的基因组信息,最终有望实现更公平的研究和临床探索,如诊断疾病、预测医疗结果和指导治疗。
研究人员计划与人类泛基因组参考联盟合作,将完整的 Y 染色体序列整合到个体基因组中。这将有助于科学家了解不同祖先背景的人群的 Y 染色体是如何变化的,并为了解 Y 染色体在人类多样性中的作用提供一个更好的参考点。
他们还希望与世界各地的科学家合作,让其他人也能完成 Y 染色体测序。
参考文献:
The complete sequence of a human Y chromosome
本文转载自公众号“生物通”,作者“生物通”。
— END —
微信扫码关注该文公众号作者