Nat. Commun. | 浙江大学郭国骥/韩晓平/王晶晶团队基于单细胞图谱和人工智能神经网络的基因组变异解码框架
自人类基因组计划完成20年以来,基因组学的研究取得了相当大的进展。然而,由30亿碱基对组成的人类基因组序列绝大部分都是非编码区域,人们对其潜在功能的理解只是冰山一角。在过去的十年中,大量工作致力于在全基因组尺度上研究基因表达的遗传调控机制,表达数量性状位点(eQTL)及其靶基因(eGenes)的发现弥补了复杂表型全基因组关联研究(GWAS)的局限性,使其进一步的临床应用成为可能。尽管如此,在GWAS所确定的与复杂表型相关的非编码突变中,有相当一部分无法通过已知的eQTL位点获得功能注释,人们对位于非编码区的遗传变异的理解仍然非常有限。组织样本中的细胞异质性也限制了人们对非编码突变功能的更深入理解。
2023年6月30日,Nature Communications在线刊登了浙江大学郭国骥/韩晓平/王晶晶团队的学术论文“An analytical framework for decoding cell type-specific genetic
variation of gene regulation”。该研究提出了一种新颖的分析框架Huatuo(华佗),可仅依据来自少量生物学个体的基因表达谱,实现对突变转录效应在细胞类型水平上的推断,为解析复杂的基因表达遗传调控机制提供了一种高效途径。该研究进一步构建了一个全面的细胞类型特异性基因调控遗传变异景观,并通过各种基准测试验证了分析结果的合理性。最后,团队探索了基因组遗传变异与复杂表型之间的关系,为复杂性状和疾病的驱动细胞类型和因果变异提供了系统性见解。
在这项研究中,研究人员在方法学上进行了两个方面的扩展。首先,作者提出了一种基于单细胞表达谱推断细胞亚群依赖性eQTL的新方法,以揭示更多在传统分析中被掩盖的非编码突变与基因之间的关联。其次,作者改进了现有的深度学习模型,提出了一种基于单细胞表达谱建立细胞亚群特异性预测模型的方法。通过模拟DNA序列的碱基替换,该模型可以预测突变在每个细胞亚群中的转录破坏效应。最后,作者将这些方法整合到一个名为Huatuo的框架中,并开发成一个工具供广大研究者使用。该框架可以利用少量生物学个体的scRNA-seq数据,探索细胞图谱和全基因组范围的细胞类型特异性基因调控遗传变异。
为了证明分析方法的可行性,研究人员首先对Huatuo模型的预测表现进行了系统性的评估。作者发现,Huatuo模型能够直接基于DNA序列准确预测基因表达的水平。对于来源于20个不同组织的357个细胞亚群,测试集基因的预测和实际观察到的基因表达水平之间的皮尔森相关系数(PCC)中位数达到了0.763,而在肾脏、胃和横结肠的某些细胞亚群模型中,PCC甚至超过了0.80(图左)。接着,为了检测突变效应预测结果的合理性,作者还测试了模型是否可以仅基于DNA序列重现基于人群数据得到的eQTL结果。尽管一些转录破坏效应非常大的位点可能由于负向选择作用在人群中极其罕见,进而导致eQTL统计力度的不足,但测试结果仍然显示,在同一个连锁不平衡区域中,突变预测效应的最高绝对值和eQTL z-score大小表现出显著的相关性(图右)。
此外,研究人员也对细胞依赖性遗传关联的分析结果进行了检测。通过对114套GWAS数据集进行贝叶斯共定位分析,作者发现Huatuo计算出的cell cluster-ieQTL能够揭示那些在使用标准eQTL分析时无法检测到的共定位信号(图左)。然后,作者使用了GWAS性状因果基因的“银标准”数据集,将其与cell
cluster-ieQTL揭示的共定位基因进行比较。与预期一致,作者观察到,具有更高PP.H4的GWAS性状-基因对在“银标准”数据集中显著富集(图右)。总的来说,这些结果显示了Huatuo推测的cell cluster-ieQTL结果在生物学上是合理的。
通过应用Huatuo框架,研究人员推测了细胞依赖性eQTL以及人群中所有常见突变在不同细胞亚群的调控效应。最终,作者构建了44种主要细胞类型的特异性基因调控遗传变异景观。该景观覆盖了人体主要组织类型和细胞谱系,包含13182个具有调控功能的非编码突变,以及6181个表达水平与之相关的基因。
最后,利用114个GWAS数据集,研究人员全面评估了Huatuo景观对各类复杂疾病和性状的遗传力贡献。基于Huatuo景观,作者估计了GWAS数据的SNP遗传力在细胞类型特异性调控位点的富集情况,并证明了其在揭示疾病驱动细胞类型方面的潜力。此外,作者还为精细映射推断的GWAS因果突变提供了单碱基和细胞类型水平的功能机制的见解。为了更好地展示这些结果,作者构建了Huatuo遗传变异的数据库网站(https://bis.zju.edu.cn/huatuo/),以促进生成的数据资源在未来研究中的应用。
【结论与展望】
总之,该研究克服了当前因技术方面的不足和样本收集困难所导致的瓶颈,提供了一个解码非编码突变功能和研究疾病基因组的新范式。这些研究结果将推动功能基因组学领域的进展,为阐明对疾病发生至关重要的细胞通路以及实现精准医疗和个性化医疗奠定基础。
浙江大学基础医学院郭国骥教授、韩晓平教授和良渚实验室王晶晶研究员为本文的通讯作者。浙江大学基础医学院2020级博士生肖彦宇、良渚实验室特聘研究员王晶晶、浙江大学基础医学院2019级直博生李佳琦和浙江大学基础医学院博士后张霈婧为本文共同第一作者。研究获得了国家重点研发计划、国家自然科学基金的支持。
来源:BioMed科技
微信学科群:神经科学群、医学、基础科学等纯科研交流群、硕博交流群和医药投资交流群(微信群审核要求较高,请各位添加小编后主动备注单位研究方向):
注:添加小编请备注昵称+单位+研究
喜欢本篇?让我们知道你“在看”吧!
微信扫码关注该文公众号作者