单细胞多组学数据整合旨在减少组学差异,同时保持细胞类型差异。然而,由于细胞异质性,建模和区分这两种差异是一项艰巨的任务。即使是相同组学和类型的细胞也会具有不同的特征,从而使这两种差异变得不明显。在最新的研究中,四川大学的研究团队揭示了细胞异质性的两面性,尽管通常被视为数据整合的干扰,但若妥善利用,可以反之用来改善数据整合。据此,团队提出了一种以异质方式整合细胞的多组学数据整合方法,称为 scBridge。研究以「scBridge embraces cell heterogeneity in single-cell RNA-seq and ATAC-seq data integration」为题,于 2023 年 9 月 28 日发布在《Nature Communications》。
论文链接:
https://www.nature.com/articles/s41467-023-41795-5
背景
单细胞RNA测序技术(scRNA-seq)通过分析各个细胞的基因表达,揭示细胞多样性、疾病机制和药物响应等重要信息,在生物学和医学领域取得了广泛的应用。近年来,单细胞测序技术的发展提供了除RNA以外更多组学的单细胞分析,例如染色质可及性(scATAC-seq)、空间转录组(Stereo-seq)和蛋白质组(ScoPE-MS)。多组学数据有助于构建全面的分子调控网络,促进精准医学的发展。其中,scATAC-seq通过鉴定开放的染色质区域来研究染色质结构的动态重塑,有助于揭示转录的内在机制。因此,整合scRNA-seq和scATAC-seq让我们可以不仅从转录水平,还可以进一步从表观遗传学的角度揭示差异背后的原因。然而,由于不同组学测序方法的技术手段不同,所测得的数据在生物学信息之外还有测序技术、平台等带来的噪声,多组学数据整合方法旨在消除组学间的差异,保留生物学信息,使来自不同组学、相同类型的细胞聚合到一起,以便进行下游分析。
方法
本文提出的基于异质迁移学习的单细胞多组学整合方法,接受已注释的scRNA-seq细胞和未注释、待整合的scATAC-seq细胞作为输入,最终输出多组学细胞的整合结果,及对scATAC-seq细胞的类型预测。如图1所示,本方法主要由以下四个步骤组成:
(1)利用已注释的细胞训练分类网络,得到细胞表征和类别预测;
(2)根据不同组学细胞表征间的相似性和预测的置信度,对scATAC-seq细胞进行可靠性建模;
(3)选取高可靠性的scATAC-seq细胞与scRNA-seq细胞在特征空间进行整合;
(4)选取高可靠性的scATAC-seq细胞,将其当前类型预测结果作为注释,重复以上步骤直到全部scATAC-seq细胞都被整合。
▲ 图1. scBridge 算法示意图(来源:论文)
多组学数据整合的核心在于根据测序数据的特征分布,区分生物学信息和非生物学噪声。然而,由于细胞异质性的存在,即使来自相同组学、相同类型的细胞也会表现出不同的数据特征。此前的多组学数据整合方法未充分考虑细胞异质性,其对于生物学信息和非生物学噪声的区分受到细胞异质性的干扰,从而导致次优的整合效果。不同于此前的方法,本文提出细胞异质性不再是对数据整合的干扰,而是能被巧妙利用来帮助多组学数据整合。具体地,我们观察到部分 scATAC-seq 细胞的染色质可及性和 scRNA-seq 细胞的基因表达之间具有更高的相关性,这些细胞间的组学差异较小,更容易被整合。此外,整合这些细胞能够在整体上减小组学差异,进而帮助其他细胞的整合。基于此,我们提出了一个基于异质迁移学习的单细胞多组学整合方法 scBridge,通过迭代式地选取并整合当前组学差异最小的细胞,逐步减小组学差异,最终实现对所有细胞的准确整合。
▲ 图2. scBridge在SNARE-seq、SHARE-seq、10X Multiome 数据上的整合结果。(来源:论文)
结果
本文在七个单细胞多组学数据集上对所提出的scBridge方法进行了验证,涵盖了不同的物种、器官、细胞数量、测序方法、组学类型等。图 2 展示了其在 SNARE-seq、SHARE-seq、10X Multiome 数据上的实验结果,可以看到 scBridge 相较于现有的多组学数据整合方法表现出更好的整合结果和 scATAC-seq 细胞注释精度,尤其是对于细胞个数较少的细胞类型。另外,实验表明 scBridge 对注释的 scRNA-seq 数据量要求较小,在只提供 50% 注释数据的情况下仍能实现准确的数据整合。
▲ 图3. scBridge 在模拟 Dropout Corruption 的 Human Hematopoiesis 数据上的整合结果(来源:论文)
为了探究 scBridge 对于测序数据质量的稳健性,本文分别在 scRNA-seq 和 scATAC-seq 数据上通过手动调节 Dropout 的比率,模拟了测序深度较低的情况。图 3 的结果表明,scBridge 对于测序数据质量表现出良好的稳健性,尤其是在 scRNA-seq 端几乎不受 Dropout 事件的影响。这得益于 scBridge 所采用的迭代式整合策略,即便 scRNA-seq 数据的质量较差,但只要其能帮助模型选取出一部分可靠的 scATAC-seq 细胞,模型便可以利用这一部分细胞来进一步辅助其余细胞的整合。此外,本文还证实了 scBridge 对于 scRNA-seq 细胞注释精度、组学间细胞类型差异等具备良好的稳健性,且能扩展到蛋白等其他模态数据的整合,更多结果和分析详见原文。
总的来说,本文首次关注到细胞异质性对于单细胞多组学数据整合任务的两面性,基于细胞异质性这一生物学特性,针对性地在整合过程中对各个细胞的整合可靠性进行建模,迭代式地进行组学差异消减,最终实现准确的数据整合,是机器学习算法在生物信息分析中的一次成功应用。
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧