平均准确率达96.4%，中山大学&重庆大学开发基于Transformer的单细胞注释方法

2024-05-04 04:05

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑 | 萝卜皮

使用测序 (scATAC-seq) 技术对转座酶可及的染色质进行单细胞测定，可在单细胞分辨率下深入了解基因调控和表观遗传异质性，但由于数据的高维性和极度稀疏性，scATAC-seq 的细胞注释仍然具有挑战性。现有的细胞注释方法大多集中在细胞峰矩阵上，而没有充分利用底层的基因组序列。

在这里，中山大学与重庆大学的研究人员提出了一种方法 SANGO，通过在 scATAC 数据中的可及性峰周围整合基因组序列来进行准确的单细胞注释。SANGO 在跨样本、平台和组织的 55 个配对 scATAC-seq 数据集上始终优于竞争方法。SANGO 还能够通过图 Transformer 学习到的注意力边缘权重来检测未知的肿瘤细胞。

该研究以「Deciphering cell types by integrating scATAC-seq data with genome sequences」为题，于 2024 年 4 月 10 日发布在《Nature Computational Science》。

单细胞ATAC-seq（scATAC-seq）技术是一种用于探究单个细胞内转座酶可接近性染色质的测序方法，它为理解基因调控机制与表观遗传异质性提供了前所未有的单细胞分辨率。

虽然 scATAC-seq 数据蕴含丰富的生物学信息，但由于其高维度（大量开放染色质峰）和极端稀疏性（每个细胞仅有一小部分峰有读数），使得从这些数据中准确地识别和分类细胞类型面临较大困难。

当前主流的细胞注释方法多聚焦于细胞峰矩阵，但这些方法往往未能充分挖掘和利用与这些峰相关的基因组序列信息。这种忽略可能导致对细胞特异性调控模式的识别不充分，限制了单细胞表型解析的深度与精度。

中山大学与重庆大学的研究人员提出了一种名为 SANGO（Single-cell Annotation by Integrating Genome Sequences around Open Chromatin Peaks）的新方法，旨在克服现有方法的局限性，通过整合 scATAC-seq 数据中的开放染色质峰及其周围基因组序列信息，提升单细胞类型的注释准确性。

SANGO 的核心假设是，基因组序列信息能提供额外的生物物理和调控线索，有助于更准确地识别细胞类型和揭示潜在的调控模式。

图示：SANGO 框架的示意图，用于通过整合基因组序列来注释 scATAC-seq 数据中的细胞。（来源：论文）

SANGO方法主要包括两个关键步骤：

首先，利用深度学习模型（如CA-CNN）从 scATAC-seq 数据中提取低维、信息丰富的细胞表示，这些表示充分考虑了每个开放染色质峰所处的基因组上下文。

其次，通过图 Transformer 网络（graph transformer network）处理这些表示，消除批次效应，传播相似细胞间的共享信息，并依据参考数据中已知细胞类型的标签对模型进行微调，进而用于预测查询数据中的细胞类型。

对内部数据集进行单细胞类型注释的性能

通过对 14 组内部数据集（每对包含已注释参考数据与未注释查询数据）进行评估，SANGO 平均准确率达到 96.4%，明显优于其他竞争方法。SANGO 的优势主要源于其对基因组序列信息的有效利用，当去除序列信息（SANGO-noseq）时，准确率下降 6.4%，进一步证实了序列信息的重要性。

图示：内部数据集的细胞类型注释的性能。（来源：论文）

此外，针对粗略细胞类型识别，SANGO 在 EpiAnno 选择的数据集上也表现出色，优于其他五种方法。总体来看，SANGO 在各类内部数据集上的稳健性能证明了其在单细胞类型注释任务上的优越性。

跨平台与跨组织数据集上的单细胞类型注释效果

面对来自不同测序平台（如10x Genomics、snATAC-seq、sciATAC-seq）的 19 对配对数据集，SANGO 取得了最高的平均准确率 77.6%，较次优方法高出约 10%。

图示：跨平台或组织数据集的性能。（来源：论文）

UMAP 可视化显示，SANGO 成功分离了原始数据中混杂的内皮细胞和小胶质细胞，而竞争方法则未能将内皮细胞与星形胶质细胞有效区分。

此外，针对跨越七种组织（骨髓、肝脏等）的 22 对跨组织数据集，SANGO 以平均 86.3% 的准确率显著超越所有竞争方法，揭示了其在处理不同来源及组织背景下细胞类型识别任务的强大通用性和准确性。

在使用不同参考数据源进行单细胞类型注释时的性能

当以多源组织（如脑、肠）数据作为参考时，SANGO 在 7 组多参考与查询数据集上的平均准确率为 93.2%。通过分析相关基因（如 TCL1A、FCGR2B、TEX9）周边的峰值信号，SANGO 的标注得到了确认，显示了其在不同参考数据来源下的稳定性和可靠性。

图示：以多源数据或图集数据为参考的性能。（来源：论文）

在单细胞ATAC-seq数据细胞类型注释中的优势及潜在应用

首先，SANGO 凭借对基因组序列信息的整合，有效克服了数据高维度与稀疏性难题，显著提升了注释准确性。其次，SANGO 对未知肿瘤细胞的识别能力及对细胞类型特异性开放染色质峰的发现，为揭示肿瘤微环境中的细胞异质性及探索潜在治疗靶点提供了新途径。

SANGO 作为一种高效、可扩展的细胞类型鉴定方法，通过整合 DNA 序列信息解决了 scATAC-seq 数据的复杂性，不仅在多种实验场景中展现卓越性能，还能揭示未知肿瘤细胞并提供细胞类型特异性生物学信号，为 scATAC-seq 数据分析开辟了新路径。

论文链接：https://www.nature.com/articles/s43588-024-00622-7

人工智能 × [ 生物神经科学数学物理化学材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章