Redian新闻
>
平均准确率达96.4%,中山大学&重庆大学开发基于Transformer的单细胞注释方法

平均准确率达96.4%,中山大学&重庆大学开发基于Transformer的单细胞注释方法

公众号新闻

ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯


编辑 | 萝卜皮

使用测序 (scATAC-seq) 技术对转座酶可及的染色质进行单细胞测定,可在单细胞分辨率下深入了解基因调控和表观遗传异质性,但由于数据的高维性和极度稀疏性,scATAC-seq 的细胞注释仍然具有挑战性。现有的细胞注释方法大多集中在细胞峰矩阵上,而没有充分利用底层的基因组序列。

在这里,中山大学与重庆大学的研究人员提出了一种方法 SANGO,通过在 scATAC 数据中的可及性峰周围整合基因组序列来进行准确的单细胞注释。SANGO 在跨样本、平台和组织的 55 个配对 scATAC-seq 数据集上始终优于竞争方法。SANGO 还能够通过图 Transformer 学习到的注意力边缘权重来检测未知的肿瘤细胞。

该研究以「Deciphering cell types by integrating scATAC-seq data with genome sequences」为题,于 2024 年 4 月 10 日发布在《Nature Computational Science》。

单细胞ATAC-seq(scATAC-seq)技术是一种用于探究单个细胞内转座酶可接近性染色质的测序方法,它为理解基因调控机制与表观遗传异质性提供了前所未有的单细胞分辨率。

虽然 scATAC-seq 数据蕴含丰富的生物学信息,但由于其高维度(大量开放染色质峰)和极端稀疏性(每个细胞仅有一小部分峰有读数),使得从这些数据中准确地识别和分类细胞类型面临较大困难。

当前主流的细胞注释方法多聚焦于细胞峰矩阵,但这些方法往往未能充分挖掘和利用与这些峰相关的基因组序列信息。这种忽略可能导致对细胞特异性调控模式的识别不充分,限制了单细胞表型解析的深度与精度。

中山大学与重庆大学的研究人员提出了一种名为 SANGO(Single-cell Annotation by Integrating Genome Sequences around Open Chromatin Peaks)的新方法,旨在克服现有方法的局限性,通过整合 scATAC-seq 数据中的开放染色质峰及其周围基因组序列信息,提升单细胞类型的注释准确性。

SANGO 的核心假设是,基因组序列信息能提供额外的生物物理和调控线索,有助于更准确地识别细胞类型和揭示潜在的调控模式。

图示:SANGO 框架的示意图,用于通过整合基因组序列来注释 scATAC-seq 数据中的细胞。(来源:论文)

SANGO方法主要包括两个关键步骤:

首先,利用深度学习模型(如CA-CNN)从 scATAC-seq 数据中提取低维、信息丰富的细胞表示,这些表示充分考虑了每个开放染色质峰所处的基因组上下文。

其次,通过图 Transformer 网络(graph transformer network)处理这些表示,消除批次效应,传播相似细胞间的共享信息,并依据参考数据中已知细胞类型的标签对模型进行微调,进而用于预测查询数据中的细胞类型。

对内部数据集进行单细胞类型注释的性能

通过对 14 组内部数据集(每对包含已注释参考数据与未注释查询数据)进行评估,SANGO 平均准确率达到 96.4%,明显优于其他竞争方法。SANGO 的优势主要源于其对基因组序列信息的有效利用,当去除序列信息(SANGO-noseq)时,准确率下降 6.4%,进一步证实了序列信息的重要性。

图示:内部数据集的细胞类型注释的性能。(来源:论文)

此外,针对粗略细胞类型识别,SANGO 在 EpiAnno 选择的数据集上也表现出色,优于其他五种方法。总体来看,SANGO 在各类内部数据集上的稳健性能证明了其在单细胞类型注释任务上的优越性。

跨平台与跨组织数据集上的单细胞类型注释效果

面对来自不同测序平台(如10x Genomics、snATAC-seq、sciATAC-seq)的 19 对配对数据集,SANGO 取得了最高的平均准确率 77.6%,较次优方法高出约 10%。

图示:跨平台或组织数据集的性能。(来源:论文)

UMAP 可视化显示,SANGO 成功分离了原始数据中混杂的内皮细胞和小胶质细胞,而竞争方法则未能将内皮细胞与星形胶质细胞有效区分。

此外,针对跨越七种组织(骨髓、肝脏等)的 22 对跨组织数据集,SANGO 以平均 86.3% 的准确率显著超越所有竞争方法,揭示了其在处理不同来源及组织背景下细胞类型识别任务的强大通用性和准确性。

在使用不同参考数据源进行单细胞类型注释时的性能

当以多源组织(如脑、肠)数据作为参考时,SANGO 在 7 组多参考与查询数据集上的平均准确率为 93.2%。通过分析相关基因(如 TCL1A、FCGR2B、TEX9)周边的峰值信号,SANGO 的标注得到了确认,显示了其在不同参考数据来源下的稳定性和可靠性。

图示:以多源数据或图集数据为参考的性能。(来源:论文)

在单细胞ATAC-seq数据细胞类型注释中的优势及潜在应用

首先,SANGO 凭借对基因组序列信息的整合,有效克服了数据高维度与稀疏性难题,显著提升了注释准确性。其次,SANGO 对未知肿瘤细胞的识别能力及对细胞类型特异性开放染色质峰的发现,为揭示肿瘤微环境中的细胞异质性及探索潜在治疗靶点提供了新途径。

SANGO 作为一种高效、可扩展的细胞类型鉴定方法,通过整合 DNA 序列信息解决了 scATAC-seq 数据的复杂性,不仅在多种实验场景中展现卓越性能,还能揭示未知肿瘤细胞并提供细胞类型特异性生物学信号,为 scATAC-seq 数据分析开辟了新路径。

论文链接:https://www.nature.com/articles/s43588-024-00622-7

人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
现场围观 | 黄仁勋对话Transformer论文作者:世界该给Tranformer翻篇了陈行甲遇好夫人走出抑郁症;异地恋女友往男友包里偷塞200块钱和纸包的零食OpenAI官宣开源Transformer Debugger!不用写代码,人人可以破解LLM黑箱Mamba和Transformer合体!Jamba来了:超越Transformer!多功能RNA分析,百度团队基于Transformer的RNA语言模型登Nature子刊2024年5月西班牙(3)Transformer解码真实场景!Meta推出70M参数SceneScript模型《穿越春天的花海》&《当爱在靠近》【花样女神节】(拉手手亲口口)翻唱:爱晚亭&丽莎,音频全民K歌录制,视频来自网络。【花样女神节】《蔷薇蔷薇处处开》&《濑户の花嫁》中文实录!黄仁勋集齐Transformer论文七大作者,对话一小时,干货满满人人都能当周杰伦!Suno作曲,ChatGPT写词,网友用Transformer造出神曲!ICML 2024 | Transformer究竟如何推理?基于样例还是基于规则答案抽取正确率达96.88%,xFinder断了大模型「作弊」的小心思Transformer仍是2024发论文神器【童心依然】《童年》&《黑猫警长》&《日本娃娃》Transformer要变Kansformer?用了几十年的MLP迎来挑战者KAN“再见,Terraform”! HashiCorp被收购后,开发者跪求 IBM:不要合并 Terraform 和 AnsibleAI 大神首次承认参与神秘模型 Q* 研发,把 OpenAI 吓坏了 | Transformer 作者专访4000万蛋白结构训练,西湖大学开发基于结构词表的蛋白质通用大模型,已开源为什么Transformer一般使用LayerNorm?CVPR 2024 | 与任务无关的多模态数据也能提升Transformer性能!港中文&腾讯新作Mamba架构第一次做大!混合Transformer,打败TransformerICML 2024|Transformer究竟如何推理?基于样例还是基于规则个人感慨之110 脸都不要了性能突破Transformer!Mamba引爆AI圈7人创业、1人投敌!Transformer 八子谷歌坐冷板凳5年再成老黄座上宾【花样女神节】朗诵《一棵开花的树》&《红梅赞》30倍于传统方法,中国科学院团队Transformer深度学习模型预测糖-蛋白质作用位点开源日报 | 华为腾讯相爱相杀;Redis不再 “开源”;老黄集齐Transformer论文七大作者;“中国大模型第一城”争夺战黄仁勋集齐Transformer论文七大作者,对话一小时,干货满满YOCO:打破传统Decoder-only架构,内存消耗仅为Transformer的六分之一为子女鞠躬尽瘁,服了!Meta革命新架构掀翻Transformer!无限上下文处理!谁将替代 Transformer?CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术【七绝】 相思单思说 (十一尤)OpenAI公关跳起来捂他嘴!Transformer作者公开承认参与Q*!纯加法Transformer!结合脉冲神经网络和Transformer的脉冲Transformer | NeurIPS 2023CVPR‘24:与任务无关的多模态数据也能提升Transformer性能|港中文&腾讯
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。