Redian新闻
>
通过深度学习将 L1000 图谱转换为类似 RNA 的图谱

通过深度学习将 L1000 图谱转换为类似 RNA 的图谱

公众号新闻

编辑 | 萝卜皮

L1000 技术是一种具有成本效益的高通量转录组学技术,已被应用于分析一组人类细胞系对 > 30,000 种化学和遗传扰动的基因表达反应。目前总共有超过 300 万个可用的 L1000 配置文件。这样的数据集对于发现候选药物和靶标以及推断小分子的作用机制非常宝贵。L1000 检测仅测量 978 个标志性基因的 mRNA 表达,而通过计算可靠地推断出另外 11,350 个基因。缺乏全基因组覆盖限制了一半人类蛋白质编码基因的知识发现,以及与其他转录组学分析数据整合的潜力。
在这里,西奈山伊坎医学院的研究人员提出了一个深度学习两步模型,该模型将 L1000 配置文件转换为 RNA-seq 样配置文件。模型的输入是测量的 978 个标志性基因,而输出是 23,614 个 RNA-seq 样基因表达谱的向量。
该模型首先使用应用于未配对数据的修改后的 CycleGAN 模型将标志性基因转换为类似 RNA-seq 的 978 个基因图谱。然后使用完全连接的神经网络模型将转化后的 978 个类似 RNA-seq 的标志性基因外推到全基因组空间中。在 LINCS 和 GTEx 程序生成的已发布的 L1000/RNA-seq 数据集上进行测试时,两步模型的 Pearson 相关系数为 0.914,均方根误差为 1.167。处理后的 RNA-seq 样配置文件可供下载、签名搜索和以基因为中心的反向搜索以及独特的案例研究。
该研究以「Transforming L1000 profiles to RNA-seq-like profiles with deep learning」为题,于 2022 年 9 月 13 日发布在《BMC Bioinformatics》。
转录组学分析是目前在全基因组范围内分析细胞分子状态的最全面和准确的方法。成本的持续下降和质量的提高使全基因组转录组学成为生物医学和生物学研究的核心方法。通常,转录组学分析通过将对照条件与扰动条件进行比较来产生基因表达特征。
由于扰动而差异表达的基因可以提供有关潜在分子机制的线索。建立基于网络的集成细胞特征库 (LINCS) NIH 共同基金计划是为了通过在这些细胞受到干扰之前和之后使用组学技术分析人类细胞系来加速小分子疗法的发现。
L1000 检测是一种低成本的转录组学技术,可用于高通量,为 LINCS 生成数百万个基因表达特征。Broad 研究所的 LINCS 转录组学数据和特征生成中心 (DSGC) 使用 L1000 分析产生了超过 300 万个表达谱,测量了经过 30,000 多种化学和遗传扰动处理的人类细胞系的基因表达。该数据集有可能促进候选药物的快速发现,并显著加速科学家对小分子和遗传扰动诱导的分子机制的理解。
尽管 L1000 检测产生了高质量的数据,但它只测量了 978 个标志性基因的 mRNA 表达。这些标志性基因是根据它们与转录组其余部分的正交性预先选择的,以最大限度地提高计算推断其余基因表达的能力。目前,通过计算可靠地推断出另外一组 11,350 个基因。但是,这留下了大约一半的蛋白质编码 mRNA 表达水平缺失。这限制了研究人员正确识别差异表达途径、将 L1000 数据与其他转录组学数据整合以及研究许多未测量和未推断基因的表达和活性的能力。
为了减轻当前可用的 L1000 配置文件的缺陷,将数据从一种格式转换为另一种格式的计算模型可能会很有用。近年来,深度学习在计算机辅助语言和图像翻译方面取得了重大进展。例如,使用 CycleGAN 的未配对图像到图像转换用于使用无监督方法学习一个图像域到另一个图像域之间的映射。CycleGAN 采用由两个生成器和两个鉴别器组成的生成对抗网络(GAN)架构。生成器从一个域中获取图像并将其转换为看起来像是来自另一个域。鉴别器试图预测给定图像是真实的还是生成的。鉴别器和生成器相互对抗,直到鉴别器不再能够区分真实图像和生成图像之间的差异。CycleGAN 引入了循环一致性的概念。第一个生成器输出的图像用作第二个生成器的输入,其中第二个生成器的输出应与原始图像匹配。
几项研究使用 GAN 和前馈神经网络来转换基因表达谱以用于各种任务,包括分析 L1000 数据。例如,GGAN 是一个条件生成对抗网络模型,具有一个生成器和一个鉴别器,它以 L1000 个标志性基因的基因表达为输入,并预测 9520 个未测量基因的基因表达。
生成器将标志性基因的基因表达谱作为输入,并生成 9520 个基因的表达。鉴别器预测剩余基因的基因表达谱是真实的还是生成的。D-GEX 是一个多任务多层前馈神经网络,它也将具有里程碑意义的 L1000 基因表达谱作为输入,并预测 11,350 个基因的表达。GGAN 和 D-GEX 改进了 Broad 研究所 Connectivity Map (CMAP) 团队开发的原始推理算法,该算法使用线性回归,可能会丢失已知存在于基因表达数据中的非线性关系。
此外,Ghahramani 团队使用 GAN 来降低单细胞 RNA-seq 配置文件的维数并预测扰动。Lee 和 Ahn 使用 CycleGAN 架构将来自肿瘤的基因表达模式转换为相应的正常组织图谱,而其他几个小组在该领域开发了其他应用程序。然而,这些先前的方法被应用于为同一域中的给定输入生成基因表达谱,而不是用于跨实验平台转换谱。先前的实现也适用于一组有限的基因,缺少许多蛋白质编码和非编码 mRNA 的测量。
在这里,西奈山伊坎医学院的研究人员提出了一个两步深度学习模型,该模型可靠地将 L1000 配置文件转换为 RNA-seq 样配置文件。该模型的第一步将测量的 978 个标志性基因的基因表达水平作为输入,并使用改进的 CycleGAN 模型将这些向量转换为类似 RNA-seq 的 978 个基因向量。该模型的第二步使用完全连接的神经网络(FCNN)模型将类 RNA-seq 978 基因载体外推到 23,614 维类 RNA-seq 全基因组谱中。这是第一次尝试使用深度学习将 L1000 配置文件转换为完整的 RNA-seq 样配置文件。

图示:模型架构。(来源:论文)

这里介绍的两步深度学习模型有效地将 L1000 配置文件转换为 RNA-seq 样配置文件。该模型的第一步使用改进的 CycleGAN 模型将 L1000 配置文件转换为标志性基因空间中的 RNA-seq 样配置文件。使用完全连接的人工神经网络模型将第一步预测的 RNA-seq 样图谱外推到全基因组空间。
图示:不同时期的训练进度。(来源:论文)
研究人员表明,即使没有通过 L1000 和 RNA-seq 测量的用于训练的配对转录组样本,该模型可以将 L1000 配置文件转换为具有未配对数据的类 RNA-seq 配置文件,这些数据丰富,可通过任一技术(即 L1000 和批量 RNA-seq)获得数百万个样本。此外,从 RNA-seq 样谱计算的签名可用于从可用的 L1000 谱中获得有关当前缺失的蛋白质编码基因的新知识。同样的方法可以扩展到预测非编码基因的表达。
L1000 测定旨在测量 978 个标志性基因的表达,同时推断其余基因的表达。目前,所有已发表的推理方法结果仅提供了另外 11,350 个蛋白质编码基因的表达。因此,单基因搜索仅适用于一半的人类编码基因,而不适用于非编码基因。尽管执行 RNA-seq 的成本正在下降,但在统一的环境中使用批量 RNA-seq 生成超过 3M 的基因表达谱仍然非常昂贵。
图示:在 978 地标空间比较预测和真实轮廓之间的相似性。(来源:论文)
此外,将 L1000 制成 RNA-seq-like 可能更好地在这两个平台上整合这些数据。大多数进行基因表达分析的个体研究人员使用批量或单细胞 RNA-seq。因此,预计使用转换后的 RNA-seq 类数据搜索所有 L1000 数据将产生更准确的搜索结果。
为了证明转换后的 L1000 特征的潜在效用,该团队开发了一种 Appyter,它可以预测可能上调或下调靶基因表达的药物和单基因扰动。通过使用基因 SFRP2 和 LGI3 查询 RGCSRS Appyter,这两个基因在衰老组织中始终存在差异表达,研究人员注意到已知会影响衰老过程的药物被高度优先考虑。其他研究较少的小分子和遗传扰动也排名很高,可以测试它们对衰老过程的影响。或者更直接地,SFRP2 和 LGI3 的蛋白质产物可以被抗体靶向,或作为重组蛋白或 mRNA 载体引入,以检查它们对衰老过程的影响。这些案例研究为许多其他应用打开了大门,以阐明其他生物学和药理学背景。
然而,类 RNA-seq 转换数据的用户应该意识到此类数据的局限性。例如,预测的 RNA-seq 样谱很难从 shRNA 和 CRISPR 敲低谱中预测目标单个基因的表达。预计 shRNA 或 CRISPR 谱中受扰动的敲低或敲除基因的表达低于其在对照谱中的表达。分析表明,两步深度学习模型可以很好地预测敲低或敲除基因如何影响全局整体表达谱,但无法很好地预测特定单个受干扰基因的表达。
将一个数据集转换到另一个域的整体方法可以扩展到其他应用程序。例如,预测长链非编码 RNA (lncRNA) 的表达和功能,或将用微阵列收集的表达谱转换为 RNA-seq 样。特别是,优先考虑可能调节 lncRNA 表达的小分子和单基因扰动可以阐明这些未充分研究的基因的作用。
此外,从一种组学分析技术到另一种的转换也可以促进其他多组学数据集之间的转换。将微阵列转换为 RNA-seq,将转录组学转换为蛋白质组学,将基因组学转换为转录组学,将单细胞 RNA-seq 转换为批量 RNA-seq,反之亦然,将显微镜成像转换为组学,或将组学转换为显微镜图像,即使没有匹配的配对样本也是如此。
论文链接:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-022-04895-5

人工智能 × [ 生物 神经科学 数学 物理 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
有了深度学习的加入,生成代码变得更智能、更高效了细颈瓶前妻评价细颈瓶华府消息|马斯克建议让台湾成为类似香港的特别行政区美国军机侵入海口毛泽东下令打华东师范大学教授钟启泉:撬动课堂转型的深度学习如何发生?深度学习如何在课堂中真实发生?从这五件事做起【立秋】多事之夏过后,还会有多事之秋吗?自然语言处理 · 机器学习 · 深度学习教育随笔(104)高考文言文备考之五南洋理工计算机视觉科研项目招生(仅限机器学习,深度学习,AI,迁移学习方向)深度学习能否达到人类推理水平?三位图灵奖得主激辩海德堡论坛博士申请 | 美国北卡州立大学胥栋宽老师招收深度学习方向全奖博士/硕士/博后MLNLP前沿综述分享第一期 | 美国Pinterest公司@吴凌飞:面向自然语言处理的图深度学习一位上海交大教授的深度学习五年研究总结你真的会深度学习吗?导师放养,深度学习顶会论文投稿策略7步走!许东的「AI生命科学」进化史:从90年代泡沫繁荣,到深度学习复兴正式日程与嘉宾 | 2022'DLC深度学习年会将你的 Python 脚本转换为命令行程序 | Linux 中国持有美国B类签证入境,怎么转换身份?最佳的几种转换身份介绍!NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集,深度学习模型推理有了思维链上科大团队开发了一种面向未来光学AI的节能、轻量级、深度学习算法长新冠(Long Covid)的症状与改善Npj Comput. Mater.: 与材料科学的碰撞:深度学习的近况发布 | 2022年中国深度学习年会宣传片深度解读 | 机器学习和深度学习的区别到底是什么?基于PyTorch、易上手,细粒度图像识别深度学习工具库Hawkeye开源一种产生DSN放大攻击的深度学习技术封关3年困在香港,我通过深圳人文关怀通道回家了!深度学习三巨头邀你来参会!赢取RTX 3090!NVIDIA GTC 2022 AI 大会来了!积木式深度学习的正确玩法!新加坡国立大学发布全新迁移学习范式DeRy,把知识迁移玩成活字印刷|NeurIPS 2022港科大提出:深度学习在全景视觉上的综述一个基于Transformer的深度学习架构,在基因调控中组蛋白代码的定量破译方面性能超群从手工作业到工业革命!Nature文章:生物图像分析被深度学习彻底改变的五个领域从入门深度学习到能发顶会,你用了多久?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。