基于Transformer和注意力的可解释核苷酸语言模型，用于pegRNA优化设计

2023-10-30 09:10

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑 | 紫罗

基因编辑是一种新兴的、比较精确的能对生物体基因组特定目标基因进行修饰的一种基因工程技术。

先导编辑（Prime editor, PE）是美籍华裔科学家刘如谦（David R.Liu）团队开发的精准基因编辑系统，PE 是一种很有前途的基因编辑工具，但由于缺乏准确和广泛适用的方法，有效优化先导编辑 RNA（prime editing guide RNA, pegRNA）设计仍然是一个挑战。

近日，来自重庆医科大学、西北农林科技大学、云南民族大学、浙江大学医学院和中国科学院数学与系统科学研究院生物信息学中心（Bioinformatics Center of AMMS）的多学科多机构研究团队开发了优化的先导编辑设计（Optimized Prime Editing Design，OPED），这是一种可解释的核苷酸语言模型，利用迁移学习来提高其准确性和通用性，用于预测 pegRNA 的效率和设计优化。

对各种已发布数据集的综合验证表明，OPED 在不同情景下的效率预测中具有广泛的适用性。值得注意的是，具有高 OPED 分数的 pegRNA 始终显示出显著提高的编辑效率。

此外，利用优化后的 pegRNA 在 PE2、PE3/PE3b 和 ePE 编辑系统中高效地安装各种 ClinVar 致病变异，证实了OPED 在设计优化中的多功能性和有效性。OPED 始终优于现有的最先进的方法。

研究人员构建了 OPEDVar 数据库，该数据库从超过 20 亿个候选物中优化了所有致病性变体的设计，并提供了一个可用于任何所需编辑的用户友好的 OPEDVar web 应用程序。

该研究以《Design of prime-editing guide RNAs with deep transfer learning》为题，于 2023 年 10 月 26 日发布在《Nature Machine Intelligence》上。

优化 pegRNA 设计面临挑战

PE 是一种多功能和精确的基因组编辑技术，可以在没有 DNA 双链断裂或供体 DNA 模板的情况下引入插入、缺失和所有 12 种可能的点突变。PE2 是一个基本的 PE 版本，包括 Cas9 缺口酶-逆转录酶融合蛋白，Cas9 缺口酶诱导DNA 单链断裂，以及 pegRNA。pegRNA 包含三个基本亚序列：一个引导序列（间隔），一个引物结合位点（PBS）和一个逆转录模板（RTT）。在 PE3/PE3b 和 ePE 等高级 PE 版本中，使用额外的单向导 RNA（sgRNA）在相反的链上诱导缺口。

目前，PE 技术正处于快速优化阶段，包括修饰 pegRNA 的序列和结构，调控相关修复途径，以及利用配对 PE 策略。重要的是，PE 效率明显受到 pegRNA 的特征影响，这凸显了在最终应用前对 pegRNA 进行优化的必要性和重要性。

针对不同的编辑类型和不同的编辑位置定制 pegRNA 设计是一项复杂且耗时的任务。最近已经开发了三个基于机器学习的模型（DeepPE, Easy-Prime 和 PRIDICT）来优化 pegRNA 设计。然而，这些模型严重依赖于人工特征工程，涉及许多预定义的 pegRNA 特征的计算。这些模型可能会忽略关键的见解，并导致有限的准确性和概括性。此外，它们本质上缺乏可解释性，就像黑盒子一样。因此，采用诸如 SHAP 之类的事后可解释方法来提供特征重要性。

OPED 用于 pegRNA 的效率预测和设计优化

受自然语言处理技术的启发，研究人员开发了一个定制的基于 Transformer 和注意力的 OPED 模型，用于 pegRNA 的效率预测和设计优化。为了提高其准确性和泛化性，将迁移学习引入到预训练和微调中。通过直接处理原始核苷酸序列，OPED 自动学习 DNA-pegRNA 对的全面和可解释的表示，从而消除了对预定义特征的需要。

定制的 Transformer 熟练地处理可变长度序列，并有效地表征核苷酸之间的空间相互依赖性以及目标 DNA 和 pegRNA 之间的互补碱基配对特征。定制的注意力网络计算每个核苷酸的注意力权重，并随后基于这些权重整合相关信息。

图 1：OPED 模型的框架。（来源：论文）

研究证明了在不同编辑类型、编辑位置、内源性位点、实验室环境、tevopreQ1 条件、错配修复（MMR）抑制条件、体外细胞系和体内小鼠肝细胞中，OPED 预测 pegRNA 效率的通用性和准确性。值得注意的是，在上述情况下，与 OPED 得分较低的 pegRNA 相比，较高 OPED 编辑得分的 pegRNA 的编辑效率高得多（2.2-82.9 倍）。

图 2：OPED 在已发布数据集上的性能评估。（来源：论文）

图 3：在不同的 PRIDICT 数据集上验证 OPED。（来源：论文）

此外，通过使用 PE2、PE3/PE3b 和 ePE 编辑系统的优化 PE 设计（pegRNA 和 sgRNA）有效安装各种 ClinVar 致病性变体，验证了 OPED 的广泛适用性和卓越性能。

图 4：人类致病变异与优化 PE 设计的安装。（来源：论文）

值得注意的是，与现有 PE 设计工具相比，OPED 推荐的 PE 设计显示出更高的平均编辑效率（PE2，2.1–6.8 倍；PE3/PE3b，7.9–24.6 倍；ePE，3.4–47.5 倍）。在所有比较中，OPED 始终优于现有 PE 设计工具。

图 5：PE 优化设计的实验验证。（来源：论文）

此外，研究人员构建了一个综合数据库 OPEDVar，包含针对 77000 多种 ClinVar 致病性变体的优化 PE 设计，并为 OPED 开发了一个用户友好的 web 应用程序（http://bicdb.ncpsb.org.cn/OPED/）。

图 6：OPEDVar 数据库和 OPEDVar web 应用。（来源：论文）

值得注意的是，OPED 仅在具有规范 NGG PAM 的 PE2 数据集上进行训练。因此，尽管经过实验验证，OPED 能够在包括 NG PAM 在内的不同场景下优化 pegRNA 和 sgRNA，但其预测其他 PE 版本效率的能力有限，其在 NG PAM 上的性能需要更多的实验验证。

未来研究

在未来的研究中，研究人员建议利用人工智能技术全面系统地优化 pegRNA 和其他序列，如支架序列、nick sgRNA、3' 结构 RNA 基序和连接子序，前提是获得足够的数据。

此外，通过新的基于人工智能的技术，可以改善含有与工程逆转录酶融合的 Cas9 切口酶的 PE 的效应。

论文链接：https://www.nature.com/articles/s42256-023-00739-w

人工智能 × [ 生物神经科学数学物理化学材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章