Redian新闻
>
基于Transformer和注意力的可解释核苷酸语言模型,用于pegRNA优化设计

基于Transformer和注意力的可解释核苷酸语言模型,用于pegRNA优化设计

公众号新闻

ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯


编辑 | 紫罗

基因编辑是一种新兴的、比较精确的能对生物体基因组特定目标基因进行修饰的一种基因工程技术。

先导编辑(Prime editor, PE)是美籍华裔科学家刘如谦(David R.Liu)团队开发的精准基因编辑系统,PE 是一种很有前途的基因编辑工具,但由于缺乏准确和广泛适用的方法,有效优化先导编辑 RNA(prime editing guide RNA, pegRNA)设计仍然是一个挑战。

近日,来自重庆医科大学、西北农林科技大学、云南民族大学、浙江大学医学院和中国科学院数学与系统科学研究院生物信息学中心(Bioinformatics Center of AMMS)的多学科多机构研究团队开发了优化的先导编辑设计(Optimized Prime Editing Design,OPED),这是一种可解释的核苷酸语言模型,利用迁移学习来提高其准确性和通用性,用于预测 pegRNA 的效率和设计优化。

对各种已发布数据集的综合验证表明,OPED 在不同情景下的效率预测中具有广泛的适用性。值得注意的是,具有高 OPED 分数的 pegRNA 始终显示出显著提高的编辑效率。

此外,利用优化后的 pegRNA 在 PE2、PE3/PE3b 和 ePE 编辑系统中高效地安装各种 ClinVar 致病变异,证实了OPED 在设计优化中的多功能性和有效性。OPED 始终优于现有的最先进的方法。

研究人员构建了 OPEDVar 数据库,该数据库从超过 20 亿个候选物中优化了所有致病性变体的设计,并提供了一个可用于任何所需编辑的用户友好的 OPEDVar web 应用程序。

该研究以《Design of prime-editing guide RNAs with deep transfer learning》为题,于 2023 年 10 月 26 日发布在《Nature Machine Intelligence》上。

优化 pegRNA 设计面临挑战

PE 是一种多功能和精确的基因组编辑技术,可以在没有 DNA 双链断裂或供体 DNA 模板的情况下引入插入、缺失和所有 12 种可能的点突变。PE2 是一个基本的 PE 版本,包括 Cas9 缺口酶-逆转录酶融合蛋白,Cas9 缺口酶诱导DNA 单链断裂,以及 pegRNA。pegRNA 包含三个基本亚序列:一个引导序列(间隔),一个引物结合位点(PBS)和一个逆转录模板(RTT)。在 PE3/PE3b 和 ePE 等高级 PE 版本中,使用额外的单向导 RNA(sgRNA)在相反的链上诱导缺口。

目前,PE 技术正处于快速优化阶段,包括修饰 pegRNA 的序列和结构,调控相关修复途径,以及利用配对 PE 策略。重要的是,PE 效率明显受到 pegRNA 的特征影响,这凸显了在最终应用前对 pegRNA 进行优化的必要性和重要性。

针对不同的编辑类型和不同的编辑位置定制 pegRNA 设计是一项复杂且耗时的任务。最近已经开发了三个基于机器学习的模型(DeepPE, Easy-Prime 和 PRIDICT)来优化 pegRNA 设计。然而,这些模型严重依赖于人工特征工程,涉及许多预定义的 pegRNA 特征的计算。这些模型可能会忽略关键的见解,并导致有限的准确性和概括性。此外,它们本质上缺乏可解释性,就像黑盒子一样。因此,采用诸如 SHAP 之类的事后可解释方法来提供特征重要性。

OPED 用于 pegRNA 的效率预测和设计优化

受自然语言处理技术的启发,研究人员开发了一个定制的基于 Transformer 和注意力的 OPED 模型,用于 pegRNA 的效率预测和设计优化。为了提高其准确性和泛化性,将迁移学习引入到预训练和微调中。通过直接处理原始核苷酸序列,OPED 自动学习 DNA-pegRNA 对的全面和可解释的表示,从而消除了对预定义特征的需要。

定制的 Transformer 熟练地处理可变长度序列,并有效地表征核苷酸之间的空间相互依赖性以及目标 DNA 和 pegRNA 之间的互补碱基配对特征。定制的注意力网络计算每个核苷酸的注意力权重,并随后基于这些权重整合相关信息。

图 1:OPED 模型的框架。(来源:论文)

研究证明了在不同编辑类型、编辑位置、内源性位点、实验室环境、tevopreQ1 条件、错配修复(MMR)抑制条件、体外细胞系和体内小鼠肝细胞中,OPED 预测 pegRNA 效率的通用性和准确性。值得注意的是,在上述情况下,与 OPED 得分较低的 pegRNA 相比,较高 OPED 编辑得分的 pegRNA 的编辑效率高得多(2.2-82.9 倍)。

图 2:OPED 在已发布数据集上的性能评估。(来源:论文)

图 3:在不同的 PRIDICT 数据集上验证 OPED。(来源:论文)

此外,通过使用 PE2、PE3/PE3b 和 ePE 编辑系统的优化 PE 设计(pegRNA 和 sgRNA)有效安装各种 ClinVar 致病性变体,验证了 OPED 的广泛适用性和卓越性能。

图 4:人类致病变异与优化 PE 设计的安装。(来源:论文)

值得注意的是,与现有 PE 设计工具相比,OPED 推荐的 PE 设计显示出更高的平均编辑效率(PE2,2.1–6.8 倍;PE3/PE3b,7.9–24.6 倍;ePE,3.4–47.5 倍)。在所有比较中,OPED 始终优于现有 PE 设计工具。

图 5:PE 优化设计的实验验证。(来源:论文)

此外,研究人员构建了一个综合数据库 OPEDVar,包含针对 77000 多种 ClinVar 致病性变体的优化 PE 设计,并为 OPED 开发了一个用户友好的 web 应用程序(http://bicdb.ncpsb.org.cn/OPED/)。

图 6:OPEDVar 数据库和 OPEDVar web 应用。(来源:论文)

值得注意的是,OPED 仅在具有规范 NGG PAM 的 PE2 数据集上进行训练。因此,尽管经过实验验证,OPED 能够在包括 NG PAM 在内的不同场景下优化 pegRNA 和 sgRNA,但其预测其他 PE 版本效率的能力有限,其在 NG PAM 上的性能需要更多的实验验证。

未来研究

在未来的研究中,研究人员建议利用人工智能技术全面系统地优化 pegRNA 和其他序列,如支架序列、nick sgRNA、3' 结构 RNA 基序和连接子序,前提是获得足够的数据。

此外,通过新的基于人工智能的技术,可以改善含有与工程逆转录酶融合的 Cas9 切口酶的 PE 的效应。

论文链接:https://www.nature.com/articles/s42256-023-00739-w

人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Transformer变革3D建模,MeshGPT生成效果惊动专业建模师,网友:革命性ideaYann LeCun点赞!Meta对Transformer架构下手了:新注意力机制更懂推理RecSys 2023最佳短文奖:推荐系统中的可解释用户留存优化框架PyTorch最新工具mm来了!3D可视化矩阵乘法、Transformer注意力!ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成美国的富士山 - 瑞尼尔山 (Mt. Rainier)MIT研究人员将Transformer与图神经网络结合,用于设计全新蛋白质起底PC新机皇:高通4nm芯片,Arm架构Windows系统,内置Transformer加速,还配了5G和WiFi7大语言模型里的Transformer还可以这么用?ICCV 2023 | 浙大&阿里提出:基于Transformer的可泛化人体表征来了!Transformer是唯一选择吗?无Attention和MLP的语言模型反而更强了ICCV 2023 | 新注意力!清华黄高团队提出FLatten Transformer视觉新主干Meta对Transformer架构下手了:新注意力机制更懂推理ICCV 2023 | 通向3D感知大模型的必由之路!UniTR:统一多模态Transformer Encoder!「GPT-4只是在压缩数据」,马毅团队造出白盒Transformer,可解释的大模型要来了吗?矩阵成真!Pytorch最新工具mm,3D可视化矩阵乘法、Transformer注意力谷歌DeepMind力证:GPT-4终局是人类智慧总和!Transformer模型无法超越训练数据进行泛化NeurIPS 2023 | MCUFormer: 可在内存有限微控制器上部署的Vison Transformer模型谁把我的博客删了?Transformer变革3D建模!MeshGPT来了!效果惊动专业建模师。。。明天九月Transformer挑战者出现!斯坦福CMU联合团队,开源模型及代码,公司已创办春晓时分谷歌DeepMind力证:Transformer模型无法超越训练数据进行泛化!GPT-4终局是人类智慧总和!仅根据蛋白质序列便可预测相互作用界面,一种基于Transformer的蛋白预测模型NeurIPS 2023 | MixFormerV2:基于Transformer的高效跟踪器矩阵模拟!Transformer大模型3D可视化,GPT-3、Nano-GPT每一层清晰可见Transformer+强化学习,DeepMind让大模型成为机器人感知世界的大脑【孝子贤孙伺候着】之(4)你缺钱吗?破解自注意力推理缺陷的奥秘,蚂蚁自研新一代Transformer或实现无损外推MIT斯坦福Transformer最新研究:过度训练让中度模型「涌现」结构泛化能力北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型Transformer+强化学习,谷歌DeepMind让大模型成为机器人感知世界的大脑南开&山大&北理工团队开发trRosettaRNA:利用Transformer网络自动预测RNA 3D结构NeurIPS 2023 | 结合脉冲神经网络和Transformer的纯加法Transformer
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。