Redian新闻
>
利用进化扩散进行蛋白生成,微软开源新型蛋白质生成AI框架EvoDiff

利用进化扩散进行蛋白生成,微软开源新型蛋白质生成AI框架EvoDiff

公众号新闻

ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯



编辑 | 紫罗

进化产生了多种功能蛋白,可以精确调节细胞过程。近年来出现了深度生成模型,旨在从这种多样性中学习,生成既有效又新颖的蛋白质,最终目标是定制功能以解决当今突出的挑战。

当涉及到在计算机上创造新的蛋白质时,深度生成模型正成为越来越强大的工具。扩散模型是一类生成模型,最近被证明可以生成生理上合理的蛋白质,与自然界中看到的任何实际蛋白质不同,它可以在从头蛋白质设计中提供无与伦比的能力和控制。

然而,当前最先进的模型构建蛋白质结构,这严重限制了其训练数据的广度,并将代限制在蛋白质设计空间的微小且有偏差的部分。

微软研究人员开发了 EvoDiff——一种通用扩散框架,通过将进化规模数据与扩散模型的独特调节能力相结合,可以在序列空间中创建可调节的蛋白质。EvoDiff 可以使结构合理的蛋白质多样化,涵盖所有可能的序列和功能。EvoDiff 可以构建基于结构的模型无法访问的蛋白质,例如那些具有无序部分的蛋白质,同时能够为有用的结构基序设计支架,这一事实证明了基于序列的公式的普遍性。

在蛋白质序列进化中,EvoDiff 是第一个展示扩散生成模型功效的深度学习框架。

EvoDiff 的共同作者、微软高级研究员 Ava Amini 表示:「如果有什么可以从 EvoDiff 中学到的,我认为那就是,我们可以而且应该通过序列进行蛋白质生成,因为我们能够实现通用性、规模化和模块化。我们的扩散框架使我们有能力做到这一点,并控制我们如何设计这些蛋白质以满足特定的功能目标。」

EvoDiff 的另一位共同作者 Kevin K. Yang 表示,「我们设想 EvoDiff 将扩展蛋白质工程的能力,超越结构-功能范式,转向可编程、序列优先的设计,通过 EvoDiff,我们证明我们实际上可能不需要结构,而是蛋白质序列就是你所需要的来可控地设计新蛋白质。

该研究以《Protein generation with evolutionary diffusion: sequence is all you need》为题,发布在 bioRxiv 预印平台上。

GitHub 地址:https://github.com/microsoft/evodiff

论文链接:https://doi.org/10.1101/2023.09.11.556673

6.4 亿个参数

EvoDiff 框架的核心是一个包含 6.4 亿个参数的模型,该模型根据来自所有不同物种和蛋白质功能类别的数据进行训练。训练模型的数据来源于用于序列比对的 OpenFold 数据集 UniRef50,UniProt 数据的子集,UniProt 联盟维护的蛋白质序列和功能信息数据库。

Uniref50 是一个包含约 4200 万个蛋白质序列的数据集。MSA 来自 OpenFold 数据集,其中包括 16,000,000 个 UniClust30 集群和 401,381 个 MSA,涵盖 140,000 个不同的 PDB 链。有关 IDR 的信息来自反向同源 GitHub。

EvoDiff  的主要特征

EvoDiff  主要特征如下:

  • 为了生成可管理的蛋白质序列,EvoDiff 将进化规模数据与扩散模型相结合。
  • EvoDiff 可以使结构合理的蛋白质多样化,涵盖所有可能的序列和功能。
  • 除了生成具有无序部分和基于结构的模型无法获得的其他特征的蛋白质外,EvoDiff 还可以生成功能性结构基序的支架,证明了基于序列的配方的普遍适用性。

EvoDiff 是一种新颖的生成建模系统,用于仅从序列数据创建可编程蛋白质,该系统是通过将进化规模数据集与扩散模型相结合而开发的。其使用离散扩散框架,其中正向过程通过改变其氨基酸特性来迭代地破坏蛋白质序列,并且由神经网络参数化的学习反向过程利用自然框架来预测每次迭代时所做的变化。蛋白质作为氨基酸语言上离散标记的序列。

图 1:EvoDiff,用于仅从序列数据进行可控蛋白质设计。(来源:论文)

可以使用反向方法从头开始创建蛋白质序列。与蛋白质结构设计中传统使用的连续扩散公式相比,EvoDiff 中使用的离散扩散公式在数学上取得了显著的改进。多重序列比对 (MSA) 突出显示相关蛋白质组的氨基酸序列的保守模式和变异,从而捕获单个蛋白质序列进化规模数据集之外的进化联系。为了利用这种额外深度的进化信息,他们构建了在 MSA 上训练的离散扩散模型,以产生新颖的 single lines。

在序列空间中创建可调节的蛋白质

为了说明其在可调蛋白质设计方面的功效,研究人员在一系列生成活动的谱上检查了序列和 MSA 模型(分别为 EvoDiff-Seq 和 EvoDiff-MSA)。

他们首先证明 EvoDiff-Seq 能够可靠地产生高质量、多样化的蛋白质,准确反映自然界蛋白质的组成和功能。EvoDiff-MSA 通过比对具有相似但独特进化历史的蛋白质来引导新序列的开发。最后,他们表明 EvoDiff 可以可靠地生成具有 IDR 的蛋白质,直接克服基于结构的生成模型的关键限制,并且可以通过利用基于扩散的建模框架的调节功能,在没有任何明确结构信息的情况下生成功能结构基序的支架。

图 2:EvoDiff-MSA 支持进化引导序列生成。(来源:论文)

为了生成具有基于序列限制条件调节的可能性的多样化新蛋白质,研究人员提出了 EvoDiff,一种扩散建模框架。通过挑战基于结构的蛋白质设计范式,EvoDiff 可以通过从序列数据生成本质上无序的区域和支架结构基序,无条件地采样结构合理的蛋白质多样性。

通过引导进行调节,创建的序列可以迭代地调整以满足所需的质量,可以在未来的研究中添加到这些功能中。EvoDiff-D3PM 框架很适合通过指导进行条件调节,因为序列中每个残基的身份都可以在每个解码步骤中进行编辑。

然而,研究人员观察到,OADM 在无条件生成方面通常优于 D3PM,这可能是因为 OADM 去噪任务比 D3PM 更容易学习。不幸的是,OADM 和其他现有的条件 LRAR 模型(如 ProGen)降低了指导的有效性。预计新的蛋白质序列将通过调节 EvoDiff-D3PM 的功能目标(例如序列功能分类器描述的目标)来生成。

EvoDiff 数据要求极低

EvoDiff 的数据要求极低,这意味着它可以轻松适应后续用途,而这只有通过基于结构的方法才能实现。研究人员表明,EvoDiff 可以通过修复来创建 IDR,无需微调,从而避免了基于结构的预测和生成模型的经典陷阱。

图 3:EvoDiff 生成本质上无序的区域。(来源:论文)

获取大型测序数据集结构的高昂成本可能会阻止研究人员使用新的生物、医学或科学设计选项,这些选项可以通过在特定于应用程序的数据集(例如来自显示库或大型屏幕的数据集)上微调 EvoDiff 来解锁。尽管 AlphaFold 和相关算法可以预测许多序列的结构,但它们在点突变方面遇到困难,并且在指示虚假蛋白质的结构时可能过于自信。

下一步计划

总之,微软科学家发布了一套离散扩散模型,可用于进行基于序列的蛋白质工程和设计。可以扩展 EvoDiff 模型以进行基于结构或功能的引导设计,并且它们可以立即用于无条件、进化引导和条件创建蛋白质序列。他们希望通过直接用蛋白质语言读取和写入过程,EvoDiff 将为可编程蛋白质创造开辟新的可能性。

这只是一个包含 6.4 亿参数的模型,如果我们扩展到数十亿个参数,我们可能会看到生成质量的提高,」Alamdari 说道。「虽然我们演示了一些粗粒度的策略,但为了实现更细粒度的控制,我们希望根据文本、化学信息或其他方式来调节 EvoDiff 来指定所需的功能。」

下一步,EvoDiff 团队计划测试模型在实验室生成的蛋白质,以确定它们是否可行。如果事实证明是这样,他们将开始开发下一代框架。

参考内容:https://www.marktechpost.com/2023/09/17/whats-next-in-protein-design-microsoft-researchers-introduce-evodiff-a-groundbreaking-ai-framework-for-sequence-first-protein-engineering/
https://techcrunch.com/2023/09/14/microsoft-open-sources-evodiff-a-novel-protein-generating-ai/

人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
冀X车牌进京不用进京证?交管部门回应狂揽10k star,微软AutoGen框架太火了,智能体聊聊天就把问题解决了芝加哥马拉松训练及房屋修复微软开源的大模型太强了,数学推理超ChatGPT,论文、模型权重全部公开数学能力超ChatGPT,70B开源大模型火了:用AI微调AI,微软全华班出品仅根据蛋白质序列便可预测相互作用界面,一种基于Transformer的蛋白预测模型《谢谢你,上海!》「犹太难民与上海」展览来纽约啦【精选】圣诞列车合集、免费巨型蛋糕快闪店、户外溜冰合集……NeurIPS 2023 | 扩散模型再发力!微软提出TextDiffuser:图像生成的文字部分也能搞定!周玉杰教授:TAVR在低龄低危患者中的应用进展,要点全总结 | GW-ICC 2023影响分泌机制靶向消除蛋白,「分子门」获6000万美元A轮融资,或涉及炎症、蛋白质聚集和中枢神经系统疾病脑内障的症状是发出动物的叫声平安科技毛倩影:从 DevOps 到 BizDevOps,金融数字化下的研发效能提升比快更快,极速版 IDE 框架 CodeBlitz 开源!AI圈大变天,微软成最大赢家:OpenAI 联合创始人Sam Altman已确认加入微软2-6岁孩子看过来,那个时代大师,绝响仍在回荡!(6岁以上不用进啦)欧福蛋业:Z世代对蛋白质的认识越来越深入,鸡蛋白将有全新消费方式亚马逊自研AI芯片超车,微软开放Bing AI扩张,谷歌打造云端AI开发平台|前哨北京内推 | 微软研究院AI4Science招聘蛋白质优化与药物研发AI实习生发布一天,Code Llama代码能力突飞猛进,微调版HumanEval得分超GPT-4微软开源Azure RTOS,并更名为Eclipse ThreadX李飞飞朱松纯把《我的世界》变AI的世界,微软Xbox组参与,游戏Agent协作框架来了开源打败闭源?Meta即将推出开源代码生成平台Code Llama,剑指OpenAI Codex开源打败闭源?Meta 即将推出开源代码生成平台 Code Llama,剑指 OpenAI Codex2023开源新疆界:天工开物多元合作峰会在武汉成功举办最卷暑期档,《七时吉祥》解锁商业化扩容的“新副本”澳洲留学人数增加10万人,悉尼国际学生比例最高!塔州配额使用进度更新拿下诺贝尔物理学奖的他,想讲明白生命是什么跨越周期:进化、进化、进化!用 Transformer 评估蛋白质结合界面,区分天然蛋白复合物和不正确构象参数量仅为1/700,性能超越GPT-3.5!CMU+清华开源Prompt2Model框架益丰药房2023年三季报点评:业绩经营稳健,持续深化扩张【东吴医药朱国广团队】心若兰兮终不移有一种浪费叫美国式浪费ICML 2023 | RACE:使用进化算法大幅提升多智能体强化学习算法学习
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。