Redian新闻
>
蛋白质侧链预测新方法DiffPack:扩散模型也能精准预测侧链构象!

蛋白质侧链预测新方法DiffPack:扩散模型也能精准预测侧链构象!

公众号新闻

机器之心专栏

机器之心编辑部
有效预测蛋白质侧链构象,更加精准啦!


蛋白质由氨基酸经脱水缩合反应形成,可折叠为复杂的 3D 空间结构,是生物体内执行各种功能(催化生物化学反应、传递信号)的主要分子,而其中蛋白质的侧链结构对其功能至关重要。侧链的化学性质和空间排列决定了蛋白质如何折叠,以及蛋白质如何与其他分子(包括其他蛋白质、DNA、RNA、小分子等)相互作用。这些相互作用可以是氢键、离子键、疏水相互作用和范德华力等。理解这些相互作用,可以帮助我们更好的寻找药物与受体的结合位点,设计催化效果更强的酶。因此,准确预测蛋白质的侧链构象对于理解蛋白质的功能和设计新的药物至关重要。


传统的蛋白质侧链构象预测算法(如 RosettaPacker)通常通过在能量函数定义的概率分布中采样得到蛋白质侧链构象,此类算法通常依赖于人为设计的能量函数,受限于能量函数设计的精准度。另一方面,尽管以 AlphaFold2 为首的一系列深度学习模型在蛋白质结构预测方面取得了比较大的突破,但其对侧链构象的预测通常依赖于端对端的学习,无法捕捉侧链构象的整体分布,因此准确度上受到了一定的限制。


近日,来自 Mila 的唐建团队提出了一种新的侧链构象预测方法 DiffPack。该方法使用扭转角空间中的自回归扩散模型,与目前已知的最优方法相比,在 CASP13 和 CASP14 上取得了大幅提升实现了超过 10% 的提升,且仅需要 1/60 的参数量。此外,作者进一步验证了 DiffPack 能够给有效改进 AlphaFold2 的侧链预测结果。



  • 论文链接:https://arxiv.org/abs/2306.01794

  • 代码链接:https://github.com/DeepGraphLearning/DiffPack


方法


过去的 AI 算法以端对端的方式从原子位置的均方根偏差 (RMSD)定义损失函数。尽管此类方法存在速度上的优势,但他们通常被端对端的建模方式所限制,无法捕捉蛋白质侧链构象的整体分布,倾向于生成侧链的 「平均构象」。DiffPack 基于扩散模型提出了一种新颖的侧链构象预测方法。通过对蛋白质侧链构象加入噪声并学习去噪过程,模型能够更准确地学习到蛋白质侧链构象的整体概率分布。


蛋白质侧链的构象通常较为复杂,如果直接使用空间坐标的扩散过程建模会引入过多的自由度从而增加问题的复杂性。同时由于蛋白质的侧链构象由至多四个扭转角(χ1, χ2, χ3, χ4)构成,研究人员选择将扩散过程定义在四个扭转角构成的扭转空间中,在前向扩散过程中引入非欧几里得噪声,同时通过针对蛋白质结构设计的图神经网络 GearNet 学习对四个扭转角的逆向去噪过程。



在实验中,研究人员发现对四个扭转角的联合加噪过程会会产生偏差累积效应,从而降低预测的准确度。研究人员由此进一步提出了一种新颖的自回归扩散模型,将四个扭转角的联合概率分布分解为一系列条件概率分布,在每一个概率分布中引入扩散模型。通过将扩散模型与自回归过程结合,DiffPack 能够以很小的模型规模实现高精度的侧链构象预测。



实验


研究人员在包括天然主链结构和由 AlphaFold2 预测得到的非天然主链结构上进行了实验。DiffPack 在预测蛋白质侧链构象中超越了基于传统能量函数的方法和其他端对端的深度学习模型。表 1 总结了在 CASP13 中的实验结果,DiffPack 无论是在内部残基(82.7%)和表面残基(57.3%)上,都表现出了最高的角度精度。对于表面残基,其精度比之前的最先进模型 AttnPacker 提高了 20.4%。


同样,DiffPack 在 CASP14 数据集的表现也优于其他方法(表 2),尽管没有将损失函数直接定义在原子位置上,DiffPack 在内部残基原子位置的均方根偏差精度上依然相比于之前的 SOTA 提高了 23%。

由于 AlphaFold2 等计算结构生物学技术的发展,当前人们的关注重心逐渐转移到非天然主链结构的应用上。因此研究人员将 DiffPack 进一步应用到有 AlphaFold2 生成的非天然主链结构,表 3 给出了包括 AlphaFold2 自身的侧链预测算法在内的不同算法在非天然主链结构测试集上的定量结果。DiffPack 在大多数指标上实现了最先进的水平,这说明了 DiffPack 可以进一步优化 AlphaFold2 预测的潜力。



DiffPack 除了在对侧链构象的准确度上优于其他方法,其模型的总参数量要显著(3,043,363)少于此前的 SOTA 模型(208,098,163),这使得 DiffPack 成为预测侧链构象的更具计算可行性和可扩展性的解决方案。


总结


  • 研究人员基于扩散模型提出了一种新的针对蛋白质侧链构象的预测算法 DiffPack,DiffPack 将扭转空间中的扩散模型与自回归过程结合,能够更好地捕捉蛋白质侧链构象分布。

  • DiffPack 在天然主链结构与非天然主链结构的预测上都表现出了一定的优势,同时其模型规模要显著小于其他方法。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
将蛋白质语言模型扩展到千亿参数,深度解读百图生科、清华xTrimoPGLM模型ACM MM 2023 | 「噪」不住你的美,美图&国科大联合提出人脸修复方法DiffBFR战国故事《定风波》卷二(3):故人扩散模型还能预测地震和犯罪?清华团队最新研究提出时空扩散点过程黄奇帆3年前的判断,竟精准预测了中国房地产的现状...开源了!UniControl:可控视觉生成的统一扩散模型基于扩散模型的音频驱动说话人生成,云从&上交数字人研究入选ICASSP 202320年、60亿人民币、7000种蛋白质,SomaLogic蛋白质组数据库的构建之途Stable Diffusion一周年:这份扩散模型编年简史值得拥有Cell子刊 | 卜军/钱昆/陈丰原团队开发中国人群代谢综合征早期筛查与风险预测新方法论文插图也能自动生成了!用到了扩散模型,还被ICLR 2023接收!欧福蛋业:Z世代对蛋白质的认识越来越深入,鸡蛋白将有全新消费方式Anal Chem | 邹秉杰/宋沁馨/王琛团队发表活细胞中肿瘤相关酶活性原位成像检测新方法既是自编码器,也是RNN,DeepMind科学家八个视角剖析扩散模型笑谈邂逅(1) 路遇王仕良场长,改变了我的人生预测超长蛋白质这事,CPU赢了论文插图也能自动生成了,用到了扩散模型,还被ICLR接收英国政府资助研究:AI识别收割西兰花非食用部分,蛋白质比大豆蛋白更可持续绳之以法用的是什么样的绳?Bioinformatics | 来鲁华/邓明华合作:多层级的图神经网络促进蛋白质功能预测全球首创 :分子之心开源新AI算法,攻克蛋白质侧链预测与序列设计难题扩散模型「读脑术」,自动化所MindDiffuser清晰重建人脑视觉画面智慧密码浙大滨江院Om中心发布首个大规模图文配对遥感数据集,让通用基础模型也能服务遥感领域十分钟读懂Diffusion:图解Diffusion扩散模型CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型为防大模型作恶,斯坦福新方法让模型「遗忘」有害任务信息,模型学会「自毁」了波澜滚滚千帆竞,对下联。首四字同偏旁。Science | AI设计蛋白新突破,David Baker设计出具有两种不同构象的铰链蛋白CVPR 2023 | 多个扩散模型相互合作,新方法实现多模态人脸生成与编辑CVPR 2023 | Collaborative Diffusion 怎样让不同的扩散模型合作?精准预判黄石俱乐部I-526E批准时间!两大律师坐镇,本周六揭秘成功关键。哈佛教授捐赠2.1亿美元用于蛋白质创新研究,计划加速蛋白质和抗体发现港大和微软提出Uni-ControlNet:可控制扩散模型再添一员!ACM MM 2023 | CLE Diffusion:可控光照增强扩散模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。