Redian新闻
>
斯坦福、微软联手,用扩散模型进行蛋白质结构生成,已开源

斯坦福、微软联手,用扩散模型进行蛋白质结构生成,已开源

公众号新闻

机器之心报道

机器之心编辑部
尽管最近研究者在蛋白质结构预测方面取得了进展,但从神经网络直接生成不同的、新颖的蛋白质结构仍然很困难。在这项工作中,本文提出了一种新的基于扩散的生成模型,该模型通过一种反映蛋白质原生折叠过程的过程来设计蛋白质的主链结构。


蛋白质对生命至关重要,几乎在每个生物过程中都发挥着作用。一方面它们能在神经元之间传递信号、识别微观入侵者并激活免疫反应等。另一方面,蛋白质作为一种治疗介质已经得到广泛研究,成为治疗疾病的一部分。因此,通过生成新的、物理上可折叠的蛋白质结构,打开了利用细胞通路治疗疾病新方法的大门。


本文中,来自斯坦福大学、微软研究院等机构的研究者,他们受体内蛋白质折叠过程的启发,从而引入了一个折叠扩散( folding diffusion,FoldingDiff  )模型,该模型通过镜像蛋白质天然折叠过程来设计蛋白质主链结构。



  • 论文地址:https://arxiv.org/pdf/2209.15611.pdf

  • 代码地址:https://github.com/microsoft/foldingdiff


具体而言,他们将蛋白质主链结构描述为一系列连续的角度,以捕捉组成氨基酸残基的相对方向,这种表示的固有位移和旋转不变性极大地减轻了对复杂等变网络的需要。


该研究基于 transformer 骨干训练了一个去噪扩散概率模型,并证明本文的模型可以无条件地生成高度逼真的蛋白质结构,其复杂性和结构模式类似于天然蛋白质。



有网友表示:不知道这个模型是否会为 AlphaFold 带来一些竞争。



方法及结果


我们可以将蛋白质理解为是可变长度的氨基酸残基链,典型氨基酸有 20 种,享有相同的三原子 N - C_α - C 主链,但具有不同的侧链连接到 C_α 原子上(通常表示为 R,参见图 1 所示 )。


这些残基组装形成聚合物链,折叠成 3D 结构,其形状在很大程度上决定了蛋白质的功能。这些折叠结构可以用四个层次来描述:


  • 一级结构,简单地捕捉氨基酸的线性序列;

  • 二级结构,描述氨基酸的局部排列;

  • 三级结构,描述所有残基的完整空间排列;

  • 四级结构,描述多个不同的氨基酸链如何聚集在一起形成更大的复合物。


该研究提出了一个简化的蛋白质主链框架,它遵循蛋白质折叠的生物学过程,同时消除了复杂的等变网络的需要。与其将长度为 N 个氨基酸的蛋白质主链视为三维坐标,他们把它看作由六个内角、连续角组成的序列。也就是说,给定当前残基的位置,六个内角的向量描述了下一个残基中所有主链原子的相对位置。这些内角可以使用三角函数轻松计算,迭代地将原子添加到蛋白质骨架中,然后在转换回 3D 笛卡尔坐标。




下图为一项实验结果。自然结构的 Ramachandran 图(图 a)包含三个区域,分别对应于 LH  α螺旋、RH  α 螺旋和β sheet。所有这三个区域都在本文生成的结构中全部再现(图 3b)。换句话说,FoldingDiff 能够生成蛋白质主链中的二级结构元素。此外,实验还表明 FoldingDiff 模型能够正确地了解到 RH  α 螺旋比 LH  α 螺旋更常见。而先前的工作使用等变网络,是无法区分这两种类型的螺旋的。 



下图为在测试主链 (4a) 和生成主链 (4b) 中出现二级结构的二维直方图,结果表明生成的结构反映了蛋白质真实的结构,有多个α螺旋,多个β sheets ,以及两者的混合。



下图表明,在生成的 780 个结构中有 111 个(占比为 14.2%)是可设计的,其 scTM 评分≥0.5(图 5a),高于 Trippe 等人报告的 11.8% 的值。我们还看到,生成的主链与训练示例更相似,往往具有更好的可设计性(5b)。


了解更多内容,请阅读原论文。



© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
生成扩散模型漫谈:一般框架之SDE篇斯坦福/谷歌大脑:两次蒸馏,引导扩散模型采样提速256倍!国际航班“熔断”机制重大调整!回国更容易了!/斯坦福、哥大…美国大学集体扩招!/CWUR 2022-23世界大学排名发布Struct2Graph:基于结构的蛋白质-蛋白质相互作用预测的图注意网络香港的“人性化”2023USNews全美理工科排名:MIT、斯坦福、UCB霸榜!Avignon~普罗旺斯的心脏生成扩散模型漫谈:最优扩散方差估计(上)生成扩散模型漫谈:最优扩散方差估计(下)采样提速256倍,蒸馏扩散模型生成图像质量媲美教师模型,只需4步晚年的追悔— 王芸生和他的《大公报》AlphaFold终结了生物学家研究蛋白质结构之路 于是颜宁回国了!7 Papers & Radios | 扩散模型只用文字PS照片;MIT泊松流生成模型击败扩散模型“未来科技·未来思维”系列讲座预告丨王宏伟:基于结构生物学的新药发现从多篇论文看扩散模型在文本生成领域的应用英伟达将与微软联手开发人工智能超级计算机卷!MIT泊松流生成模型击败扩散模型,兼顾质量与速度明日开播|“强强联手”!类器官与蛋白质组学的前沿应用研究生成扩散模型漫谈:统一扩散模型(理论篇)扩散模型再下一城!AR-LDM:用扩散模型合成连贯视觉故事!输入字幕就能脑补画面,代词ta都分得清人在中国,国外的房子被盗卖了+ 隔洋惊喜毛泽东在天安门接见美黑人领袖扩散模型在文本生成领域的应用Meta打造首个「蛋白质宇宙」全景图!用150亿参数语言模型,预测了6亿+蛋白质结构卷!MIT提出泊松流生成模型击败扩散模型,兼顾质量与速度GAN、扩散模型应有尽有,CMU出品的生成模型专属搜索引擎Modelverse来了Soft Diffusion:谷歌新框架从通用扩散过程中正确调度、学习和采样妙啊!用扩散模型生成蛋白质结构,结果不输天然蛋白质|来自斯坦福&微软​生成扩散模型漫谈:条件控制生成结果卷!用扩散模型合成连贯视觉故事,输入字幕就能脑补画面,代词ta都分得清世界首个!Meta AI开放6亿+宏基因组蛋白质结构图谱,150亿语言模型用两周完成
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。