Redian新闻
>
结构生物学没失业!深度评估AlphaFold 2:「蛋白质功能预测」水平不足|NeurIPS 2022

结构生物学没失业!深度评估AlphaFold 2:「蛋白质功能预测」水平不足|NeurIPS 2022

公众号新闻



  新智元报道  

编辑:编辑部
【新智元导读】最近西湖大学人工智能团队发表了一篇对AlphaFold 2的功能进行深入研究的论文,得到了一些有趣的研究结果。相关论文发表在人工智能顶级会议NeurIPS 2022。

随着深度学习领域的发展,大规模蛋白质语言模型(PLM)在蛋白质预测任务中的取得了很大的成绩,比如蛋白质3D结构预测和各种功能预测。


其中AlphaFold2是一个具有革命性的人工智能蛋白质模型,在CASP14蛋白质结构预测任务上取得了原子级别的预测准确度,该成果可能会重塑结构生物学。


然而对于蛋白质的研究,结构仅仅只是开始。对于蛋白质功能的解读,例如,未知蛋白质功能注释、突变影响、蛋白质工程、折叠的稳定性等研究更加具备实际意义。


目前,除了结构预测之外,还没有相关研究对于AlphaFold的核心组件Evoformer(一种新颖的PLM)进行结构以外任务的评估检验


最近来自西湖大学的研究者们聚焦Evoformer的表征能力研究,尤其是探究其蛋白质功能预测水平。


论文题目:Exploring evolution-aware & -free protein language models as protein function predictors

论文链接:https://arxiv.org/abs/2206.06583

代码链接:https://github.com/elttaes/Revisiting-PLMs


作者的主要动机是:既然蛋白质结构决定功能,而AlphaFold2如此精准的结构预测能力是否也具有较强的功能预测能力。


针对此,研究者探究了三种流行的PLM的表征能力:ESM-1b(单序列PLM)、MSA-Transformer(多序列比对PLM)和 Evoformer(基于结构的PLM),尤其关注Evoformer的能力。


三种主流蛋白质语言模型神经网络对比


论文旨在回答以下关键问题


1、作为AlphaFold的核心表征模型, Evoformer是否产生适合蛋白质功能预测任务的特征向量

2、如果是,Evoformer能否取目前最强大的PLM,也就是Meta的ESM-1b和MSA-Transformer?

3、这些PLM在多大程度上依赖于同源蛋白的进化数据


文章通过实证研究比较这些模型,并在此基础上提出新的见解和结论。


AlphaFold2并非全能


蛋白质是生命活动的主要执行者,因此,破译其结构和功能特性背后的机制至关重要。


其中蛋白质序列-结构-功能关系使得基于序列的机器学习方法在结构和功能预测上取得很大成功,这些方法可以从氨基酸 (AA) 序列推断蛋白质结构和功能。


亿级别参数的大规模的蛋白质语言模型通过自监督学习方法已经成为AI预测蛋白质功能的最主流做法。


同时,AlphaFold在蛋白质数据库(PDB)的3D蛋白质结构上进行了训练,最终可以输出与实验结构同样准确的蛋白质3D结构。


它的多序列比对表示模块Evoformer结合了新的深度学习机制、PLM残差重建任务和直方图形式的结构监督。与MSA-Transformer一样,Evoformer将一系列与进化相关且对齐的蛋白质序列作为输入,而ESM-1b和TAPE等PLM仅采用单个蛋白质序列。


简而言之我们将前两个模型称为进化感知型PLM,后两个模型称为无(显式)进化型PLM。


尽管AlphaFold在从序列预测结构方面取得了显著成功,但目前尚不清楚其Evoformer模块是否可以应用于其他问题,特别是蛋白质功能和适应度预测。破译AlphaFold而不是将其视为黑匣子对AI和生物学界都有好处。


因此,我们试图回答以下关键问题:


Q1:AlphaFold的主要模块Evoformer语言模型是否学习到了可用于各种蛋白质功能预测的通用表征(也就是超出结构预测)?


与ESM-1b和MSA-Transformer不同,Evoformer在3D结构的监督下进行训练。

此外,AlphaFold的第二部分,即结构模块建立在48个Evoformer块之上,比ESM-1b和MSA-Transformer中使用的传统(线性)分类头更复杂、更深入。这些差异使得Evoformer的蛋白质功能表示能力成为一个悬而未决的问题。


Q2:如果Evoformer的表征是通用的,它在下游任务上是否优于ESM-1b和MSA-Transformer?


虽然这三个模型使用不同的参数大小和数据集进行训练,但我们认为比较结果仍然很有价值,因为它们是目前最先进的PLM。由于所涉及的计算成本,从头开始训练这些大型模型对于大多数学术研究团队来说是遥不可及的。


任务详细介绍


Q3:进化感知的PLM, 如Evoformer 与MSA-Transformer的功能预测性能在多大程度上依赖于输入的MSA数据?无进化感知的PLM能否在MSA构建方面帮助具有进化意识型的PLM?


研究人员通过对各种结构和功能预测任务做经验验证,研究解决上述问题,可以得到以下主要结论


(i) AlphaFold的主要模块Evoformer可以产生对结构和功能预测都有用的表征,如两个蛋白质结构预测任务、两个功能注释任务和两个突变适应度景观预测任务。


(ii) Evoformer输出的向量表示对于蛋白质级别和残基级别的预测任务都很有用。


(iii) Evoformer在结构预测和新型小蛋白稳定性预测方面优于ESM-1b和MSA-Transformer,但在其他功能预测任务上不如ESM-1b。与ESM-1b和MSA-Transformer相比,它在零样本适应度预测任务上表现不佳。


(iv) 进化感知型PLMs仅在结构预测任务中优于无进化的ESM-1b模型,但在大多数功能预测任务中通常比ESM-1b差。


(v) MSA-Transformer和Evoformer在预测蛋白质功能时也对MSA的数量非常敏感。此外,它们在使用ESM-1b构建的MSA作为输入时,模型的性能与使用Jackhmmer或HHblits生成的MSA的性能相当,但速度大幅提升,本研究也提出了一种深度学习方式快速准确生成MSA。


实验部分


这篇论文将ESM-1b、MSA-Transformer和Alphafold2进行了一系列任务,包括蛋白质结构预测如二级结构,接触图预测。


蛋白质功能预测包括金属离子结合、抗生素耐药性。以及蛋白质稳定性预测,蛋白质荧光性预测,以及零样本迁移学习突变适应度景观预测。


二级结构预测(SS)


这是一个残基级序列到序列的任务,其中蛋白质序列 x = {x_1,x_2,…..,x_L} 的每个残基x_i映射到标签y_i对应于八个二级结构任务y_i∈ { G, H, ..., C } 之一。二级结构预测检查PLM学习局部结构的程度。


接触图预测


对于给定的蛋白质结构,如果两个残基的 C_β 碳在 8Å 以内,则认为它们是接触的。我们评估在一级结构中相距超过6 个位置的氨基酸。使用Precision@L测量结果,它代表着具有最高预测接触概率的Top-L氨基酸对的精度。L是蛋白质序列的长度。


研究人员还评估了两个功能(注释)分类任务:


1、金属离子结合 (MIB):这是一个二元分类任务,其中使用PLM来确定蛋白质中是否存在金属离子结合位点。


2、抗生素耐药性 (ABR):这是一个多类别分类任务,PLM 需要正确确定蛋白质降解的抗生素类别。我们从 CARD构建数据集,其中包含 19 种不同的抗生素类型。


以及三个适应度预测任务。与功能注释预测不同,此任务中的蛋白质序列均来自相同的野生型,具有少量突变残基。


1、稳定性:这是一个蛋白质级别的回归任务,它预测蛋白质可以维持其折叠的蛋白酶浓度。


2、荧光:这也是一个蛋白质级别的回归任务,预测蛋白质序列的对数荧光强度。


3、零样本突变效应预测:这是一项蛋白质级别的预测任务,通过对比分配给突变残基的似然可能性与分配给野生型的可能性之间的差建立与蛋白质适应度景观之间的关系。此子任务仅考虑单点突变数据。


新蛋白接触图预测结果


蛋白质功能预测结果如下:


(1)蛋白质功能注释预测:

蛋白功能预测结果


(2)蛋白质突变适应性景观预测

蛋白突变适应度景观预测结果


(3)下图为零样本突变适应度景观预测结果


零样本突变适应度分数预测


(4)在MIB和ABR两个功能预测任务上测试了MSA数量对于模型效果的影响,在失去MSA的情况下Evoformer和MSA-Transformer无论是否经过预训练,都会产生更差的功能预测结果。


MSA的有无对模型结果的影响


(5)进一步提出一种新的MSA构建方式,其速度远远高于传统的生信方法例如HHblits,如下所示:

ESM-MSA搜索的MSA与Jackhmmer准确度对比


其中ESM-MSA为采用ESM-1b构建神经网络产生的MSA数据,详细构建方式见下图:


结论


通过对各种蛋白质相关任务的实验,可以得到以下结论:


(1) AlphaFold2训练的Evoformer能够得到对结构和功能预测都有用的表征。


(2) Evoformer产生的表征对于蛋白质或残基级别预测任务都很有用。


(3) Evoformer在结构预测和蛋白稳定性预测方面优于ESM-1b和MSA-Transformer,但在其他功能预测任务上不如ESM-1b。


(4)与ESM-1b和MSA-Transformer相比, Evoformer在零样本突变任务上表现很差。


(5) 基于进化信息的蛋白质语言模型仅在结构预测任务中优于无进化信息的ESM-1b模型,在大多数功能预测任务中通常比ESM-1b差。


(6) 与结构预测类似,基于进化信息的蛋白质语言模型在预测蛋白质功能时也对MSA的数量比较敏感。


本文主要观点是通过大量的实验证实:AlphaFold2虽然在蛋白质结构预测任务上取得了革命性的成果,但其核心表征学习组件Evoformer并不能直接带来蛋白质功能预测的显著提升,更不可能替代已有的SOTA, 也就是Facebook研发的 ESM1b与MSA-Transformer。


参考资料:
https://arxiv.org/abs/2206.06583


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AI for Science年度激辩:AlphaFold成功难以复制,数据人才生态建设都是挑战|MEET2023VideoMAE:简单高效的视频自监督预训练新范式|NeurIPS 2022西电 NeurIPS 2022 | 基于结构聚类的异质图自监督学习飞往台湾的客机突然折回,打起来了?NeurlPS 2022 | 全新大模型参数高效微调方法:仅需训练0.3M的参数AlphaFold终结了生物学家研究蛋白质结构之路 于是颜宁回国了!秋季鼻血怎么办?AI居然「暗中」捣乱?港中大深圳联合西安交大发布后门学习新基准|NeurIPS 2022大模型如何可靠?IBM等学者最新《基础模型的基础鲁棒性》教程|NeurIPS 2022NeurlPS 2022 | 用于医学图像分割的类感知生成对抗Transformer清华提出首个退化可感知的展开式Transformer|NeurIPS 2022AlphaFold对手来了:Meta发布6亿“暗物质”蛋白预测结果,仅用2周完成NeurIPS 2022 | 利用多光照信息的单视角NeRF算法S^3-NeRF,可恢复场景几何与材质信息NeurIPS 2022|图对比学习的结构公平性初探NeurIPS 2022 | 基于解耦因果子结构学习的去偏差图神经网络Struct2Graph:基于结构的蛋白质-蛋白质相互作用预测的图注意网络深度学习工具的「计算显微镜」预测蛋白质相互作用,以及新抗生素的潜在途径NeurlPS2022推荐系统论文集锦NeurlPS 2022 | 全新大模型参数高效微调方法SSF:仅需训练0.3M的参数,效果卓越暴饮暴食的元凶,竟是「蛋白质没吃够」?万人研究给你意想不到的答案!首次突破30FPS!天大、清华和卡迪夫联合提出基于单RGB相机的全新三维表示方法FOF|NeurIPS 2022NeurIPS 2022 | 重振PointNet++雄风!PointNeXt:改进模型训练和缩放策略审视PointNet++很多人都误读了美国的军校【AHA2022速递】FOURIER和FOURIER-OLE研究二次分析:低一点好一点——LDL-C水平越低,远期心血管结局越好已筹2亿美元,合成生物学公司整合基因编辑和计算机辅助设计,旨在推动哺乳动物合成生物学发展Walker的虚伪和谎言使其遭儿子和女友公开背叛【波士顿网红公寓始祖|本科生可|NEU/Emerson/Suffolk|近Chinatown|下楼就有CVS和Tatte】Copilot被告、LeCun自主AI、AlphaFold发现所有蛋白质……2022年激动人心的AI大新闻Meta打造首个「蛋白质宇宙」全景图!用150亿参数语言模型,预测了6亿+蛋白质结构NeurIPS 2022 | 基于结构聚类的异质图自监督学习OpenFold更多细节公开:重新训练AlphaFold2对其学习机制和泛化能力产生新见解工农红军与雇佣军的区别在哪里Hinton最新研究:神经网络的未来是前向-前向算法|NeurIPS 2022特邀演讲【Greenhouse 2023waitlist開始排位|本科生可|NEU/伯克利/Suffolk|近Newbury|生活便利】积木式深度学习的正确玩法!新加坡国立大学发布全新迁移学习范式DeRy,把知识迁移玩成活字印刷|NeurIPS 2022
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。