Redian新闻
>
Bioinformatics | 来鲁华/邓明华合作:多层级的图神经网络促进蛋白质功能预测

Bioinformatics | 来鲁华/邓明华合作:多层级的图神经网络促进蛋白质功能预测

公众号新闻


高通量测序的发展导致了蛋白质序列数量的大幅增加。然而,由于实验研究周期长、费用昂贵,大部分蛋白质序列缺乏功能注释。因此,自动而准确地推断蛋白质功能的计算方法具有重要意义。


深度学习的进展促进了各种蛋白质功能预测模型的发展。蛋白质的三维结构与功能直接相关,而结构相似的蛋白可能具有高度多样的序列,仅依赖基于序列的模型(如1D CNN或Transformer)可能难以捕捉长程的功能位点规律。随着蛋白质结构预测研究的突破性进展,获取蛋白质接触图或三维结构变得更加容易。这赋予了图神经网络(GNN)更多的优势,可以编码蛋白质的三维结构信息从而预测其功能。然而目前的GNN模型还存在一些限制:(1)GNN的过度平滑问题限制了网络的层数,使得捕捉远距离的结构相关性变得困难。(2)简单的图池化过程(平均或最大池化)将所有残基同等看待,难以捕捉对蛋白质功能至关重要的残基。因此,需要设想一种有效的方法以自适应的方式生成蛋白质表示。


2023年6月28日北京大学化学与分子工程学院/前沿交叉学科研究院定量生物学中心/北大-清华生命科学联合中心来鲁华课题组与北京大学数学科学学院/前沿交叉学科研究院定量生物学中心邓明华课题组合作在Bioinformatics上发表了题为“Hierarchical Graph Transformer with Contrastive Learning for Protein Function Prediction”的研究论文。该研究提出了一种新的蛋白质功能预测方法:Hierarchical graph transformEr with contrAstive Learning (HEAL)。HEAL利用Hierarchical Graph Transformer(HGT)捕捉结构信息,通过引入模仿功能motif的超节点来与蛋白质图中的残基节点进行交互。这些超节点嵌入(embeddings)以不同的权重被聚合,池化产生蛋白图的embeddings。为了增强网络的表达力,HEAL引入了图对比学习以最大化不同视图之间的相似性。

图1. HEAL模型对蛋白质的建图方式及网络架构。


在被广泛使用的PDBch测试集上,研究者将模型的表现与基于序列比对的传统方法(Blast、FunFams)、基于序列特征的1d CNN深度学习模型DeepGO以及基于结构特征的GNN模型DeepFRI进行了对比。结果显示,HEAL使用了更小的蛋白质数据集训练,取得了最好的表现,不仅大幅超越基于序列比对的传统方法(Blast、FunFams),并且大幅超越了深度学习模型DeepGO与DeepFRI。


表1. 不同方法在PDBch测试集上的表现


此外,研究者根据PDBch测试集中序列与训练集的序列一致度(sequence identity)划分,评估了HEAL模型的泛化能力。相比DeepGO和DeepFRI方法,HEAL具有出色的泛化能力。

图2. HEAL模型与其他方法在不同序列相似度下的泛化能力比较


为了测试模型在缺乏实验解析结构与已标注同源序列的更真实场景下的应用,研究者构建了更具挑战性的AFch测试集,并将模型与将前述的DeepFRI、结合了1d CNN序列学习模型与同源序列比对的DeepGOPlus在此测试集上进行了比较。结果表明HEAL模型借助AlphaFold2预测的结构,在功能预测上取得了最佳的效果,在真实的应用场景下更具有潜力。

图3. HEAL模型与其他方法在缺乏实验结构与标注的同源序列的AFch测试集上的比较


基于Grad-CAM方法,研究者将网络输出结果的贡献定位到每个残基上,以探究HEAL模型的可解释性。Grad-CAM给出的结果显示,分子结合位点附近的残基具有更强的信号。此外,根据BioLiP数据库收录的结合位点信息,Grad-CAM信号可以较好地预测结合位点。

图4. HEAL模型具有出色的可解释性,能够提示发挥功能的残基位点


原文链接:

https://doi.org/10.1093/bioinformatics/btad410



会议推荐

1

大会信息  

会议名称 | 2023第六届单细胞多组学研究与临床应用峰会

会议时间 | 2023年9月14-15日

会议地点 | 上海虹桥西郊丽笙大酒店

大会规模 | 800人

主办单位 | 生物谷


扫码立即报名



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
13层网络拿下83%精度,华为诺亚新型神经网络架构VanillaNet「简约」到极致英国政府资助研究:AI识别收割西兰花非食用部分,蛋白质比大豆蛋白更可持续20年、60亿人民币、7000种蛋白质,SomaLogic蛋白质组数据库的构建之途蛋白质侧链预测新方法DiffPack:扩散模型也能精准预测侧链构象!ICML 2023 | 英伟达神奇研究:用别的模型权重训练神经网络,改神经元不影响输出!AI「心灵之眼」被看透!大改神经网络,模型生成背后逻辑首现哈佛教授捐赠2.1亿美元用于蛋白质创新研究,计划加速蛋白质和抗体发现13层网络如何拿下83%精度?极简神经网络架构VanillaNet作者亲自解读回家ICML 2023 | 神经网络大还是小?Transformer模型规模对训练目标的影响GPT的背后,从命运多舛到颠覆世界,人工神经网络的跌宕80年Sam Altman中国对话全文:要警惕AI风险,但看懂神经网络比了解人在想什么容易多了马库斯总结16项「可信AI」要求,符号主义+神经网络携手打造AGI!40年前的Cyc成版本答案AutoFocusFormer:摆脱传统栅格,采用自适应下采样的图像分割苹果、俄勒冈州立提出AutoFocusFormer: 摆脱传统栅格,采用自适应下采样的图像分割只要你用ReLU,就是“浅度学习”:任意ReLU神经网络都有等效3层网络Nat. Commun. | 浙江大学郭国骥/韩晓平/王晶晶团队基于单细胞图谱和人工智能神经网络的基因组变异解码框架你好,我是筚(bì)篥( lì)!Adv Sci | 上海药物所合作发现全新蛋白质修饰类型——赖氨酸乙酰乙酰化​ICLR 2023 高分论文 | 基于子图草图的图神经网络用于链路预测全球首创 :分子之心开源新AI算法,攻克蛋白质侧链预测与序列设计难题类GPT模型训练提速26.5%,清华朱军等人用INT4算法加速神经网络训练Doris Day/Que sera, sera欧福蛋业:Z世代对蛋白质的认识越来越深入,鸡蛋白将有全新消费方式直到她去世孩子們才偷看奶奶的日記家庭隱私的邊界/麥迪遜縣的橋樑比AlphaFold2快一个数量级!蛋白质通用大模型来了,13个任务取得SOTA丨百图生科&清华关于耶稣吴雷钧博士:A.I.神经网络赋能营销新玩法(I) | 深度观点预测超长蛋白质这事,CPU赢了CVPR 2023 | 三维场景生成:无需任何神经网络训练,从单个样例生成多样结果CVPR 2023 | 神经网络超体?新国立LV lab提出全新网络克隆技术液态神经网络无人机在未知领域航行时击败了其他人工智能系统用别的模型权重训练神经网络,改神经元不影响输出:英伟达神奇研究ICML 2023 | 英伟达神奇研究:用别的模型权重训练神经网络,改神经元不影响输出idealism biggest driving forces through challenging times and he
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。