Bioinformatics | 来鲁华/邓明华合作：多层级的图神经网络促进蛋白质功能预测

2023-07-07 12:07

高通量测序的发展导致了蛋白质序列数量的大幅增加。然而，由于实验研究周期长、费用昂贵，大部分蛋白质序列缺乏功能注释。因此，自动而准确地推断蛋白质功能的计算方法具有重要意义。

深度学习的进展促进了各种蛋白质功能预测模型的发展。蛋白质的三维结构与功能直接相关，而结构相似的蛋白可能具有高度多样的序列，仅依赖基于序列的模型（如1D CNN或Transformer）可能难以捕捉长程的功能位点规律。随着蛋白质结构预测研究的突破性进展，获取蛋白质接触图或三维结构变得更加容易。这赋予了图神经网络（GNN）更多的优势，可以编码蛋白质的三维结构信息从而预测其功能。然而目前的GNN模型还存在一些限制：（1）GNN的过度平滑问题限制了网络的层数，使得捕捉远距离的结构相关性变得困难。（2）简单的图池化过程（平均或最大池化）将所有残基同等看待，难以捕捉对蛋白质功能至关重要的残基。因此，需要设想一种有效的方法以自适应的方式生成蛋白质表示。

2023年6月28日北京大学化学与分子工程学院/前沿交叉学科研究院定量生物学中心/北大-清华生命科学联合中心来鲁华课题组与北京大学数学科学学院/前沿交叉学科研究院定量生物学中心邓明华课题组合作在Bioinformatics上发表了题为“Hierarchical Graph Transformer with Contrastive Learning for Protein Function Prediction”的研究论文。该研究提出了一种新的蛋白质功能预测方法：Hierarchical graph transformEr with contrAstive Learning (HEAL)。HEAL利用Hierarchical Graph Transformer（HGT）捕捉结构信息，通过引入模仿功能motif的超节点来与蛋白质图中的残基节点进行交互。这些超节点嵌入（embeddings）以不同的权重被聚合，池化产生蛋白图的embeddings。为了增强网络的表达力，HEAL引入了图对比学习以最大化不同视图之间的相似性。

图1. HEAL模型对蛋白质的建图方式及网络架构。

在被广泛使用的PDBch测试集上，研究者将模型的表现与基于序列比对的传统方法（Blast、FunFams）、基于序列特征的1d CNN深度学习模型DeepGO以及基于结构特征的GNN模型DeepFRI进行了对比。结果显示，HEAL使用了更小的蛋白质数据集训练，取得了最好的表现，不仅大幅超越基于序列比对的传统方法（Blast、FunFams），并且大幅超越了深度学习模型DeepGO与DeepFRI。

表1. 不同方法在PDBch测试集上的表现

此外，研究者根据PDBch测试集中序列与训练集的序列一致度（sequence identity）划分，评估了HEAL模型的泛化能力。相比DeepGO和DeepFRI方法，HEAL具有出色的泛化能力。

图2. HEAL模型与其他方法在不同序列相似度下的泛化能力比较

为了测试模型在缺乏实验解析结构与已标注同源序列的更真实场景下的应用，研究者构建了更具挑战性的AFch测试集，并将模型与将前述的DeepFRI、结合了1d CNN序列学习模型与同源序列比对的DeepGOPlus在此测试集上进行了比较。结果表明HEAL模型借助AlphaFold2预测的结构，在功能预测上取得了最佳的效果，在真实的应用场景下更具有潜力。