计算机预测蛋白结构有三个level。
研究最早的是二级结构预测,就是给你一个蛋白序列,找出其中的alpha helix, beta strands
和loop区。最早的一些算法出现在上个世纪70年代。基本的idea很简单,从已有晶体结构中统计
helix, strands和loop区氨基酸的出现概率,然后根据这个进行预测。效果一般。后来出现的一些
基于贝叶斯、神经网络等等的算法考虑到了序列前后的相互影响,结果改善很多。现在二级结构预测
的准确度很高,大概80%左右的样子。说起来,二级结构预测可以算是机器学习在生物学中最早的成
功应用之一。也是bioinformatics最早热起来的方向之一。
三级结构预测就困难很多。从方法上大概可以分成三个类别:ab initio, homology modeling和
threading. ab initio预测基于力场,计算蛋白折叠构象的最小能量状态。大家都知道David
Baker是这方面的代表人物。要注意的是,Baker的ab initio预测可不是一个原子一个原子地搭
建,而是一个片断一个片断的搭建。用的力场也是low resolution的,不同于动力学模拟的分子力
场。Baker自然才华横溢,光彩夺目,但要说ab initio预测多么成功,恐怕还有很多争议。
homology modeling更加靠谱一些,基本假设是序列相似的蛋白会有相似的结构。这个假设是很靠
得住的,如果序列差异度很小,这个方法预测的结构还是很靠谱的。而且,因为结构比序列更加保
守,即使序列差异度很大,还是有可能找到类似的结构作为模板来预测目标蛋白结构。当然,这里面
技术难度很大。Treading主要就是针对这种情况。homology modeling和threading作得好的中
国人很多(见每年一次的结构预测比赛)。也有一些人用真正的动力学模拟的方法来模拟蛋白的折叠
过程,从而进行结构预测,比如哥大的David Shaw。这哥们用自己的钱搭建专门用于这个的超级计
算机,最近几年灌了不少CNS。有钱人就是爽啊。
三级结构预测现在没有以前火了。不少人重点转向了蛋白设计,也就是设计完成特定功能的蛋白结
构。四级结构预测,或者说是protein docking项比较而言还很活跃。但是都很难。目前的
protein docking有点像三级结构的ab initio预测,需要能量函数,构象空间采样,以及识别天
然构象。很显然就有有一些人开始用类似于三级结构的homology modeling,找类似的蛋白复合体
(protein complex)进行比对和预测。然而,由于protein complex的结构更diversified而且
已有结构更少,预测的难度也更大。
Overall, 蛋白结构预测差不多算是bioinformatics/computational biology的holly grail
之一吧。