北京时间2023年9月21日上午,拉斯克基础医学奖2023年度奖项揭晓。这项被誉为诺奖风向标的大奖今年授予DeepMind首席执行官Demis Hassabis以及该公司科研人员John Jumper,他们开发的AlphaFold人工智能算法可根据氨基酸一级序列准确预测蛋白质三维结构,解决了长期困扰生物医学研究领域的难题,为加速生物医学研究打开了大门。 《新英格兰医学杂志》(NEJM)发表评论文章,解析蛋白质3D结构预测研究历史、意义和不同科学家的贡献。《赛先生》特转载该文全文翻译。
A Holy Grail — The Prediction of Protein StructureAltman RB | 撰文
《新英格兰医学杂志》 | 来源
今年的拉斯克基础医学研究奖授予Demis Hassabis和John Jumper,以表彰他们在创造AlphaFold人工智能(AI)系统方面的贡献,该系统可根据氨基酸一级(1D)序列预测蛋白质的三维(3D)结构。
他们的成果解决了一个长期困扰科学界的问题,为加速整个生物医学领域的研究打开了大门。蛋白质在疾病发生中起着举足轻重的作用:在阿尔茨海默病中,它们会折叠和聚集;在癌症中,它们的调节功能丧失;在先天性代谢障碍疾病中,它们会功能失调;在囊性纤维化中,它们会进入细胞中错误的空间。这仅是众多致病机制中的一小部分。详细的蛋白质结构模型可提供原子构型,推动高亲和力分子的设计或选择,加速药物研发。蛋白质结构一般由X射线晶体学、核磁共振和冷冻电镜确定。这些方法既昂贵又耗时。这导致现有的3D蛋白质结构数据库只有约20万个结构数据,而DNA测序技术已经产生了800多万条蛋白质序列。20世纪60年代,Anfinsen等人发现氨基酸的1D序列可以自发、可重复地折叠成功能性三维构象(图1A),分子“伴侣”可以加速和促进这一过程。这些观察结果为分子生物学带来了一项长达60年的挑战:根据氨基酸的1D序列预测蛋白质的3D结构。随着人类基因组计划(Human Genome Project)的成功,我们获得1D氨基酸序列的能力大幅提高,这一挑战变得更加紧迫。分子生物学的核心原理是,DNA碱基(A、T、C 和 G)的一级(1D)序列转录为一级序列的工作副本mRNA(RNA碱基为 A、U、C 和 G)(图A)。mRNA在核糖体中翻译成1D蛋白质序列。折叠蛋白质是始于基因组DNA的信息流的最终产物。Anfinsen等人的研究表明,蛋白质1D序列往往包含了所有必要信息,可以使其重复折叠成复杂的三维(3D)蛋白质结构,而这些结构需要通过大量实验才能确定。AlphaFold(图B)输入未知结构蛋白质的1D序列和在不同物种和组织中发现的许多类似蛋白质的多序列比对(MSA)。它创建了一个深度神经网络,以表示蛋白质中氨基酸之间的关系(如i和j配对),以及这两个位置在MSA所代表的进化空间中的关系。这些表征彼此相连,并在Evoformer中“交流”,Evoformer 利用已知的1D序列和3D结构来推断哪些氨基酸是彼此靠近的。Evoformer将相关信息传递给结构模块,该模块接着将氨基酸中的原子位置转化为三维结构,并在考虑原子键、角度和扭转角有效值等物理和化学限制的基础上,寻找与Evoformer提供信息相匹配的原子构型。每个建模结构都有许多潜在的应用领域(图C),包括设计能与蛋白质口袋紧密结合的药物、估计基因突变对蛋白质结构和功能的影响,为蛋白质界面建模(并可能对其进行干扰)从而产生(可能不需要的)蛋白质-蛋白质相互作用,以及为工程目的设计新的蛋白质结构。
预测蛋白质结构之所以困难,有几个原因。首先,每个氨基酸中每个原子的所有可能三维位置均需海量探索。其次,蛋白质在化学结构上最大限度地利用互补作用以有效配置原子;由于蛋白质通常有数百个氢键“供体”(通常是氧),它们应该靠近氢键“受体”(通常是与氢结合的氮),因此要找到几乎每个供体都靠近受体的构象可能非常困难。第三,用于实验方法训练的实例有限,因此必须利用相关蛋白质的进化信息,在1D序列基础上了解氨基酸之间潜在的三维相互作用。人们最初使用物理学模拟原子在寻求最佳构象时的相互作用,并据此开发出一种预测蛋白质结构的方法。Karplus、Levitt和Warshel因其在蛋白质计算模拟方面的贡献而荣获2013年诺贝尔化学奖。然而,基于物理学的方法计算成本高昂,而且需要近似处理,因此无法预测精确的三维结构。另一种“基于知识”的方法是利用已知结构和序列数据库,通过人工智能和机器学习(AI-ML)训练模型。Hassabis和Jumper同时应用了物理学和AI–ML的元素,但该方法的创新性和性能上的飞跃主要源于AI–ML;这两位研究者创造性地将大型公共数据库与工业级计算资源结合起来,创建了AlphaFold。1994年,"结构预测的关键评估"(Critical Assessment of Structure Prediction,CASP)大赛成立,每两年举行一次会议,以跟踪结构预测的进展。研究人员会分享他们最新解析出结构、但尚未公布结果的蛋白质的1D序列。预测者使用该1D序列预测三维结构,评估者通过将预测结果与实验人员提供的三维结构(仅向评估者提供)进行比较,独立判断预测结果的质量。CASP进行真正的盲评,并记录了与方法创新相关的周期性的性能跃升。在2020年第14届CASP会议上,AlphaFold的预测结果表明性能飞跃如此之大,以至于组织者宣布三维结构预测问题已经解决:大多数预测结果的准确性与实验测定结果相近。它是如何做到如此出色的?Hassabis和Jumper在技术上进行了一系列创新,包括可微分的端到端(1D到3D)预测管线,这样就可以同时优化模型中的所有参数;输入的1D序列和其进化邻域的序列比对的编码,可以协同预测氨基酸的相对邻近度(图 1B);AI-ML的计算“关注”机制,通过检测哪些相互作用(在众多相互作用中)对预测三维邻近性最重要,从而简化搜索空间;并将邻近性预测细化为详细的3D原子构型。不出所料,他们提出的观点引发了大量借鉴和扩展其观点的创新。AlphaFold已用于推动新药开发(图1C)。它有助于照亮蛋白质组学中的“暗物质”;现在可以对以前未曾见过的结构进行建模,以探索其功能。蛋白质设计人员正在利用AlphaFold完善蛋白质设计。AlphaFold还可利用实验数据完善初始结构,建立大型细胞"机器",从而实现转录、翻译、复制、降解、循环、生物力的产生和其他过程。AlphaFold确实还没有解决三维结构中的部分重要问题,包括变异(突变)蛋白质的建模(编者注:2023年9月19,DeepMind研究团队在Science发表论文,基于AlphaFold开发出AlphaMissense,可用来预测错义突变致病性)、从1D到3D的折叠路径、蛋白质的时间动态以及结构与实验测量功能之间的联系。不过,它为上述各方面的进展提供了一个起点。更广泛的意义在于,Hassabis和Jumper的工作令人信服地展示了AI-ML如何改变科学。其研究表明,AI-ML可以从多个数据源建立复杂的科学假设,注意力机制(类似于 ChatGPT中的注意力机制)可以发现数据源中的关键依赖关系和相关性,而且AI-ML可以自我判断其输出结果的质量。AI-ML本质上是在做科学研究。原文链接:DOI:10.1056/NEJMcibr2307735注:本文由《NEJM医学前沿》编辑部负责翻译、编写或约稿,“赛先生”获授权转发。对于源自NEJM集团旗下英文产品的翻译和编写文章,内容请以英文原版为准。中译全文以及所含图表等,由马萨诸塞州医学会NEJM集团独家授权。如需转载,请联系[email protected]。未经授权的翻译是侵权行为,版权方保留追究法律责任的权利。
欢迎关注我们,投稿、授权等请联系
[email protected]