Redian新闻
>
AlphaFold斩获拉斯克奖引争议?实际上,它的研发远比想象中更复杂?

AlphaFold斩获拉斯克奖引争议?实际上,它的研发远比想象中更复杂?

公众号新闻

来源:深究科学

作者:周晨







导读


3月拿了盖尔德纳奖,9月再斩拉斯克奖,AlphaFold真的要“封神”了吗?


DeepMind创始人戴米斯·哈萨比斯(Demis Hassabis)和资深成员约翰·贾伯(John Jumper)凭借蛋白预测系统AlphaFold获得了今年的拉斯克基础医学研究奖。一时之间,生物医药界炸开了锅,因为AI的这个获奖速度比起动辄需要等十几二十年的领域快多了。



凭什么一个AI能屡屡斩获国际性的医学大奖?很多生物学家有些不屑,认为这里没有高深的科学,有的只是工程。


实际上,AlphaFold的研发之路也并不顺畅,从积累已经确认的蛋白质结构数据到预测几乎所有人类蛋白质的结构,AlphaFold为蛋白质结构研究赋予了一个全新的视角。

01

一个艰巨的问题


众所周知,蛋白质在细胞内扮演着众多重要角色,其功能与其三维结构形态密切相关,对蛋白质结构的洞察可以揭示功能并解开生物学的谜团。

Christian Anfinsen

60多年前,已故美国国立卫生研究院(NIH)的科学家克里斯蒂安·安芬森(Christian Anfinsen)发现了一个很有意思的现象:蛋白质可以在没有外力帮助的情况下自己恢复成特定的形状。

据此,他得出结论,蛋白质的形状是由它的组成成分——氨基酸的排列顺序所决定的。


实际上,即使是结构很小的蛋白质,要尝试所有可能的形状,需要花费的时间可能比宇宙存在的时间还长。但在生物体细胞内,蛋白质却可以在毫秒内迅速地找到最适合的形状。

这不禁让我们感到困惑,自然界是如何解决这个难题的呢?


为了理解蛋白质的构建原理并探索其结构,科研人员采用了多种方法。他们试图用能量方程表达物理间的相互作用,同时运用X射线晶体学和其他技术来制作可作为蛋白质结构蓝图的模板。此外,他们还结合了关于特定氨基酸的知识(比如说是否带电荷)以及它们在链上的位置,以获得关于蛋白质结构特征的线索。

1994年,马里兰大学的约翰·穆特(John Moult)及其团队启动了“结构预测临床评估”(CASP)项目来追踪蛋白质结构预测领域的发展。该项目每两年组织一次,参与者会收到在实验室中已经解决但尚未发布的蛋白质的氨基酸序列,然而应用自己开发的系统生成预测模型,这些模型最后又与实验结果进行比较并打分。

在过去的几十年里,模型的性能以小增量缓慢上升,有时会停滞甚至倒退。

早期,华盛顿大学教授戴维·贝克( David Baker)曾开发了一种方法,他从一个全球共享的蛋白质数据库(PDB)中提取了短片段,来预测蛋白质内的局部结构。尽管确实有所收获,但这种基于片段的策略对绝大多数蛋白质来说不仅很耗时,而且应用有限。

与此同时,科学家一直在不断积累已经确认的蛋白质结构数据。截至2014年,PDB中已有超过10万种蛋白质结构的记录,但这么多蛋白质结构记录也仅仅是当时已知数千万蛋白质序列的一小部分。
02

引入人工智能进入折叠过程


在2018年第13届CASP比赛中,DeepMind团队采用了机器学习技术改进了预测方案。与传统AI方法依赖预设逻辑不同,机器学习能自我发现数据中的模式。在将机器学习作为蛋白质预测网络的核心组件后,哈萨比斯和贾伯的队伍以高准确度遥遥领先,甚至相较于去年最佳水平提升了近50%。

Science对DeepMind在CASP13表现中的报道

尽管取得了成功,DeepMind的研究人员并未止步:他们希望开发出误差不超过一个原子大小的实用工具。哈萨比斯、贾伯等人进行了头脑风暴,将几何和遗传学概念融入了已知的蛋白质知识,如原子具有特定半径、键具有特定角度。他们旨在将这些因素纳入考虑,同时不干扰系统的自主学习能力。

研究人员设计出从有限实验证据中提取最多信息的方法,并采取策略使AlphaFold2能够高效学习。他们允许AlphaFold2在任何阶段进行调整避免早期错误。整个过程中,它可以逐步完善结构模型。

哈萨比斯、贾伯及其同事还放弃了指导传统算法的原则,如线性接近性原则,而是更注重三维关系,因为相距数百个亚单位的氨基酸可以在折叠的蛋白质中共存。此外,他们还开发了一种算法,特别关注不同氨基酸的物理距离。

AlphaFold2取得的突破并非单一元素的贡献,而是众多创新想法共同作用的结果。

03

严格的训练



为了训练该系统,哈萨比斯和贾伯的团队使用了PDB(Protein Data Bank)对确定的结构进行实验。AlphaFold2反复将其模拟出的答案与真实答案进行比较,并最终变成现实。在训练集的每个成员重复这个过程后,该算法吸收了蛋白质结构的原理。

在过去的几年里,机器学习将蛋白质结构领域推向了一个新领域

研究人员利用了一些技巧来提高网络的学习能力,如他们在MSA中隐藏了氨基酸并要求其填补空白。通过这种方式,他们要求AI系统掌握进化关系规则。他们还递归地提供任何给定步骤的输出,这为AlphaFold2提供了许多重新考虑和改进的机会。

AlphaFold2还计算了对其预测的可信度,这些可信度评分使研究人员能从可用数据中获取更多信息,从而提高其性能。

研究人员向AI系统提供大约14万PDB序列后,再让它运行了另一组尚未解决结构的序列。此外,他们挑选了最可靠的35万个序列/结构对,并用这些数据训练了该系统,从而提高其准确度。
04

重塑蛋白质科学


2020年,AlphaFold2在CASP14竞赛中脱颖而出。它的预测达到了原子精度,并可以在几分钟内为没有模板的蛋白质生成出色的结果,这是第一种在已知没有相似结构的情况下构建高分辨率预测的方法。

2021年7月,哈萨比斯和贾伯发表了他们的模型以及对几乎所有人类蛋白质的结构预测。在短短两年内,他们论文的影响力已经超过了自1900年以来在《自然》杂志上发表的近10万篇研究论文中的几乎所有文章,这篇论文排名第50,被顶级期刊上发表的7000多篇论文引用。


之后,哈萨比斯和贾伯与欧洲分子生物学实验室欧洲生物信息学研究所合作,向科学界分享了该程序和数据库,超过一百万的研究人员使用了这些资源。

DeepMind团队此后将其目录扩展到已测序基因组的生物中的几乎所有已知蛋白质。这些目录包括了病毒的蛋白质组,这些病毒是流行病威胁和世界卫生组织高优先级病原体。

目前,AlphaFold2系统在许多生物医学领域及相关领域产生了巨大的影响,通过应用AlphaFold2,研究人员重新设计了针对人类细胞的蛋白质,开辟了药物输送和基因治疗的新途径,学术实验室和公司正在利用AlphaFold2开发疫苗、设计药物、制造分解污染物的酶等,前景一片光明。

参考资料
AlphaFold—for predicting protein structures.Lasker Foundation.


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
现在的租赁情况比想象中严峻中年男性,比想象中孤独实际上多所城市的路灯突然变成了色,背后的安全隐患比想象中更夸张救人的狂犬疫苗,比想象中水更深国庆后,2亿人被无情“抛弃”:他们的现状,比想象中来的更残酷澳女在法国买下整栋“古堡”,价格竟比澳洲一居室单元房还便宜!“澳元比想象中值钱”47岁DeepMind创始人斩获“诺奖风向标”!2023拉斯克奖出炉,AlphaFold上榜澳洲路标太复杂?一个简单路标难住司机!发帖求助引发热议人生若只如初见(八)美国航母的核反应堆远比想象的更小,25年仅需4吨燃料THE MOLAB|软呢夹克 远比想象中好穿离弃偶像,生命更新,他给与我们的比想象中还多经常看到有人说比如钢琴不拿大奖没用,实际上长篇小说《如絮》第一百六十九章 北京-1970年 2 电话这一轮通胀下跌,远比你想象的复杂深圳湾实验室团队最新综述:蛋白质结构预测中“分而治之”的策略,以及后AlphaFold2时代一剪梅预定诺奖?DeepMind创始人斩获「诺奖风向标」拉斯克奖,AlphaFold成「AI for Science」标杆DeepMind曝新一代AlphaFold,预测准确率暴涨近10%!DNA和RNA的AlphaFold时刻来了2023拉斯克奖为何给了人工智能预测蛋白质结构?大话封神092:龙吉公主的爱情故事有多复杂?神秘的符元仙翁是何许人也?自杀比想象中困难得多 | 和数百个不想活下去的人谈谈之后「胃是情绪器官」?你的身体,比想象中爱你诺奖风向标之拉斯克奖揭晓:蛋白质结构预测工具 AlphaFold 再获殊荣!全世界都在为这款减重药疯狂,它的研发更是一场“逆袭”“郭德纲一张全家福引争议?”网友辣评:一张图,一部甄嬛传诺奖风向标拉斯克奖公布,6人获奖$50在纽约唐人街能吃啥?远比你想象中更多!钟薛高欠薪、遇坎?实际上多个冰淇淋品牌表现都难言乐观第八章 全新的社会制度的诞生 (1)港股要迎“智能驾驶第一股”?实际上…告别“钱德勒”,比想象中要难啊赵露思穿“露奶蕾丝裙”引争议?网友直呼:半个胸都快兜不住了...红色日记 9.11-20差点半身不遂!林志颖哽咽回忆车祸经历,原来事情比想象中严重…悉尼女在法国买下整栋“古堡”,价格竟比悉尼一居室单元房还便宜!“澳元比想象中值钱”
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。