Google 发布重磅 AI 模型!预测地球所有生物分子,将大大加速癌症等疾病治疗研究科技2024-05-09 10:05Google 旗下的 DeepMind,一夜之间让学术界炸了锅。5 月 8 日,DeepMind 官宣了一个新的 AI 模型:AlphaFold 3。相关的研究论文,发表在权威的《自然》杂志上,一来就占据了头版。ChatGPT 之后,AI 模型不计其数,但最有资格自称改变世界的,可能只有 AlphaFold 3。AlphaFold 超级进化,让生物世界更加「高清」我们在中学生物课上学过,蛋白质是由氨基酸通过肽键连接形成的长链分子,在空间中折叠成复杂的三维结构。三维结构决定了蛋白质的功能,直接影响了药物设计和疾病治疗。可以说,蛋白质结构预测,是生物学最重要的命题之一。但预测蛋白质的三维结构,是一件难事,往往需要复杂的实验,甚至被形容为「困扰了生物学家 50 年的问题」。2016年,DeepMind 的 AlphaGo,战胜了职业九段棋手,重写了围棋这门古老的技艺。DeepMind 的 AlphaFold,则要探听生物学的密码,窥探生命本身的堂奥。2018 年,AlphaFold 1 发布。2020 年,AlphaFold 2 面世,已经可以在几分钟内大规模地准确预测蛋白质的形状,并精确到原子级别。现在,我们迎来了 AlphaFold 3,一个野心更大的 AI:超越蛋白质,探索所有的生物分子。生物分子,即构成生物体的分子,包括蛋白质、DNA、RNA 等。DeepMind 认为,只有了解生物分子如何在数百万种组合中相互作用,才能开始真正理解生命的过程。一言以蔽之,AlphaFold 3 比起前代,覆盖的范围更广了,可以准确预测蛋白质、DNA、RNA、配体等生物分子的结构,以及它们如何相互作用。先来看一些 AlphaFold 3 的预测结果。7PNM,是一种普通感冒病毒的刺突蛋白。如图所示,AlphaFold 3 对 7PNM(蓝色部分)与抗体(绿色部分)、单糖(黄色部分)相互作用时的结构预测,与真实结构(灰色部分)吻合。预测背后有其意义,把这类蛋白质研究清楚,科学家便能更了解免疫系统和包括新冠在内的冠状病毒,甚至提出更好的治疗方案。除了蛋白质的结构,AlphaFold 还能预测分子复合物,即多个分子组成的复杂结构。下图的酶,来自一种对植物有害的土壤真菌。AlphaFold 的预测结果,包含一个酶蛋白(蓝色部分)、一个离子(黄色球体)和一些单糖(黄色部分),契合了真实结构(灰色部分)。深入了解这种酶与植物细胞如何相互作用,可以帮助研究人员开发更健康、抵抗力更强的作物,给农业生产带来实际的好处。类似地,AlphaFold 3 预测了一个由蛋白质(蓝色部分)、RNA 链(紫色部分)和两个离子(黄色部分)组成的分子复合物,同样和真实结构(灰色部分)高度匹配。这种复合物参与蛋白质的合成,即细胞生命活动和健康的基本过程之一,研究意义同样深远。展现预测结果的准确性,再强调相关的用途,DeepMind 想要告诉世界,AlphaFold 3 是一种「革命性的模型」。一方面,研究范围更广了。把视野扩充到蛋白质之外,特别是配体等小分子,可以涵盖更多的药物。另一方面,准确度也提高了。对于蛋白质与其他分子类型的相互作用,与现有的预测方法相比,AlphaFold 3 的精度至少进步了 50%。其中一些重要的相互作用,提升甚至达到了 100%。这样一来,AlphaFold 3 可以造福更多的研究,加速药物设计、推动基因组学、研发更健康的作物、开发生物可再生材料......说到技术原理,AlphaFold 3 基于 AlphaFold 2 改进,核心是 Evoformer 深度学习架构,并使用了类似 Midjourney 的扩散网络。使用 AlphaFold 3 的过程,有些像我们和大语言模型聊天。输入对生物分子的描述,AlphaFold 3 生成这些分子的三维结构,并研究它们如何相互作用。AlphaFold 3 给出预测结果的过程,类似逐步去噪的 AI 文生图扩散模型,从模糊的原子云开始,逐步汇聚成准确的分子结构。讲人话的生成式 AI,增强了格子间打工人的生产力。AlphaFold 对科学家们的意义,也不外如是。在实验室进行蛋白质结构预测,可能要花掉攻读一个博士学位的时间,以及数十万美元。上亿个预测,怕是穷尽几百万人的一生也无法完成。但有了 AlphaFold,科学家们可以提出大胆的问题、创新的假设,然后在实验室进行测试,加速研究的进程。DeepMind 的一句话,足以向普通人概括 AlphaFold 3 的意义:AlphaFold 3 将生物世界带入高清。将 AlphaFold 交给世界,等待科学发现的新文艺复兴之前为了嘲讽 OpenAI 的闭源,马斯克给它起了个绰号:CloseAI。投喂了 OpenAI 好几篇论文的 Google,在某些方面更有开源的精神。2021 年 7 月,AlphaFold 2 在 Nature 发布了论文,也开源了代码。截至目前,AlphaFold 2 已用于预测数亿个结构。全球数百万研究人员,将 AlphaFold 2 用于疟疾疫苗、癌症治疗和酶设计等领域。也是在 2021 年 7 月,DeepMind 和欧洲生物信息研究所(EMBL-EBI)合作,发布了 AlphaFold 蛋白结构数据库,提供了迄今为止最完整、最准确的人类蛋白质组图景。DeepMind 在官宣的博客里提到,这是自人类基因组绘图以来最重要的数据集之一,现在他们将 AlphaFold 的力量,免费交到全世界科研人员的手中。一年之内,超过 50 万研究人员使用了 AlphaFold 数据库,查看了超过 200 万个结构,加速解决塑料污染、抗生素耐药性等现实问题。自那以后,数据库还在不断地扩充。2022 年 7 月,DeepMind 发布了几乎所有科学已知的蛋白质预测结构,总共超过 2 亿个,除了人类,其中还包括了植物、细菌、动物和其他生物体的预测结构。AlphaFold 数据库,就像蛋白质结构的「Google 搜索」,也像一个繁星闪烁的蛋白质宇宙。蛋白质的三维结构是生命的基石,看起来又精致美观,让人感叹大自然造物的神奇。不过,这次发布的 AlphaFold 3,相比 AlphaFold 2,态度稍微显得保守,招致了一些批评的声音。AlphaFold 3 目前没有开源,不能在本地部署,研究人员只能通过 DeepMind 最新推出的研究平台 AlphaFold Server,免费访问大部分功能,且用途是非商业的。最阻碍科学进步的是服务的访问次数:每天只能进行 10 次预测。抠门行为的背后,Deepmind 可能有自己的商业考量——子公司 Isomorphic Labs 已经与制药公司合作,将 AlphaFold 3 应用于药物设计。Google DeepMind 联合创始人兼首席执行官 Demis Hassabis 乐观地表示,首批 AI 设计的药物可能会在未来几年内准备好进行测试。当然,AlphaFold 还是有局限性的。中国结构生物学家颜宁,曾经在 2022 年回答过关于 AlphaFold 2 会否替代科学家的话题。在 Nav/Cav 方面,AlphaFold 2 依旧停留在他们 2017 年的水平,而在测试新型小分子与蛋白的相互作用时,预测无一正确。颜宁解释,生物结构学不仅仅是关于折叠,更要理解蛋白质的动态变化,理解与其他生物大分子或者调节小分子的相互作用,理解在细胞原位里的状态,因为数据不够,这些都是 AI 还无能为力的领域。如今,AlphaFold 3 在 AlphaFold 2 的不足之处,迈出了一大步,让我们看到了预测不同生物分子相互作用的可能性,但它仍然是专注于分子结构的静态预测,有时还会产生幻觉。之前在接受采访时,Demis Hassabis 批评了 AI 的炒作现象。他认为,AI 应该被作为「科学的终极工具」,比如预测蛋白质结构的 AlphaFold 模型,人类即将迎来科学发现的新文艺复兴。英雄所见略同,英伟达的黄仁勋,也很看好医疗和生物技术的 AI 赛道,在 2024 年 GTC AI 大会上介绍了不少 AI 医疗服务,并与强生等公司在手术和医学成像领域达成了合作。Sora 模拟物理世界,而 AlphaFold 3 更让我们了解生物世界,回归了我们对 AI 最初的期待——加速科学发现,推动人类进步,理解生命本身。虽然 AGI 还远在天边,文字、图片、视频、蛋白质分子,彼此不同,却又相互呼应。AI 确实已经如此强大,也与日常生活越来越紧密相关,我们可以期待,每天都有更多的创新出现,也有更多的谜团被解开。微信扫码关注该文公众号作者戳这里提交新闻线索和高质量文章给我们。来源: qq点击查看作者最近其他文章