百奥几何唐建:如何搭建生命科学领域的“ChatGPT” | 高榕未来
生成式人工智能,尤其是OpenAI的ChatGPT在近期引发热议。与此同时,一场名为“AI for Science”的科技革命正在各个基础科学领域发生,其中就有一批科学家在思考:AI for Science和ChatGPT,是否会成为生物医药跨越式发展的契机?
近期,百奥几何创始人、加拿大蒙特利尔大学算法研究所(Mila)副教授、终身教授唐建博士,在未来科学论坛分享了生成式人工智能在生命科学中的构想和尝试,并试图回答:是否有可能在这一领域搭建类似ChatGPT的模型?
唐建博士是国际上最早把深度学习运用于图结构数据的少数几名学者之一。早在2018年,他在图表示学习研究中意识到,最杀手级的应用或将诞生在生物医药领域。
2021年,唐建博士创立百奥几何,致力于开发几何深度学习、深度生成模型等下一代人工智能技术,用于大分子药物研发,“我们的长期愿景是开发可编程的大分子药物。”高榕资本于2022年投资了百奥几何千万美元天使轮。
以下是唐建博士的分享(经编辑整理):
今天我们正处在做研究最好的时代,因为正同时经历着人工智能与生物技术双重技术革命。
首先,近十年人工智能一直在快速发展,从2012年ImageNet技术突破开始,这期间有许多重要的技术革命。此后则陆续出现以AlphaGo为代表的强化学习;近两年快速发展的生成式模型,如GPT-3、ChatGPT这类大规模语言模型,DALLE-2、Stable Diffusion等扩散生成模型;图表示学习、几何深度学习的进展也卓有成效,其中最为经典的就是AlphaFold2蛋白质结构预测模型。
与此同时,生物领域的数据正快速增长,并且增长的速度高于摩尔定律。首先,高通量的基因合成、基因编辑、基因测序让我们获得大量的序列数据,例如蛋白质序列数据库UniProt。此外,基于高通量湿实验平台,能够对AI设计的蛋白质或抗体序列进行测序,获得活性的实验数据。还包括以冷冻电镜为代表的结构解析技术,特别是结合AI之后,能够快速解析蛋白质的结构和功能,今天PDB(国际蛋白质结构数据库)里有几十万的数据集,这也是AlphaFold2成功非常重要的原因。
大家热议的生成式人工智能最核心的思想是什么?本质是基于互联网上大量的文本、图像、代码数据进行训练,生成全新且逼真的文本、图像以及代码。
以ChatGPT为例,它的每次回答都是AI全新生成的文本。训练过程主要分为三步:
第一步是大规模预训练语言模型,基于互联网海量文本及代码数据进行预训练,让模型理解文本及代码;
第二步是通过标签数据进一步优化模型,如提供特定场景人类的问答数据,让它能够进行对话任务;
第三步是让模型和人进行交互,根据反馈不断迭代,本质上是强化学习的过程,让模型越来越intelligent。
将ChatGPT的核心理念代入生物医药领域,可以发现:ChatGPT预训练需要大量的数据,今天我们已经拥有大量的蛋白质序列、抗体序列和结构数据,足以用来预训练一个蛋白质生成式模型;ChatGPT通过与人类的交互优化模型,生物医药领域的模型则可以和湿实验平台交互获得反馈,例如将生成的蛋白质序列在湿实验平台合成、表达、提纯、测试,获得活性和功能数据,这些反馈数据帮助进一步优化模型。
因此,一个令人十分兴奋的机会呈现在我们面前:生成式人工智能在药物发现、特别是蛋白质设计领域拥有巨大的潜力,完全有潜力开发类似ChatGPT的生成式模型,创造和生成全新的蛋白质和分子,帮助我们找到更好的药物。
举个例子,未来我们想设计一个抗体,通过生成式模型的过程可能是这样的:ChatGPT用户提出query,这里的query可以是抗原的序列和结构;AI模型也会提供一个答案——AI生成的抗体序列;之后通过在湿实验平台对序列进行测试得到反馈、回到AI模型,几轮交互之后有可能找到我们想要的分子。
截至目前,百奥几何围绕生成式AI在生物医药领域的应用,已经做了一些探索,囊括小分子三维结构预测和大分子蛋白质设计等方面的任务。
应用1:分子三维构象预测
在小分子的三维结构预测上,我们主要基于扩散生成模型(GeoDiff)对其进行建模。
近期大火的AI作画工具,背后就是扩散生成模型,其工作原理是学习由于噪声引起的信息衰减,然后使用学习到的模式来生成图像。
我们也把分子三维构象预测问题建模成一个扩散过程,包括前向过程,即加噪音,把分子图结构中的原子坐标进行多步随机扰动,将分子构象退化成随机过程;再通过生成过程,即去噪,最终获得一个稳定的分子结构。
这一模型最重要的就是去噪网络,原理是神经网络去学习作用在每个原子上的力(Force Field),以此调整原子的位置、逐步收敛到稳定的结构。由于原子上的力旋转、平移具有等变性,即旋转输入的结构、作用在原子上的力也要做对应的旋转,因此我们的神经网络经过特殊设计,确保生成过程旋转、平移等价。
下图可以看到,一个分子如何从每个原子位置随机初始化,最后收敛到比较稳定的结构。
应用2:蛋白质-配体复合物结构预测
除了预测分子三维构象,我们进一步拓展到复合物结构的预测,例如蛋白质-配体结构。通过输入蛋白质三维结构和配体分子图结构,去预测复合物结构。
我们同样开发扩散生成模型,包含编码器和解码器框架。编码器(encoder)首先对分子图、蛋白质以及他们的相互作用进行encoding,得到他们的几何约束条件;解码器(decoder)核心也是去噪网络,经过多轮优化,推断获得一个稳定的复合物结构。
下图示例中,绿色区域是蛋白质三维结构,粉色是模型预测的配体结构变化,初始结构同样是随机的,经过多轮优化、最终收敛到ground truth位置(灰色)。过程中也是每一步做去噪、学习力场,通过力场去调整原子的位置。目前模型预测的结果对比传统方法,准确性已经有比较大的提升。
应用3:大分子蛋白质设计
近期百奥几何着手基于扩散生成模型进行大分子蛋白质设计,锚定蛋白质从头设计,即设计全新的蛋白质结构和序列。
在蛋白质从头设计方面,华盛顿大学David Baker Group在2022年发布的RFdiffusion算法比较有代表性,其基于PDB结构数据进行训练,随后分为两阶段算法——先生成新的结构,再基于结构通过序列设计模型完成蛋白质序列的设计。目前这一算法已经对很多靶点进行了序列设计,对比传统物理算法成功率已经有比较大的提升。
2022年,百奥几何推出一种新的扩散生成模型(ProtSeed),同时生成新的蛋白质结构和序列。
首先输入蛋白质结构、序列以及其他context信息(如靶点结构、二级结构),模型输出更新后的结构、序列等信息,同样通过去噪网络不断优化,最后找到一个相对理想的蛋白质结构和序列。
基于这一模型,我们已经有一些设计样例。例如抗体CDR Loop设计,利用模型生成的CDR Loop结构以及序列,和自然界中真实存在的抗体差距很小,说明模型已经基本可以还原自然界存在的抗体。
通过模型,我们还尝试设计了不同大小的β桶状蛋白、指定个数α螺旋跨膜蛋白。
应用4:抗体优化与设计
我们也将生成式模型应用在抗体优化上。很多抗体源于实验中发现,但有些抗体亲和力不够好,需要对抗体进行一些突变、去优化亲和力。
我们同样搭建了一个模型。首先基于大量蛋白质序列和蛋白质复合物结构,对生成模型预训练,让其理解蛋白质与蛋白质是怎样结合的;此后通过有监督学习Finetuning,给到蛋白质-蛋白质突变数据集,获得抗体优化模型,实现AI设计新的抗体序列;再通过湿实验反馈抗体亲和力数据,并返回AI模型做新一轮的抗体序列设计。多轮之后,就可以找到比较理想的抗体序列。
此前我们与复旦大学合作,对CR3022新冠抗体做优化,通过AI模型进行两轮迭代,就获得了比较理想的新的抗体分子,这一分子进行了三个突变,亲和力有了较大提升。
基于生成式模型和几何深度学习模型,百奥几何目前已经搭建了一整套抗体从头设计和优化平台。给定抗原序列(或者结构)以及结合表位,在不需要提供任何数据的情况下,该平台可以设计大量的高质量抗体序列,并且进一步利用自研高通量抗体湿实验验证平台进行交互迭代。目前,百奥几何已经与多家生物医药公司在多个靶点上建立了抗体发现合作。
未来,我们也特别期待,有更大的社区和平台一同推动AI For Science或者AI在生物医药领域的发展,因此百奥几何联合英伟达、英特尔、IBM等公司联合发布了首个针对大分子药物研发的开源机器学习平台TorchProtein。该平台开源了深度学习对大分子建模的一个通用框架、基于蛋白质三维几何结构的第一个预训练大模型,以及专门用于评价深度学习对蛋白质建模效果的标准数据集。
微信扫码关注该文公众号作者