黄仁勋看好的下一个万亿美元AI赛道是什么？ |【经纬低调研究】

2024-05-09 04:05

如果要问AI的下一个黄金赛道是什么？黄仁勋的答案是生命科学。

他在很多场合明确表达了这个观点，比如在一场“世界政府峰会”的会议中，他说：“每个人都要学习电脑的时代已经结束了，未来的世界应该是生物学。”

在另一场会议的问答环节中，他说如果有重来一次的机会，他会首先考虑生物学，特别是和人类相关的生物学。

不仅仅是黄仁勋这么说，英伟达对外投资也证明了这一点。近两年，英伟达近乎疯狂地在医疗和药物发现领域投资，已投资了超过十几家初创公司。

据WSJ报道，Moon Surgical是一家利用AI改进腹腔镜手术的法国创业公司，其首席执行官Anne Osdoit说，她的公司大约在三年前就开始与英伟达合作，当时该公司正在为生命科学领域开发芯片。她说，这种合作关系最终促成了投资，英伟达还帮助公司解决了有关手术机器人的技术监管担忧。“英伟达非常务实，直接说‘嘿，告诉我们你需要什么’。”

英伟达医疗保健副总裁Kimberly Powell甚至直言：“既然计算机辅助设计行业捧出了第一家2万亿美元市值的芯片公司，计算机辅助药物发现行业，为什么不能打造下一个价值万亿美元的药物公司呢？”

在今年英伟达GTC大会上，与医疗保健/生命科学相关的活动将达90 场，也突显了英伟达对生命科学领域的重视。“我们是相当内行的投资者。”今年1月，黄仁勋在一场摩根大通医疗健康会议上说，“如果你在计算或AI方面有困难，请给我们发邮件，我们随时为你服务。”

英伟达的对外投资中，医疗保健和生物技术类非常多

创新药研发一直都费时费力，业界有一个著名的“双十定律”，即研发一款新药需要10年时间、10亿美元，并且成功率也只有10%。所以哪怕是微小的改进，也将价值连城。

科学家们一直在努力用传统的统计工具，来尝试改进效率，机器学习使筛选成堆的信息成为可能。比如谷歌DeepMind曾利用其AlphaFold系统，来预测蛋白质结构。这项技术的最新进展出现在5月8日的《自然》杂志，新推出的AlphaFold 3不仅能够模拟蛋白质与其他分子的相互作用，还能准确预测包括DNA、RNA、配体等生物分子结构以及它们如何相互作用，这项技术能改变我们对生物世界和药物发现的理解。

下面我们来看看 AlphaFold 3 令人兴奋的一些预测结果:

7PNM - 一种普通感冒病毒的突起蛋白（冠状病毒OC43）：随着病毒蛋白（蓝色部分）与抗体（绿色）和单糖（黄色）相互作用，AlphaFold 3对7PNM的预测结果与真实结构（灰色）完全吻合。这能够增进我们对这种免疫系统过程的了解，有助于更好地理解冠状病毒，包括COVID-19，从而提高改进治疗的可能性。

8AW3 - RNA修饰蛋白：AlphaFold 3 预测的由蛋白质（蓝色）、一条 RNA 链（紫色）和两个离子（黄色）组成的分子复合物与真实结构（灰色）非常吻合。这个复合体参与了其他蛋白质的生成，这是一个对生命和健康至关重要的细胞过程。

7R6R - DNA结合蛋白：AlphaFold 3 预测的蛋白质（蓝色）与 DNA 双螺旋（粉色）结合的分子复合物，其预测结果与通过复杂实验得到的真实分子结构（灰色）几乎完全吻合

图片来源：Google DeepMind

虽然迄今为止只有十几种药物在研发过程中使用了人工智能技术，但这一数字在未来可能会迅速增长，未来的药物研发会越来越像一个计算问题。当数据科学、人工智能和自动化相结合时，生物学将变得工程化，有可能出现指数型改进。

AI 将改变药物发现过程的每一步，虽然它可能是一种渐进式的改进——这里提升10%，那里20%、30%，但最终将所有这些改进相乘，速度和成功率就可以提高两到三倍。

今天这篇文章，我们就来聊聊AI在制药方面到底能做什么？最大的瓶颈——数据，会带来哪些问题？以及AI制药更可能会是一种渐进式的变革，而非突变式……Enjoy：

AI在制药方面到底能做什么？
但为什么现在还没有获批药物，是通过AI方式做出来的？

AI在制药方面到底能做什么？

我们先说一个真实案例。

几年前，在奥利地维也纳医科大学，一名82岁的病人（保罗）患有一种侵袭性血癌，他已经做了六个疗程的化疗，但都未能根治。在这个漫长且痛苦的治疗过程中，医生不得不把那些常用的抗癌药一个一个划掉，因为它们都没有起到作用。

最终，保罗参与了一项药物试验，一家英国公司Exscientia正在开发一种新型的配对技术，能根据不同患者的细微生理差异，为他们配对所需的精确药物。

研究人员从保罗身上提取了一小块组织样本，将包括正常细胞和癌细胞在内的样本分成一百多块，并将它们暴露在不同的药物组合中。然后，他们利用机器自动化和计算机视觉，这是一种经过训练的机器学习模型，可识别及预测细胞中的微小变化。

实验证明，有些药物不能杀死保罗的癌细胞，有些药物反而损害了他的健康细胞。最终，这项技术找到了一款抗癌药物，而此前保罗的医生没有尝试过它，因为往期的试验表明，这种药物对治疗这种类型的癌症无效。

最终这款药物成功了。两年后，保罗的病情完全缓解，他的癌症消失了。而如果采用传统的办法，实验的速度和规模不可能这么快。

当然，在这个已经成功的案例里，机器学习只做到了筛选出正确的药物，这也只是这家英国公司Exscientia的一个小目标，真正的目标是彻底改变整个药物开发流程，利用人工智能技术设计新药。

但这个目标还未实现，这是目前整个生命科学界和AI界都在探索的方向。我们希望通过AI和数据驱动的方法，注入更强算力，来提高药物研发中的成功率。

我们先来看看研发一款新药（这里主要指小分子药物）的基本步骤是什么，再来说AI能切入哪些环节。首先，研发人员需要在人体内选择一个药物会与之发生作用的靶点，例如蛋白质；然后设计一种分子，对该靶点起作用，比如改变它的工作方式或让它停止工作。接下来，在实验室中制造出这种分子，并检查它是否真的起了作用，并且这个作用是设计所需的作用，而不是其他作用。最后，在人体中进行测试，看它是否安全有效。

几十年来，研发人员们筛选候选小分子药物的方法是，将所需靶点的样本放入实验室的许多小格子中，加入不同的分子，观察反应。然后多次重复这一过程，调整候选药物分子的结构，比如把这个原子换成那个原子，如此反复，这里面依赖的都是研发人员的经验和直觉。

但从实验室到人体并不容易，许多药物分子在实验室中似乎很有效，但最终在人体中进行试验时却失败了。所以这里面需要大量修改的工作，比如脂溶性不好，就需要修改与脂溶性相关的地方；如果有毒副作用，就需要修改相应的地方克服掉。

新药研发其实就是一个不断迭代、修改的过程，最后经过实验验证，走向临床、上市，产生价值。从经验来看，研发人员可能需要设计和测试20种药物，才能最终选出一种有效的药物，这导致研发成本非常之高。

在这个过程中，AI能切入的主要是两个环节：

第一是在最初选择苗头化合物时，就通过AI去筛选。传统方法是依赖于研发人员的经验和直觉，只能在一个几百万级的化合物库中去搜索和筛选。据测算，如果剔除一些非常相似的分子，所有的大型制药公司比如默克、诺华、阿斯利康等等加在一起，最多能有1000万个分子可以用来制造药物，其中有些是专有的，有些是众所周知的。这就是大量化学家在过去百年辛勤工作的总成果。

但自然界中的化合物，或者说成药空间，有10的60次方，我们实际上只是在一个非常小的范围内搜索。如果强算力的AI能够在更大的范围内搜索，那就能大大突破目前的探索空间，找到更合适的成药化合物。

这是人工智能的真正潜力所在——打开一个巨大的生物和化学结构库，这些结构可能成为未来药物的成分。

第二是在对先导化合物的修改时，运用AI技术修改。在选择完苗头化合物后，形成先导化合物，但有很多地方往往需要修改，比如需要把活性修改得更好，或是要把成药性改得更好，这个环节在药企研发中可能占了90%的工作量。

如何修改这些分子呢？由于药物研发已经有了上百年的历史，我们已经记录了很多结构的作用，基于这些再去做创新会容易一些。打个比方，这个过程像是要把一幅画改得更漂亮，但是目前这幅画中的某一部分，已经画得还不错，此前也已经被实验验证过了，那就可以保留，在这个基础上修改。

而经过训练的AI大模型，它可以从数十年间的几百万篇论文和大量档案中挖掘数据，从这些文件中提取出知识图谱——哪些改变会导致什么样的结果，这样的因果链对修改非常重要。

基于这样的数据基础，然后就可以让AI去把其他部分设计出来，让AI发挥想象力。AI往往比人类专家的想象力更加丰富，人类专家往往只能画出几十个分子，而AI生成的数量是没有上限的，只要算力支持。

并且，在修改中需要同时考虑很多影响因素，比如合成性、活性、成药性等等，是一个多重目标的复杂问题。人类专家在处理时，往往是简化，一次只处理一个环节，比如在这个环节只考虑活性，在另外一个环节才去考虑成药性。但AI能够更好地处理多重信息。

拿比较重要的成药性来举例，比如一款口服针对肿瘤的药物，它要想进入体内后可以治愈肿瘤，首先需要经过消化系统，然后进入血液和细胞，这个是吸收、代谢的过程；其次药效需要持续一段时间，并且不能有毒副作用。这些性质统称为成药性，是药物研发中很重要的因素。

以往研发人员主要依赖实验验证，这就导致有可能在之前的研发环节花了很多钱，做了很长时间，好不容易发现了一个有效分子，但在成药性验证上出了问题，而导致重新做或是放弃，这就造成了“双十原则”。

如今则可以通过AI+专家经验+自动化实验的方式，通过AI提升预测的准确率和设计出更结构新颖、性质更好的分子，来提升整体成功率。有研发人员将药物和蛋白质在体内的相互作用，视为一个物理问题，模拟原子间的推拉作用，而这种推拉作用会影响分子如何结合在一起，利用人工智能更准确地模拟分子之间的相互作用。

生成式AI对生命科学各环节的作用及经济价值推动；图片来源：麦肯锡

但为什么现在还没有获批药物，是通过AI方式做出来的？

不过，与AI制药伟大潜力相对应的是一个冰冷的事实，目前还没有任何一款获批的药物，是通过AI的方式做出来的。

“如果有人告诉你，他们可以完美预测哪种药物分子可以通过肠道或不被肝脏分解，诸如此类，那么他们很可能也有火星上的土地要卖给你。"MIT Review曾经采访了一位该领域的专业人士。

如今横在AI制药技术面前最大的难题是数据，由于生命科学领域的数据非常不标准化，特别是在实验领域，经常会出现A实验室做出来的实验，与B实验室做出来的实验压根没有可比性。该领域甚至有一个常用语——“Apple to Apple”或者“head to head”，来特别强调可比性。

一旦涉及对真实世界的数据采集，最大的问题就是如何采集足够多的数据维度。不管是研究细胞还是研究人、动物，一般在传统生物学、医学的视角里，采集的都是单点数据，比如这只猴子是胖还是瘦、这个细胞是增殖还是死亡，但这些维度过于单一，对胖瘦、增殖还是死亡的影响因素其实非常多，如果我们缺乏足够多的观察手段，以及不能形成多维度、结构化的数据，那么对AI进行的训练也就会大打折扣。

以及这些数据从哪里来？并不一定是大型药企，因为以前的数据记录方式不一定能复用。曾经在自动驾驶领域就有一个经典例子：当我们去寻找可供模型训练的数据时，很多人最初找到出租车公司，因为出租车都配有行车记录仪，理论上应该有很多自动驾驶的数据。但实际上大家发现不行，因为出租车缺乏多维度的数据记录，虽然行车记录仪的数据有很多，但并不知道当某个路况发生时，司机做出了什么动作，比如怎么打方向盘、什么时候踩了刹车，原来的行车记录仪并没有足够的传感器去记录这些内容。所以现在的自动驾驶公司，为了采集多维度的数据，都必须在测试车里加装很多传感器。

如今在生命科学领域也一样，虽然不一定要完全从零开始，但目前的行业数据库肯定是不够的，需要加入各种新维度，包括加标准、加定义、加新的“传感器”等等，需要围绕AI训练所需，把各种维度补全，才能够有训练好AI的基础。

而如果从AI大模型scaling law的角度，现在还没有人知道一个足够智能的生命科学大模型，到底在哪个范畴上才能够达到涌现？在没有足够高质量的数据、没有达到scaling law生效前所做出来的AI，归根结底可能只是overfitting（拟合过度），还无法达到真正的突破。至于这个scaling law的突破点在哪里？仍然还处于探索中。

除了数据原因之外，另一大原因是AI也不是万能的，无论研发环节多么先进，药物仍然需要进行人体临床试验。任何药物研发的最后阶段，都需要招募大量志愿者，这很需要时间，平均约10年。许多药物需要花费数年时间才能进入这一阶段，但仍然以失败告终。

虽然有很多AI制药公司都在加班加点地研发，但这些实验室中的实验和人体临床试验无法被缩短，所以第一批在人工智能帮助下设计的药物，可能还需要几年时间才能上市。

当然，虽然AI无法加快临床试验的进程，但它确实可以帮助制药公司减少试错成本，也就是减少在实验室中测试无效药物分子所花费的时间，让有希望的候选药物更快进入临床试验阶段。而且，由于资金投入的减少，公司可能不会感到那么大的放弃压力，而坚持想碰碰运气。

如今正有越来越多的由AI辅助的药物管线出现。根据智药局统计，AI辅助的临床管线已经从2022年的50条，增长到当前的102条，这还仅仅是统计的AI制药公司的管线情况。

一级市场的资金也正在往该领域聚集。比如在上个月，生物技术领域最大的投资机构ARCH Venture Partners，做出了有史以来最大的一笔投资，单笔领投了2亿美元，投资于AI+医疗创业公司Xaira。这家成立仅一年的创业公司，在种子轮就拿了10亿美金，目标是利用 AI 来重塑药物的研发、寻找治疗疾病的新药。

英伟达对Biotech的投资

当我们在讨论AI制药的未来时，它更像是一场渐进式的变革，而非突进式的变革。

这一轮AI热潮与此前计算机辅助制药最大的不同在于，算力和算法已经得到了显著提升，相比之前已经产生了代际差异，这为药物发现和设计提供了前所未有的精确度和效率。

由于数据问题，以及AI无法触达的临床试验等耗时环节，至今仍未有获批药物是通过AI方式做出来的。但AI制药的真正价值，可能不在于它能够立即创造出超越现有药物的奇迹，而在于作为一种工具，能够系统性地解决以往难以解决的问题。这种系统性的解决方案，而不是偶发性的一两次成功，如果能够实现，将是对传统制药方法的一次重大突破，有可能带来制药行业的革命。

最新的研究里程碑也证明了这一点。华盛顿大学生物化学教授David Baker的研究团队，首次利用AI技术从零开始设计出了一种新型抗体，将抗体疗法推向了一个全新的高度。虽然尚未达到人类设计的顶尖水平，但已经证明了AI设计的蛋白质是可行的，这为未来的发展奠定了基础。

最后，如果我们用一句话总结：“AI在大分子领域的潜力值得期待，但这个积极乐观可能不是在一个2-3年的时间周期里，而是更长的、渐进式的发展周期里。”在古代，药物发现纯粹靠运气；在近代，药物发现依赖经验和直觉；在未来，AI技术料将大大加速这一进程——这里提升10%，那里20%、30%，最终将所有这些改进相乘，速度和成功率就可以提高两到三倍。

References：

1. EndPoints：Cash, chips and talent: Inside Nvidia's plan to dominate biotech's AI revolution

2. 国联证券：医疗AI赋能医药产业新发展

3. The Economist：Big pharma is warming to the potential of AI

4. MIT Review：AI is dreaming up drugs that no one has ever seen. Now we’ve got to see if they work.

5. Reuters：Big Pharma bets on AI to speed up clinical trials

也许你还想看: