AI 助力微软发现电池新材料,是时候重新认识AI for Sceince | 亮马桥会客室
近日,微软对外宣布称微软量子计算团队与美国太平洋西北国家实验室(PNNL)合作,利用Azure Quantum Elements,发现一种新型电池材料,应用在电池中,最多可以减少 70% 的锂金属使用量。
值得注意的是,AI仅在80小时内就完成了3200 万种潜在材料的筛选了,将名单缩小到 23 种,其中 5 种是已知材料。该团队表示如果使用传统方法获取这些材料,这个过程将耗时二十多年。
事实上,在过去的一年中,AI for Science取得的成果就得到各方关注。人类文明发展至今,材料、能源等重要工业门类的研发范式基本上没有新变化。AI制药加速新药研发,电池自动化设计平台推动“超级电池”诞生的可能,新材料的横空出世“随时可期”……
OMEGA学员企业深势科技基于在AI for Science领域的深耕,推出了多模态科学文献大模型Uni-Finder,重新定义智能化文献阅读,为后续尖端研究、科学探索、工业应用、产业链接等提供了更有效的突破工具和思路,深势科技创始人兼CEO孙伟杰认为:“AI for Science算法的突破,能够转变材料、医药行业的研发模式。”
随着技术不断迭代发展,量变的积累处处可能产生伟大质变,AI for Science也来到了行业的聚光灯下。我们将此前与孙伟杰的访谈对话(内容来自于OMEGA访谈录)重新整理编辑,本文是亮马桥小纪AI系列的第四篇。
先请伟杰介绍一下深势科技。
深势科技是一家致力于用“AI for Science”的新范式,去赋能我们微观尺度的科学研究和工业研发的科技公司。为了方便大家理解我们公司在做的事情,首先我需要解释两个概念:
1. 什么是“AI for Science”?
“AI for Science”即用AI先去解决科学问题,或者说用AI去学习一系列科学原理,然后再进一步去解决这些科学原理/科学问题所对应的工业问题。我们的AI和别人的AI的差异点在于,我们的AI学习的是一切的科学规律,而别人的AI可能学习的是语言/图片这些数据。
2. 为何要解决微观尺度的科研和工业研发的问题?
微观尺度就是我们关心的像电子、原子、分子这个物理尺度上,现在大家关心的像生物医药、新材料、新能源,主要的瓶颈问题可能是在微观层面。怎样设计一个有效的微观分子结构、一个材料的结构,它就能达到我们在药物和材料这些领域里面所关心的这样的性质/性能,所以我们更多是来解决这个领域里的问题。
我们做药物,本质上研究的是一个药物分子和蛋白质之间的相互作用,它本质上是分子层面的,这些层面的研究都是需要深入到微观层面,在过去,这里面面临着很大的瓶颈,而如今我们可以用“AI for Science”的方法去解决这些瓶颈。
为什么深势一开始切入的方向是药物研究赛道?
这其实是我们在创业早期做的一个比较重要的决定。起初我们关注了制药行业里一些微观领域的问题,都源于没有太好的计算方法,使得我们的研发手段就是靠大量实验,而张林峰当时恰好在学术界做出了一个非常大的系统性突破,即用AI去求解微观粒子之间的相互作用,这就给整个微观领域带来了底层突破,也给上面的材料、药物带来了系统性的机会。
我们之所以在当时率先选择药物,主要有三点原因:第一,我们从整个前沿科技创业的角度出发,看什么样的落地方式适合前沿科技创业,最关键的是它的验证链条要足够短;第二,解决这个问题对于行业来说很重要;第三,这个行业有付费能力、付费意愿。
我们还对比了药物研发和材料研发这两个产业链的差异,发现药物研发的上下游产业分工非常精细,基本上每一个环节都能够被独立出来,有着相对独立的研发目标和验证体系。所以说药物行业能产生大量的CRO,每个CRO可能就负责一个环节上的事情,上下游研发被标准化地抽象定义出来了,它就能做得很好。
反观材料领域就并非如此,我们现在没有听说哪家材料的CRO做得特别大,更别说这种非常清晰的产业分工了。我们一个前沿算法想要做出来,我们去哪验证,一个老师可能把我们的东西做个实验,得到验证之后做更进一步的验证,难道我们要等10年之后这个东西出结果吗?这样就没有把一个完整链条拆解成逐步验证的机会。所以可能在我们做早期算法的时候,它就比较困难,因为得到反馈的周期太长了。我们也给自己的创业设立了两个标准,什么事情让我们肯花10年去做,以及敢砸10亿去做,所以这个方向从各个维度都是我们心甘情愿真正想去做的。
“AI for Science” 作为一个看起来非常庞大的版图里的一个创业方向,其实需要的要素是相当多的,包括模型、算法、数据、算力等等,甚至对于交叉学科的人才缺一不可,那么您觉得今天的深势都具备这些要素了吗?您理想中的深势又应该是什么样的?
这些肯定是都具备了,但是永远不足够,因为这些优秀要素肯定是越多越好。创业公司永远需要更多资源来完成更多事情,没有哪一家公司敢说自己资源现在就够用了。
关于“AI for Science”,简而言之就是解决两类问题、满足两类目的,即2×2的一个矩阵。什么是两类问题?一个是物理问题,一个是数据问题。什么是两类目的?一类是扩充人类认知边界,一类是扩充人类生产边界。
物理问题就是我们通过求解一个物理模型,可以精准地算出来这个东西未来的现象,把它还原成一个准确的物理机制。比如有了牛顿力学之后就可以精准地求出行星围绕着太阳自转,再比如我们现在在做的材料药物的性质,本质上可以通过像量子力学、分子动力学这样的方法,算出来电子、原子、分子之间复杂的相互作用,从而来预测出这个材料的各种各样的性质,这些都是物理问题。物理问题的复杂性在于物理规律都放在那,但是现实世界很复杂,我们想要在复杂状态下求解它底层的物理方程,阻力往往是因为我们算得太慢了,于是我们就用AI去加速物理方程的求解,而目前的主要障碍就是算法。
第二类数据问题,有很多问题,我们还不知道它底层的物理机制,所以我们只能收集大量数据(可能是实验数据,也可能是观测数据),从中抽离出更多规律,其实这本质上就是AI的一种作用。AI在复杂数据中的归纳能力更强,可以拟合任意一个复杂方程,对于这种数据问题,AI可以帮助人类去透过现象看到底层的规律是什么,但是现在还在发展过程中。
最后服务于两个目的,第一,帮助我们发现更多新科学,那些我们过去还无法用科学规律来解释的现象,现在在AI驱动的物理模型和AI驱动的科学数据处理下,真的能发现并解释背后的作用机制了;第二,帮助科学落地,我们有一些科学上的新发现,通过我们“AI for Science”的方法,迅速地转化成一个软件产品,甚至是一个新的材料、新的药物,那它就能服务于我们的社会生产,拓宽我们的生产力边界,所以说这就是“AI for Science”。
在全球“AI for Science”领域上,深势科技的竞争力如何?
其实在我们刚创业时,美国的研究环境比中国要好,但是最近几年我们在“AI for Science”环境的打造和技术的提升上突飞猛进,甚至后来居上。这几年无论是我们还是其他友商甚至相关专业的在校师生,都把“AI for Science”作为很高优先级在推进,所以国内也形成了非常好的“AI for Science”的学术共同体。各行各业层出不穷的AI拓展都给底层算力增强、应用能力提升提供了很好的市场和土壤,使得国内在“AI for Science”算法引擎方面处于引领地位。
在生物医药的具体领域,深势是有创新和突破的,拥有实实在在的落地成果,RiDymo™强化动力学平台和Hermite®就是深势的左膀右臂。RiDymo™强化动力学平台基于Reinforced dynamics(RiD)算法开发,专注于解决“难成药”靶点,它的核心优势在于能够大幅提升模拟采样效率。Hermite®是药物计算设计平台,具有里程碑式意义,它基于人工智能、物理建模和高性能计算,能够为药物研发工作者提供一站式解决方案。除了提供基础算力服务,Hermite®平台还与多家超算和云资源服务厂商达成合作,最大化利用弹性算力优势,如此一来,广大药物研发科学家们就能够借助平台提高药物研发时的计算效率。
其实深势也有部分开源,您觉得开源对深势有什么样的影响?
我们底层的算法是开源的,但是我们上面的科研软件和工业软件不是开源的。我觉得开源的本质是优秀开发者的团结,对于我们这个领域而言,真正稀缺的是优秀的开发者,至少从长期来看壁垒是这样的。如果我们能够在生态位上,把全球在“AI for Science”领域最优秀的开发者,都团结到我们的DeepModeling开源社区里来,那么我们就能保持长期的软件迭代,保持我们在全球生态里面的主导地位。反之,如果我们不开源,比如Google、微软开源了,那么优秀的开发者都会去他们那,那么我们本质上的优势就丧失了。所以开源其实是一个对于长期产品迭代的主动选择,当然也是对整个社区引领能力的信心。
至于给深势带来的影响,第一,产品软件得到了快速迭代,因为开源是一个去中心化的评审和开发的体系,能够帮助我们快速发现这个软件哪里有bug,哪里需要增添新功能;第二,帮助产品快速实现场景发现,我们后面创业有很多意想不到的方向,也有很多我们提前想到但是不知道怎么做的方向,而开源社区里很多我们的用户拿它来做电池,做半导体的计算和研发,也给了我们启示,发现重要方向;第三,帮助公司精准发现人才,开源社区给我们提供了现成的人才,他们的专业能力和知识水平是经过整个开源社区开发者的检验的。总而言之,我觉得整个开源社区确实在底层给我们提供了很好的生态和很强的生产要素的驱动力。
现在国内有相应竞品吗?或者世界范围内有哪家机构在做同样的事情?
我觉得最值得提的还是Google旗下的DeepMind,还有微软下面的AI4Science的center。
假如有一天Google/微软看中你们团队,愿出高价收购深势,那您是倾向独立发展,还是愿意打破商业上的这种EGO,去跟他一起成为一个公司去发展?
我觉得更本质的思考是,哪种形式更加有利于这件事物的发展。在当下的局面,可能我们很难做出这样的判断,如果这件事情发生在那样的历史阶段下,我们可能会做出更准确的判断。
我们可能有时无法打破客观的限制,但是我们总会在一些限制的约束下,去选择一种最能尊重这个事物客观生命力的方式。我觉得一个事物的发生,可能我们都太高估了我们几个个体在其中的作用,我和张林峰共同认为这件事情非常重要,但是功成不必在我,功成必定有我。
国产工业软件发展上目前存在哪些痛点?
其实工业软件的切换壁垒还是比较高的,粘性也比较高,所有我们研发的数据、工作的流程,包括我们使用人员的习惯都已经养成了,那么就会形成自己的市场,别人很难分一杯羹。至于付费能力的高低,一要看痛点够不够痛,二要看痛点上有没有其他替代方案。刚好工业软件本身就面临着一个天然的瓶颈,就是面向客户推广时缺乏案例,所以一开始想要获取客户的信任和采纳会比较困难。
您觉得AI会让很多人失业吗?
其实我的AI世界观是,AI存在的意义和目的从来不是替代人,AI只是一件工具,真正的替代过程,是会用AI的人替代不会使用AI的人。所以归根到底,是否被替代还是得看我们人自身的能力边界。就好比打字机出现以后,笔也并未被淘汰,而以前代笔写信的人也并非没有用武之地,他们应该去做更有价值的事情。我觉得最终所有人类都是去追求如何去拓展人类的认知边界、能力边界、生产边界,让更多人有机会去做科学研究,去做艺术创作,去做工程的开发和优化。
您如何看待AI大模型的工业应用场景的未来?
像ChatGPT这样的产品形式是非常巧妙的,它从原始创新到大规模落地的速度非常高效率,因为它从一开始就已经被计划好它的产品使用形式,我们深势也是从一开始涉足“AI for Science”领域就已经构思好了使用场景和使用目的。先前我们和北京科学智能研究院(AISI)还有项目合作者共同发布了“DPA-1”,它是首个覆盖元素周期表近70种元素的深度势能原子间势函数预训练模型,在模型覆盖范围、通用性、计算精度,以及未来的AI生成等方面实现了新突破,在实现“AI for Science”走向大规模应用的目标上迈出一大步,具有里程碑意义。我们要尊重和拥抱AI,顺应AI的发展规律,并且借助AI的力量去打破我们其他技术侧和产业侧的瓶颈,能够让AI更好地为人类服务。所以我相信未来AI大模型能够在工业应用场景中发挥更大作用。
生成式AI的爆火,有给同在AI领域的深势带来什么影响吗?
像ChatGPT这类AI大模型,也可以运用于我们科学研究的领域。好比GPT模型的强大信息检索处理能力,以及文本生成能力,我们都是可以利用的,我们在科学研究中的那些涉及过往科研成果整理和检索的环节,就可以交给GPT去做,能够大大提高效率。对于深势来说,效率就是第一生产力,无论哪个环节实现了缩短时间,最终都能够达到缩短研发制药时间的目的。况且生成式AI的爆火有助于提高大众对AI的认识,让更多人了解AI的能力和作用,这对于深势在做事情的解读和宣传都是大有裨益的。
微信扫码关注该文公众号作者