从新药研发到探索新材料，AI能在微观世界做什么？我们与深势科技创始人孙伟杰聊了聊

2023-08-04 04:08

随着闭源和开源模型的快速迭代，人工智能正逐渐从“轻应用”，开始渗透进各行各业的业务环节。而在科学研发领域，特别是新药与新材料领域，作用尤其明显。

人工智能的进步，本质是在算力和数据基础之上，算法对高维函数处理能力的突破。一旦突破了这个天花板，人工智能也将是驱散各领域“维度灾难”的法宝，AI for Science（AI4S）会成为下一个主战场，它将极大地拓展科学的边界。

具体来说，AI4S将赋能技术和工业的方方面面，帮助我们加快走完科学研究和技术创新之间的“最后一公里”，发现事物背后的关键规律。比如用人工智能求解薛定谔方程、求解控制论方程、加速分子模拟、预测蛋白结构、赋能药物和材料设计……

在AI for Science的大趋势中，深势科技致力于运用人工智能和分子模拟算法，来解决微观尺度的分子模拟问题，为生物医药、能源、材料和信息科学与工程等领域研发出多种人工智能产品。用一句话来说，就是把人工智能的能力，用在（微观）科学领域。

本篇文章是我们对深势科技创始人兼CEO孙伟杰的访谈。深势科技曾联合北京科学智能研究院，发布了自然科学领域的大规模预训练模型—— DPA-1。

孙伟杰毕业于北京大学，他还是北京科学智能研究院战略发展顾问，在分子动力学模拟、人工智能等领域有丰富的研究经验。并曾以投资人的身份活跃在科技、教育等行业。

我们在这篇文章中，主要讨论了：如何理解“AI for Science”；如何看待ChatGPT等生成式大模型所产生的影响；对于新药研发、新材料研发，当深入到微观尺度，人工智能会带来哪些改变……

1

如何理解“AI for Science”？
生成式大模型带来了哪些影响？

经纬：将人工智能技术应用到科学研究，去解决当前科学的未解问题，可能是下一个重点，能够突破“维度灾难”问题。对于“AI for Science”这个概念，可否用更通俗的语言，来给大家解释一下它意味着什么？

孙伟杰：用最简单的一句话来说，就是我们尝试用人工智能来学习宇宙运行最基本的科学原理，再进一步去预测世间万物，尤其是自然界或者客观物质世界未来的现象和变化。

现在很火的GPT / stable diffusion ，本质上它是在学习我们生活中的语言、文字、图片等等信息，从信息里面抽取出背后的一些知识。如果说GPT是一个通识的文科生，“AI for Science”就更像是一个理科生，它可以求解一系列复杂的物理方程，推演微观层面电子、原子分子的运动和变化，来帮助我们做新药研发、新材料研发等等。

如果再多说一点，从历史来看，自文艺复兴以来，科学研究基本上是按照“开普勒范式”和“牛顿范式”这两种不同的范式展开，开普勒范式是一种数据驱动的研究方式，而牛顿范式是一种基于第一性原理的研究方式。

但当我们希望用这些原理来求解真实场景的复杂物理模型时，就会陷入“维度灾难”，它是指随着维数的增加，求解某些问题的计算代价会呈指数增长。这就导致“我们有了打开科学大门的钥匙，却没有力气去把门推开”。

直到近年来，以机器学习，尤其是深度神经网络为代表的人工智能技术在迅速发展，也为解决“维度灾难”提供了思路。对于大量的高维函数，使用深度神经网络进行逼近时，逼近误差的速率与维数无关。因此，机器学习是处理高维问题的有效工具。我们可以使用机器学习方法处理大量传统科学计算方法无法解决的问题，比如随机控制问题、求解非线性抛物方程问题等。将机器学习方法应用到科学研究中，将有机会系统性解决传统科学研究中遇到的问题，“AI for Science”也就应运而生。

经纬：在去年底ChatGPT等生成式大语言模型出现之前，其实深势就已经在利用机器学习来解决新药研发、新材料等前沿领域的问题了，那今年GPT大模型等产品的火爆，会产生哪些影响？

孙伟杰：我们和GPT正好是两种平行的训练模型，GPT解决的其实是感知和交互问题，对我们之前做的技术主题这部分，其实没有什么影响。我们之前做的机器学习加分子模拟算法，本质上是用人工智能学一些物理方程，加速物理模型推演，包括一些基于三维结构在微观世界对物质性质的预测，这些都恰好是GPT解决不了的问题，所以在这部分影响比较小。

对模型的划分也由模态划分或者由预训练的自变量来划分，我们AI4S的模态可能是三维结构，可能是原子坐标，可能是物体几何，也有可能是其他的东西，所以和GPT的模态不一样，在很多领域上双方没有交集，是平行的。

但是在其他方面，比如科研里面也需要进行大量资料查询、文献综述等等，这些对文字进行处理和交互的动作，有了GPT之后确实会大幅度提升效率。

此外，在一些科研领域，比如我们用望远镜看外太空星体的样子，或是用显微镜看微观粒子的样子，这些本质上也是拍照片。如果未来的大模型GPT有了更强的图片处理能力，那这些科研任务也就有了新工具。

经纬：在GPT大获成功之前，可能科学界用BERT更多，对不同技术路线的大模型产品，相信你们肯定都有过评估，你目前觉得哪一种比较好？

孙伟杰：这个分处理什么任务，我们选的是什么benchmark。BERT和GPT最大的架构不同是，网络结构很不一样。GPT最大的特点在于它的自回归，通过前文来推断后文，而BERT的网络结构是完形填空，我知道上下文，然后去补全这段文字或者补全这段对话。

目前我们会认为在对话生成和长文本生成上，GPT的路线是更正确的路线。但对于很多基因的处理，RNA的处理，蛋白质的处理，它的前后两段基因序列都是确定的，但中间这段需要生成。这种情况下，显然是BERT的架构更对。所以还是要对技术有更具体，更理性的判断，到底适合处理什么样的问题。

经纬：所以在某些特定场景，BERT仍然是很好用的？

孙伟杰：对，要看是什么问题。

2

当深入到微观尺度，AI能带来哪些改变？

经纬：当我们的研究层面深入到很微观尺度的时候，AI能带来哪些改变？

孙伟杰：经过历史上历时很多年的研究，微观粒子之间相互作用的规律都写在那，最根本的原理都是量子力学，但过去没有办法很好的去求解方程，因为计算实在太复杂太慢，而我们用人工智能学习到方程之后，可以大幅提升对于基本物理模型求解的效率。

最关键的是，原来很复杂的一个材料或是药物体系，过去要算成百上千年，但现在我们在笔记本上算几十分钟就算完了。我们可以真正有效的去求解我们世间所有的药物、材料研发问题，这个是最根本的变化，原来做不了的事情现在能做了。

经纬：具体来说，比如在药物研发或是材料研发领域，可不可以举一个更实际的例子？

孙伟杰：欢迎大家来体验一下我们的产品，我们一般不是按应用领域来区分，我们其实是按照模态来区分。比如我们有一款预训练模型，是去学微观粒子或者电子、原子、分子之间相互作用的规律，它就可以预测所有微观粒子相互作用的现象，能帮助研发所有我们想要的分子或是材料的微观结构，从领域来说这个是横向的，所有涉及到的相关行业都可以用。

再举个例子，比如说手机屏幕，从微观层面来说，它是通过原子和分子整齐排列起来的，如果我们能够把微观层面的原子之间的相互作用都算清楚的话，那这个屏幕的很多指标，像是透光率、硬度、韧性、发光性能等等，就都可以通过微观的这些物理方程算出来。

如果再到新能源领域的锂电池材料，其组成的几大块是正极材料、负极材料、电解质。以电解质为例，锂离子要在电解质中来回运动，所以电解质的扩散能力要很强，以及在高温或撞击的条件下，还要保持非常高的热稳定性，这样才能安全。过去我们是靠大量的实验试错，来寻找足够好的材料，但现在在做实验之前，可以先用我们的模型快速计算，之后仅需要少量实验，就可以发现一个有效的新材料配方，来提升锂电池的某一方面性能（能量密度、充放电、安全性或是降低成本等等）。

经纬：那么对于新药研发或是新材料研发的算法来说，通过哪些指标来评判好坏？

孙伟杰：每个领域不完全一样，具体需要case by case。如果从整体来说，可以总结为精度（以及关联的置信度）、效率、通用性。

第一是精度，当我们用计算的方式做出来之后，与做实验（的结果）有多大程度上互相能够吻合，当然也有用平均误差等等来衡量的。

第二是与精度直接关联的置信度，这是统计学的概念。当给出某一个预测的结果，对结果可靠性的预测。不然虽然从历史上来看，计算和实验的结果是比较吻合的，但对于新计算的结果，是不是跟实验吻合，这就变成“鸡生蛋、蛋生鸡”的问题了，因为我得做出实验才知道。但要是真能做实验的话，还要计算干什么呢？所以对于自己的预测结果confidence也是非常关键的。

第三是效率；第四是对不同场景、不同具体问题的通用性。我们一直倡导对算法也要进行分级，就像自动驾驶L1-4的那种分级，我们觉得算法至少分成三个等级，L1属于模仿现实，是对现实的数据进行简单的学习和拟合，肯定没办法达到现实的精度。L3是最高等级，能一比一完全复刻现实的精度，这种在大多数场景里也不现实，少数场景里可以，比如一个一元二次方程的解，这个肯定可以精准求出来，但是对于我们大多数面临的工业仿真的问题都不成立。

所以L2级别的算法针对特定的场景，有一定的精度，虽然不完全准，完全准也不现实。但只要对自己预测出的结果，有比较高的confidence，这个东西就可以工业化使用。我知道哪个预测出来的大概率可以信，哪些预测出来不准，我们就可以针对性的设计实验，至少算法能起到大幅缩小实验成本的作用。

归根到底，评判一个算法有没有价值，就是能不能有效替代实验。

经纬：这确实是很通用的评判标准。深势的产品应用范围很广，你一般会怎么去选择哪个方向切入？以及可否给我们介绍一下AI4S平台有哪些具体的产品？

孙伟杰：从领域来说，最关键的是验证链条要足够短，能够被清晰拆解。此外还有两点是解决这个问题对行业来说很重要，以及行业本身有良好的付费能力。

所以药物领域就是一个很好的方向。制药行业里有一些微观领域的问题，都是因为没有太好的计算方法导致的，使得研发手段就是靠大量实验。而我的合伙人张林峰当时恰好在学术界做出了一个非常大的系统性突破，即用机器学习去求解微观粒子之间的相互作用，这就给整个微观领域带来了底层突破。

此外，药物研发的上下游产业连分工非常精细，基本上每一个环节都能够被独立出来，有着相对独立的研发目标和验证体系，每个CRO可能就负责一个环节上的事情，上下游研发被标准化地抽象定义出来了。

说到具体产品，我们有Bohrium® 微尺度科学计算云平台、 Hermite® 药物计算设计平台、RiDYMO™ 强化动力学平台及 Piloteye电池材料计算设计平台，这些都是微尺度工业设计基础设施。

随着计算资源的高度发展，科学计算无论在使用场景还是应用范围上，都正在进入发展的快车道。我们想用Bohrium®来提供一种开箱即用的计算环境，可以帮助研发人员进行光学、电学、磁学、力学的物理性质计算，并细致研究材料微观结构组分与作用机理。

Hermite®是我们打造的新一代药物计算设计平台，为临床前药物研发提供一站式计算解决方案，包括蛋白结构预测、药靶结合模式预测、苗头化合物筛选、先导化合物优化等核心功能模块。

RiDYMO™则是我们的药物研发服务，我们希望通过底层计算方法的突破，来为难成药靶标的药物发现带来更多可能。

经纬：所以深势在AI4S的产业链中，相当于处于很上游的位置？

孙伟杰：如果分析整个产业链的话，我们几乎处于产业链最上游，因为我们是所有创新的开始，比如在早期研发方面最基础的工具。比我们更上游的，只有一些原始算法的开发者，以及算力、数据的提供商，我们面对的更多都是广阔下游。

经纬：最近开源模型的发展也非常迅猛，深势的一些底层算法也是开源的，你怎么看待开源和闭源？

孙伟杰：我认为开源本质上是一种去中心化协作的生产关系，和商业化没有关系。如果你认为你的产品是一个更基础的软件，需要团结更多的开发者来共同成长，并且这种持续的改进和增长才是核心壁垒的话，那就应该拥抱开源。

3

科学家创业的权衡取舍？

经纬：深势从一开始20多人的团队，到如今200人，在管理上是有本质区别的，你在管理上有踩过什么坑吗？或者如果重新来过一遍，有哪些事情是您想避免发生的？

孙伟杰：如果重新来一次最能够优化的地方是，对于不同阶段我们需要什么样的人才的判断，会更准确。我们往往会发现，我们组织在扩张的时候，一些关键岗位上的人才不可复制，所以造成组织增长的动力有所缺失，我们又得重头招聘或者培养这样的人。

我们组织整体的进化相对比较自然。随着整个组织的进化，当前的热点问题也在不断发生变化，当你解决了当前体系下占40%的问题之后，第二大问题就会变成第一大问题，而且成为下一步卡30%-40%效率的核心问题。

所以组织的升级和建设更是一个渐变式转型的过程，归根到底总结起来就是时间，组织里面所有的禀赋，钱、资源、人才这些本质上都是可再生、可逆转的，但只有时间是不可逆转的，所以针对未来的变化要提前做好储备，所有禀赋里面只有时间是最宝贵的。

经纬：之前我和一些科学家创业者聊天，他们经常会遇到一个问题是，在打磨一个更完美的产品和快速推出一个产品抢占市场之间，会需要权衡取舍，不知道你有没有遇到过类似的抉择？

孙伟杰：我们是做软件产品的，对软件来说毫无疑问是后者，一定要快速迭代。软件的迭代速度非常快，迭代成本也非常低，但软件的生命力要快速被证明，也就是通过一个最基础的功能完全可以迅速打开市场，然后在这个基础上不断迭代。

这不像做硬件产品，硬件产品必须有完美主义的情结，每迭代一次可能就是半年到一年，进行一次打磨，比如开模环节，就意味着几百万、上千万的成本，这个决策方式肯定不一样。

经纬：如今人工智能迭代非常快，有一个新的摩尔定律出现，未来我们应该也能看到很多很小团队的、基于人工智能的创业型公司出现，如果畅想未来两到三年，你觉得这个领域会发生怎么样天翻地覆的改变？

孙伟杰：AI4S的整体发展，比GPT差不多晚4年左右，我们现在差不多处在2019年或者2020年GPT的阶段。这一波人工智能浪潮最大的好处是，GPT证明了预训练模型有能力强大之处，而且有相对于过去小模型的优越性。对于AI4S来说，就可以“摸着GPT过河”，不用再跟市场强调预训练模型为什么比小模型好，这是大家现在一致认可的，相当于给我们的发展也扫清不少迷雾。当然我们面临的技术挑战肯定比GPT更大一些，但我们还是很有信心在2025年之前，基本上能把所有预训练模型相关的工作，都做得完成度很高。

我觉得未来3-5年至少会有三大变化，第一是人工智能会非常深度融合到我们的工业研发中来；第二是人工智能和自动化，也就是和机器人的结合将会变得十分紧密；第三是整个组织形态，整个药物、材料这些领域的组织形态也会有很大变化，会有更多由小团队驱动的原始创新出现。

也许你还想看:

经纬2022年终盘点：乐观者前行，follow the white rabbit

经纬张颖：2023，不只克服困难而是习惯困难

经纬徐传陞：做VC这么多年，人们总在问我同一个问题

ChatGPT之父Sam Altman：大型AI企业，将诞生于哪些领域？

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章