都在说的「AI for Science」，到底怎么帮助科学进化？

2022-10-14 09:10

用 AI 模拟微观世界，跨尺度理解物理现象。

作者 | 前沿社

从 1956 年「人工智能」概念诞生，讨论「如何用机器模拟人的智能」已经经历 70 余年，在算法、算力和数据方面取得了诸多突破，并在在诸如智能制造、自动驾驶等工业领域有着充分的发展。

近几年，AI 在生物、能源、制药、材料等科学领域的作用正在经历大的转变。AI 强大的数据归纳、分析能力让科学家从重复验证和试错的过程中解放出来；同时，AI 也正在从科学的最底层规律出发，让 bottom up 的纯数据驱动方式逐渐转向与物理模型相融合的阶段。

AI for Science，即科学智能，就是用 AI 去学习科学原理，然后得到模型，进而去解决实际的问题。比如 AlphaFold2 对蛋白质折叠结构预测，就攻克了困扰生物学界 50 余年的难题。

9 月 22 日，前沿社组织了一场关于 AI for Science 主题的线上「夜聊」，特别邀请到深势科技创始人 & CEO 孙伟杰，共同探讨 AI 对于传统科研究竟意味着什么，最终会带来哪些改变？当 AI 开始在部分基础科学中成为研究工具，接下来会如何演进？

深势科技成立于 2018 年，是 AI for Science 科学研究范式的先行者，致力于运用人工智能和分子模拟算法，结合先进计算手段求解重要科学问题，为人类文明最基础的生物医药、能源、材料和信息科学与工程研究打造新一代微尺度工业设计和仿真平台。核心成员团队获得过 2020 年「戈登贝尔奖」——这个奖被称为「全球超算领域的诺贝尔奖」。

深势科技推出的蛋白质结构预测工具 Uni-Fold，是领域内首个接近 AlphaFold2 精度、并且开源了训练代码和推理代码的项目；Uni-Fold 还克服了 AlphaFold2 硬件支持单一、模型不可商用等局限性 | 图：Uni-Fold 预测的蛋白结构

前沿社活动均为创业者、企业家之间的闭门学习交流，并不对外开放。但我们也整理了一些现场讨论的精华内容进行发布，希望对你有所启发。

Show Notes

1. 跨尺度建模是 AI for Science 的最重要应用之一，它可以既快又准地学习微观的模型，然后做出和宏观速度差不多的计算和仿真。

2. AI for Science 已经在药物研发、材料研发方面发挥作用，同时也在给下游的应用学科带来突破。

3. AI for Science 的真正落地将会让工业生产向前迈进一大步，同时带来更多前所未有的机会和空间。

4. 未来十年，我们或许会看到 AI for Science 帮助科学家发现更多复杂系统（如生命科学）的科学规律。

什么是 AI for Science ？

简单来说，AI for Science 有三层内涵：

第一是科学规律在具体的行业应用中的落地，用 AI 求解复杂系统的问题。
第二层 AI 是发现新科学的有效的手段，能够帮助人类从大量的复杂数据中，去抽取一些人类观察不到的高维信息和高价值规律。比如基因序列、蛋白序列背后的高维特征。
第三，AI for Science 让科学更加走向理性。我们过去很多对产业问题的分析，都是先看这个领域都没有数据。但在未来，大家一方面可以看有没有数据，另一方面可以看有没有好的物理规律做支撑。我们可以先用 AI 去学习物理模型，学习一些特定的规则，进一步结合一些小的数据去解决实际问题。

跨尺度建模，兼顾

计算的「快」和「准」

从不同的时间和空间尺度上来观察世界，发现的现象是不一样的。越是大的东西，它运动的频率越低；越是微观的运动频率越高，动得就越快。

微观下看，当计算分子间或者原子间相互作用时，原子之间相互作用可以抽象为几种简单的作用力。比如原子之间有一个化学键，它的键能是多少，碳氧键的键能是多少？化学键和化学键之间会有键角，它们之间相互的能量空间是多少，二面角的空间是多少？离得比较远的静电相互作用和泛化相互作用，它的空间是多少？……这样形成了一系列的经验，就能分析原子间的相互作用。

在每一个尺度上观察时，我们都是在观察这个尺度上的现象，它还会有一些随机性。

引入更微观的参数后，就能够以第一性原理精确地求解里面的问题；但对应的瓶颈是：一旦引入更微观层面的参数，计算就会变得非常复杂，进入「维度灾难」

（注：维度灾难指复杂系统的计算中，随着维数的增加，计算量呈指数倍增长的问题）。

物质结构：分子 | 图源：新浪网

如果我们改用宏观尺度的模型去计算物体的运动，就能算很快，但是通常会算不准。我们如果想算得准，就得引入更微观的模型，但这样计算量太大，算不快。

所以 AI for Science 就是要解决计算时「快」和「准」不可兼得的问题。我们用 AI 学习微观的、电子层面的模型，然后去求解更宏观的、原子间的基础作用。这是 AI for Science 最重要的应用之一，即跨尺度建模。

AI for Science

正在如何发挥作用？

利用 AI 学习分子动力学方程的这套方法，在药物发现方面可以辅助靶点发现、先导化合物筛选等环节；在材料方面可以帮助高分子材料、柔性材料、液晶材料的研发，同时也给下游的应用学科带来突破。

人体所有疾病的发生，几乎都可以归结为蛋白质功能的异常，例如蛋白质表达过度或抑制。所以，人为地抑制或激发蛋白靶标，改变蛋白质的功能，就可以达到治疗疾病的目的。药物分子和蛋白质的组合，就像是锁和钥匙的关系。

药物研发的步骤一般是：蛋白结构解析 - 蛋白动态探索 - 药物分子发现 - 药物活性优化 - 成药性优化。

确定一个蛋白靶标后，我们需要了解它的三维结构，才能设计一个药物分子来和它结合；还要知道蛋白质的动态机理，因为蛋白质的所有作用都是由它的动态结构决定的。

这是一个酶的三维结构图（GIF），红色的位置是它催化的口袋。当一个底物放进去之后，在里面经过磷酸化再出来，就完成了一个催化的反应。所以这个口袋必须要会动，而且我们必须要了解它是如何运动的，才能够理解它的功能。

AI for Science 驱动药物的研发 | 图源：深势科技

药物筛选环节中，过去依赖的是高通量的重复式实验，可能要花费一两年时间，进行几百万次实验才能得出结果。而现在，我们可以通过大量的计算来筛选出 50 - 200 个合适的药物分子，再用实验进行验证。

蛋白质的动力学模拟方面，我们能够从动态上预测蛋白质的构象变化。我们把这部分算法由过去的 CPU 计算潜移到了 GPU 上，并且进行了数据和计算的并行。最终，我们在保持精度的同时把速度提升了 1600 多倍，在几天之内就可以计算十几亿个分子，实现更加快速的筛选。

在药物的其他方面预测上，我们采用的方法是先进行无监督的学习，然后再通过微调（fine tune）进行二次有监督的训练。这种方法解决了药物研发中某些领域数据量少的问题，例如药物的吸收分布、代谢毒性等。

药物分子和蛋白质的特性基本都是由三维结构决定的。因此，只要 AI 能够抓取到三维结构的特征，理论上就可以建立起可用的模型。

但在很多科学问题的研究中，由于数据少、特征难以提取等原因，AI 很多时候无法提取出关键特征并建立模型。这个时候，就可以通过小规模的 AI 预训练来解决这样的问题。

这种方法不仅解决了小数据带来的问题，同时也为科学规律的发现提供了一种新的可能性。

材料的中心法则 | 图源：深势科技

在材料方面，我们关心的是材料在现实场景中服役的表现。服役表现主要是由材料的性能决定的，而性能又是由微观结构决定的。要想研究出一种好的材料，一定会涉及到多尺度的结构方面的计算。

由于要跨越不同的物理尺度，很多问题都无法用单一的模型去解决。例如，微观上我们可以模拟电子的性质，宏观一点可以模拟电子的密度，但是很难模拟电子间的能带结构和相互作用，因为这个规模是处在电子性质和密度之间的。

还是那个问题：从微观角度计算能够算的准，但不快；而从宏观角度计算能够算的快，但不准。AI for Science 可以既快又准地学习微观的模型，然后做出和宏观速度差不多的计算和仿真。

同药物研发一样，第一步先把材料的服役性能抽象成一些特定的材料性质，例如它的基础性质、稳定性、可加工性。有了这些性质 profile 之后，再把它转化成可以用物理模型计算的科学问题。

然后，我们对材料进行多级计算的筛选，最后把它放到实际的复杂系统中测试。例如，一个半导体材料筛选出来之后，我们还要把整个半导体器件都仿真出来，看看它的性能到底如何。

实际的研发案例中，这个过程其实是一种材料的逆向设计。即从现实需求反推到性能，再找出对应的结构和组分。

锂电池固态电解质组分研究 | 图源：深势科技

上图是我们通过计算发现的一个新的锂电池的固态电解质组分研究。对于电池，我们主要关心的是稳定性和电导率这两个性质。

左侧的红色的三角形显示的是稳定性，蓝色的部分就是组分稳定性比较好的组合；右边绿色的三角形显示的是电导性，深色的部分就是电导率比较高的组合。我们要做的就是，找到这两个性能都比较好的，即蓝色和深绿色重合的部分。

从图表中可以看到，计算得出的结果（蓝色圆点）和实验结果（红色区间）是完全重合的。而过去的计算误差则十分大，完全没有落在红色区间内。

目前，深势科技在材料部分主要会从新材料切入，最终服务于新能源、信息技术和先进制造这些领域。

深势科技已推出 Hermite® 药物计算设计平台、Bohrium 微尺度科学计算云平台等微尺度工业设计基础设施，颠覆现有研发模式，打造了「计算指导实验、实验反馈设计」的全新范式 | 图源：深势科技

在更多复杂系统，

AI 将帮助发现科学规律

总结一下，AI for Science 最值得期待的两大机会在于：包括药物设计和材料设计在内的新一代工业软件；另一方面则是像流体、固体等非常复杂的工业系统。AI for Science 的真正落地将会让工业生产向前迈进一大步，同时带来更多前所未有的机会和空间。

信息科学中的 AI for Science | 图源：北京科学智能研究院 & 深势科技

生命科学本质上也是一个复杂系统。但在生命科学领域，尤其是在人体的层面，还有很多问题无法被翻译成化学问题。例如，我们现在已经清楚地了解蛋白质的结构、蛋白质的动力学、蛋白的相互作用，但细胞生物学到分子生物学之间的 gap 目前还无法解决。

在未来，生命科学领域可能需要摸索出一系列最基础的运行法则和规律，类似化学中的元素周期表。这样，我们就可以从最微观的层面对生命活动做出一些底层的解析。

同样，材料学中很多问题也缺少规律和原理的指导。例如，微观上，材料的塑性形变和缺陷是由一些位错形成的，其中的原理可以靠量子力学和分子动力学来研究。但中间层的科学机理到底是什么？其中的定律尚不清楚。

在这些复杂系统领域，AI for Science 的愿景是要帮助科学家发现这些科学规律。在未来的十年之内，我们期望能够看到这一方面的突破性成就。

最后，引用一下黄仁勋今年的一句话，非常令人触动：AI 的未来一定是要学会规律和物理法则，实现这一点，将把我们带入 AI 的新时代。这句话和 AI for science 的愿景非常契合。

Q&A 精选

Q1: AI for Science 似乎不只是可以运用在科研，它带来的是一种技术的变革。那么它的边界究竟在哪里？

孙伟杰：边界确实不止于在科研。药物研发、材料研发目前在微观层面上是更加适合 AI for science 方法的领域，但这种方法论其实在未来可以延展到更多的领域。

除了刚刚提到的两种微观尺度的计算模拟上， AI for Science 在宏观尺度上也有很大的潜力。例如在复杂流体的模拟、天气预报上，AI for Science 其实可以发挥出更大的作用。对于它的边界到底在哪，可能还需要更长的时间大家共同去探索。

Q2：AI for Science 的开发需要对 AI 和基础科学都有很深的了解吗？

孙伟杰：是的，需要对 AI 和细分领域的基础学科都有深度了解，这一点非常重要。其实，现在 AI 作为一个工具其实越来越成熟，使用 AI 辅助科研也越来越容易了。以前，我们说科技会在一些 feature 的层面去做创新，而现在的趋势是要往底层去走。通过 AI，我们可以在底层实现一些革命性的变化。

Q3：AI for Science 的商业模式是怎样的？

孙伟杰：商业模式是一个动态的问题，要针对不同的用户群体和不同的市场。

AI for Science 在科研领域、高校、学者的中其实已经有了一定的发展，这些人群自己本身就有非常强的开发能力和使用工具的能力。过去大家做科学计算都是用一些开源软件，甚至自己就做很多二次开发。所以，对这类用户，深势科技是把这些工具打造成 SaaS 提供给他们。

但是工业界传统的研发模式不是这样的，很难把最新一代的工具用起来，所以 SaaS 这套方案行不通。

在做材料研发和药物研发方面，深势科技主要是通过 IP 授权的方式，把产品真正做出来，出售给制药厂和材料厂商。比如，我们会把药物的分子或材料的配方研发出来，申请专利，把它 license 出去。商家直接拿着我们的研究到一半的分子，接下来去做就可以了。