对话 | AI、机器学习在材料科学研究中能发挥哪些作用?
(本文阅读时间:12分钟)
汪林望:在材料科学研究领域,理论计算方面多数使用的是量子力学(quantum mechanics),也就是第一性原理计算。如今,第一性原理计算已经渗透到了材料科学的方方面面,它与合成、表征并称为材料研究的三大基石。最近20年,中国在第一性原理计算领域的研究论文数量呈指数级增长。
尤其是,从头算材料模拟(ab initiomaterial simulations)在学术界被广泛使用,因为传统的做法需要大量的经验参数,而从头算不依赖于经验参数,只用电子、质子质量、原子的位置等少量数据作为输入,就可以计算出材料性质。这是一种强大的工具,因为它所依赖的薛定谔方程是非常基础的。可以说,有了这个方程,所有材料科学的问题都可以得到解决。
汪林望:目前工业界中广泛使用的是CAD (Computer Aided Design,计算机辅助设计) 工业软件,主要依靠牛顿力学,使用连续介质方法,比如有限元方法求解偏微分方程等。这类软件通过一些参数来表征材料的性质,并以这些材料为基础去设计不同的工业器件;它们很大程度上解决了实验成本过高的问题,比如可应用在飞机制造,代替风洞实验等。但这种辅助设计方案并不设计材料本身,仅着眼于宏观层面。
然而,在接下来的二、三十年,在后工业时代,除了关注材料宏观结构的设计,我们将更聚焦于新材料本身的研发设计,例如关注研发耐高温的航空材料、坚硬抗腐蚀的海洋材料、电池正负极材料等。而材料的性质决定于原子排布,这就需要借助 Quantum Computer Aided Design ,形成一套新的方法,我们称之为 Q-CAD。
但要想真正在工业界应用这些工具还有很多问题需要克服。在学术界一个大的材料项目几乎有20%的工作花在计算上,但在工业界这个比例可能少于1%。当前学术界做的是几百个原子量级的计算,但在工业界,比如模拟电池的正负极材料需要的则是百亿原子的量级,其中的时间尺度很大。如何弥补这些差距?未来就需要人工智能的帮助。
在这个过程中我们要考虑几点:首先是复杂性,比如材料研究求解催化过程常常会从几十种情况演变成几百种,需要高通量计算、遗传算法的支持;其次是准确性,密度泛函理论也存在一些局限,比如 d 电子做催化时计算结果不够准确;还有尺寸标度问题,当前我们只能计算几百或几千个原子,但我们更需要对上亿的原子进行计算;另外还有时间标度,一般的分子动力学也就做到皮秒或者纳秒,但是当我们真正要解决一个工艺问题时,则需要秒甚至小时级别的模拟。
目前,我所参与的 Q-CAD 解决方案是通过自主研发的 PWmat 算法与高性能计算 GPU 加速和人工智能机器学习力场三种技术相结合,力图解决工业界计算所需要的大体系、长时间尺度的问题。当下和未来,人工智能等新技术不失为弥补材料科学研究与工业应用差距的一个好方法。
汪林望:在材料研发上,我认为有两个方向可以应用机器学习技术。一是在数据挖掘上,比如基于数据库,利用机器学习在海量数据中发现分子结构、属性之间的相互关系,并找出映射(mapping),这是传统材料科学研究最关心的问题。当前利用密度泛函理论、材料基因组、高通量计算都会产生海量数据,与以往实验所得的数据相比更规整,非常适合计算机科学和机器学习使用。
二是机器学习可以用来开发经典力场,然后再用经典力场做分子动力学模拟。机器学习开发经典力场的思路是:当使用中小体系计算密度泛函理论时,会产生大量的数据,而在经典力场中只需要知道原子结构、映射出能量和原子受力,就可以利用机器学习不断迭代、反复学习映射,使之变得更好,这就是机器学习力场。从这个角度来看机器学习力场将会改变当前材料科学的研究现状。目前经典力场模拟分子动力学的思路是:从物理学角度出发设定简洁模型,比如给每个共价键一个能量表达式,然后再调整各影响变量的参数。这对于原子种类相对较少的经典力场较为有用,但材料领域涉及的大部分情况下没有力场,或者已有的力场精度很低根本不能用。引入人工智能、机器学习技术,有可能改变这一现状。
汪林望:在机器学习力场中还存在着很多悬而未决的问题。人工智能在材料领域的应用还处于初步探索阶段,我们无法确定它在这个领域能发挥多大的作用。比如,要如何估计一个系统的内在“有效维度”或复杂性,如果维度增加很多,机器学习是否还会有效?现在的神经网络越来越复杂,它的极限在哪里?是否有办法能应用更深的神经网络,而又可以快捷的训练?这些都需要进一步验证。
再如,用于机器学习训练的参数空间(parameter space landscape)随着数据点(data points)是如何变化的?我们优化训练时,其实它是一个空间切分(partition space)问题,那么如果数据量变大,参数空间是怎么改变的?经验表示,应该是数据量越大运行越顺畅,但目前没有定量数据来证明这一点,还需要理论指导。还有,在拟合限制下,或更复杂的网络下,如何平衡网络的更大的表现功能和它的训练可行性?
构建更复杂的网络时,理论上它的能力也会越强,但网络参数空间也会越复杂,训练过程中更容易进入局部最小值(local minimum)。如何在没有过度超参数调整下加速训练?如何跳过局部最小值?如何选择采样点?这些都是值得研究的方向。另外,应该结合基于物理角度出发的模型与基于大数据的模型,而不只是偏于一边。这样的模型也许更有效。
汪林望:人工智能、机器学习等技术在材料科学领域的应用才刚刚起步,可以说还处于探索期,如何使用这些技术,我们目前还没有明确的方法,更多的还需要参考一些其它的行业案例,从中借鉴经验然后再不断试错。有人说,在所有方面都可以尝试新技术,但其实并非如此,在尝试前,我们要了解我们真正需要什么、不需要什么。材料科技领域中,在一些函数、经典力场的准确率上,在观察更复杂的化学反应、物理反应等问题上,我们可以尝试引入人工智能技术。事实上,任何一项新技术的结合所产生的结果都有正负两面。
不论是在材料科学领域,还是其它领域,借助人工智能技术都是一个大趋势,它转变了传统领域的观念,让我们意识到大数据、机器学习等技术是可以与材料学的高通量计算相结合的。跨领域的结合也得益于计算机的发展,在产生海量数据后,用类似统一的方法建立模型,这是一种新方法,也将带来新的成果。
以前的第一性原理计算可以让我们计算几百个原子,机器学习技术的引入可能让我们达到一个新高度,实现百万级别原子的模拟。虽然经典力场是材料科学的重要一支,但之前的应用很有限。在以后,它与从头算(ab initio)方法的鸿沟将会变得没有那么难以逾越,从头算与经典力场的结合也会更容易,从而可以解决更高级别的问题。
至于未来十年这些新技术能带来哪些改变?比如只需两天就能找到新的阳极材料?我认为不太可能。但不论到哪个阶段,都需要行业专家利用领域经验知识提炼问题、简化问题、找出关键问题,再进行百万原子模拟,并与工业界的工艺过程结合,我相信这可以推动相关工艺向前迈进一大步。
对话现场部分回顾
汪林望:对我个人而言,选择材料科学领域是个偶然。我在美国留学时,神经网络研究非常火热,那是真正生物学意义上的神经网络,我也花费了两年时间来学习和研究诸如大脑六层神经网络结构,以及人脑思维的模型等等。不过找博士导师的时候,我发现很多导师已经有博士生了,最后找到了比较务实的电子结构计算方向。那个时候第一性原理计算刚刚开始不久,所以我的学术生涯也正好见证了第一性原理计算的发展与起飞。在这同一时间段,计算机的运行速度增加了几万倍,它成为第一性原理计算背后的强有力的推动力。
我发现这两者的结合开发是一件非常有意思的事。当你在一个方向中深入研究时,你会发现有越来越多的东西值得探索。当计算机速度加快之后,算法的相应改变和开发也变得十分重要。总的算力的提升有一半来自于计算机,另一半来自于算法的提升。这也能看出自然科学、材料科学与计算机发展结合是一个必然的趋势。
总之,找到方向深入钻研,然后再慢慢地拓宽范围,这是成功的基石。重要的是,不要被外界浮躁的事物所打扰。
你也许还想看:
微信扫码关注该文公众号作者