Npj Comput. Mater.: 结构描述符大佬观点—不是越精确越好
海归学者发起的公益学术平台
分享信息,整合资源
交流学术,偶尔风月
原子尺度现象的定量建模是物理学、化学和材料科学许多领域的科学见解和技术创新的核心。准确求解量子力学方程,如薛定谔或狄拉克方程,可以精确计算分子、团簇、块状晶体、表面和其他多原子系统的特性。此外,人们对材料电子结构的数值模拟,在解释观察和定量预测方面都取得了巨大的成功。
Fig. 1 Sketch illustrating the interpolation of quantum mechanical simulations by machine learning.
然而,这些从头算方法的高计算成本往往只允许其模拟几千甚至几十个原子的体系。而C、N、O、S、Cl五种原子就可以形成高达10亿个可能的分子结构。因此通过从头算方法难以,甚至无法,对分子和材料的空间结构进行系统的计算和探索。而上述“10亿个可能的分子结构”中存在大量类似或相关的结构,这意味着利用从头算方法挨个处理这些结构具有高度的冗余性。
Fig. 2 Symmetry functions.
机器学习(ML)利用这种冗余在参考模拟之间进行插值。这个分析法基于一小组参考模拟结果,用ML预测代替了大多数从头算模拟。它有效地将重复求解多个相关系统的量子力学方程的问题映射到回归问题上。这种方法已经在基准研究和应用程序中得到了验证,其运算速度提高了0到6个数量级,其核心是将分子或晶体材料转化为数学表示(描述符),材料结构和描述符双映射的准确性是机器学习精确插值的关键。
Fig. 3 Many-body tensor representation.
由德国马克斯普朗克学会-弗里茨哈伯研究所NOMAD实验室的Matthias Rupp教授领导的团队,回顾了用于机器学习势函数构建的原子系统(分子和晶体材料)表示方法(描述符)。为此,作者区分了局域表示和全局表示,以及使用不变的k体函数和显式对称性来处理不变性的问题。尽管存在明显的多样性,但许多表示方法都可以归纳到一个基于k原子项、对称化和张量乘积的单一数学框架中。从经验上看,作者观察到,当控制其他因素(包括训练和验证数据的分布、回归方法和HP优化)时,对称函数(SF)、多体张量表示(MBTR)和原子位置平滑重叠(SOAP)的预测误差和计算时间都随着交互顺序的增加而得到改善,而且局域表示方法比全局表示法更好。
Fig. 4 Smooth overlap of atomic positions.
此外,作者还提出了以下指导意见:
如果它们的预测误差足以满足应用程序的需要,作者建议使用SF和MBTR等简单的两种表示方法,因为这两种表示方法的计算速度最快。
对于大型系统,应该使用局域表示。
对于输入结构的强噪声或偏差,如数据集nmd18u,不同表示方法之间的性能差异消失,不符合描述符所要求的、计算上比较便宜的特征亦可。
Fig. 6 Compute times of selected representations for datasets.
该文近期发表于npj Computational Materials 8: 41 (2022).撰文:陈昊鸿 (中国科学院上海硅酸盐研究所 副研究员,从事透明光功能材料及相关计算模拟研究)
点击下方知社人才广场,查看最新学术招聘
扩展阅读
微信扫码关注该文公众号作者