Npj Comput. Mater.: 结构描述符大佬观点—不是越精确越好

2022-12-18 03:12

海归学者发起的公益学术平台

分享信息，整合资源

交流学术，偶尔风月

原子尺度现象的定量建模是物理学、化学和材料科学许多领域的科学见解和技术创新的核心。准确求解量子力学方程，如薛定谔或狄拉克方程，可以精确计算分子、团簇、块状晶体、表面和其他多原子系统的特性。此外，人们对材料电子结构的数值模拟，在解释观察和定量预测方面都取得了巨大的成功。

Fig. 1 Sketch illustrating the interpolation of quantum mechanical simulations by machine learning.

然而，这些从头算方法的高计算成本往往只允许其模拟几千甚至几十个原子的体系。而C、N、O、S、Cl五种原子就可以形成高达10亿个可能的分子结构。因此通过从头算方法难以，甚至无法，对分子和材料的空间结构进行系统的计算和探索。而上述“10亿个可能的分子结构”中存在大量类似或相关的结构，这意味着利用从头算方法挨个处理这些结构具有高度的冗余性。

Fig. 2 Symmetry functions.

机器学习（ML）利用这种冗余在参考模拟之间进行插值。这个分析法基于一小组参考模拟结果，用ML预测代替了大多数从头算模拟。它有效地将重复求解多个相关系统的量子力学方程的问题映射到回归问题上。这种方法已经在基准研究和应用程序中得到了验证，其运算速度提高了0到6个数量级，其核心是将分子或晶体材料转化为数学表示（描述符），材料结构和描述符双映射的准确性是机器学习精确插值的关键。

Fig. 3 Many-body tensor representation.

由德国马克斯普朗克学会-弗里茨哈伯研究所NOMAD实验室的Matthias Rupp教授领导的团队，回顾了用于机器学习势函数构建的原子系统（分子和晶体材料）表示方法（描述符）。为此，作者区分了局域表示和全局表示，以及使用不变的k体函数和显式对称性来处理不变性的问题。尽管存在明显的多样性，但许多表示方法都可以归纳到一个基于k原子项、对称化和张量乘积的单一数学框架中。从经验上看，作者观察到，当控制其他因素(包括训练和验证数据的分布、回归方法和HP优化)时，对称函数（SF）、多体张量表示（MBTR）和原子位置平滑重叠（SOAP）的预测误差和计算时间都随着交互顺序的增加而得到改善，而且局域表示方法比全局表示法更好。