近年,人工智能的各个领域,包括自然语言处理、计算机视觉、语音处理,借助深度学习的强大威力,都取得了令人叹为观止的巨大进步。将深度学习技术应用于传统的科学领域,如物理、化学、生物、医学,即所谓的AI for Science(科学智能),作为一个新的交叉学科,也逐渐兴起,孕育着巨大的潜力,受到广泛的关注。ByteDance Research也在进行AI for Science的研究,包括机器学习与量子化学、大规模量子化学计算、AI制药等领域一些问题的研究,希望跟业界一起推动领域的发展。本文简要介绍我们这两年来取得的一些进展。也抛砖引玉,希望与业界进行更多的交流和合作。在机器学习和量子化学方向,我们提出的LapNet 算法,比有代表性的FermiNet模型训练速度提高了10倍,能计算的化学体系的规模和精度目前是领域最大的。在大规模量子化学计算方向,我们开发了Periodic DMET算法,使用经典和量子混合计算机(实际是在经典计算机上的模拟),用于周期性体系的计算,只用20个量子比特就达到了之前方法用近万个量子比特才能达到的精度。在AI制药方向,我们开发的LM-Design模型,利用大量蛋白质序列数据,以及一定数量的蛋白质结构和序列对应数据,学习从蛋白质结构到序列转换的模型,达到了目前蛋白质序列设计的最高精度。
机器学习与量子化学
物理学家狄拉克曾说:对大部分物理学和整个化学,进行数学建模所需要的基本定律已完全清楚,困难只在于这些定律的应用,得到的方程一般都太复杂而无法求解。量子化学是根据量子力学的原理研究化学现象的学科。其重要的问题是用计算的方法求解分子或周期性体系(如固体)的电子薛定谔方程,从而推算出分子或周期性体系的基态能量、电极性等特性。是所谓的从头计算(ab initio)问题。传统的方法有密度泛函理论DFT、耦合簇CCSD等。要么计算的精度不够高,要么能计算的规模不够大。近年,用机器学习的方法解决从头计算问题成为倍受关注的新方向。其基本想法是借助深度学习强大的表示和学习能力,大幅提升从头计算的精度和规模。其中的一个路径是NN-VMC(Neural Network based Variational Monte Carlo) 。用神经网络近似薛定谔方程的波函数,通过随机采样的方式获得体系中电子在空间中的样本,这样可以计算基于薛定谔方程的整个体系的能量。通过最小化能量的上界,优化神经网络的参数,不断迭代,最后得到近似最优的神经网络(波函数),以及体系的近似基态能量(最小能量)。注:波函数的平方是电子在空间出现的概率密度函数,有了波函数,就可以进行电子在空间中的随机采样。图1显示NN-VMC的基本原理。其核心问题是如何设计神经网络和学习算法。图1. NN-VMC方法的基本原理NN-VMC中有代表性的方法是DeepMind和ICL于2019年提出的FermiNet。之后一些研究机构又提出了一些新的方法。ByteDance Research从2021年起,与北京大学合作,进行了一系列相关研究,提出了几个新的方法。下面对这些方法做一简单介绍。NN-VMC+ECP,是我们开发的结合NN-VMC和赝势ECP(Effective Core Potential)的方法[1],可以进一步提高计算的效率和体系的规模。计算化学体系的特性时,往往只需要关注原子中外侧轨道的电子。将原子中内侧轨道的电子的势能用定量表示,就可以大幅减少所需要的计算量。我们将ECP技巧应用于NN-VMC,得到了这个新方法,取得了很好的效果。NN-DMC,是我们提出的将神经网络和扩散蒙特卡洛法DMC(Diffusoon Monte Carlo)结合的另一个方法[2]。DMC与VMC不同,不是计算体系基态能量的上界,而是使用虚时演化来计算体系的基态能量。这个方法,相比FermiNet等已有方法也能大幅提高计算的精度和规模。最近开发的LapNet也是一种NN-VMC方法[3],特点是在神经网络学习时使用前向拉普拉斯算子( Forward Laplacian)。基于薛定谔方程计算体系的能量上界的过程中,需要计算哈密顿算子,包括其中的动能部分。之前的方法都是通过计算相关的黑塞矩阵的方式计算动能,其算法复杂度高,成为学习的一个瓶颈。LapNet在学习的前向传播中,通过拉普拉斯算子的计算,直接计算动能,以及哈密顿算子,从而省去了黑塞矩阵的计算。这样可以大幅提高学习的计算效率。相比FermiNet,LapNet有平均10倍左右的加速。ECP、DMC和Forward Laplace属于三种不同的技术改进(简化势能计算、优化采样,提高计算效率),三个技术结合起来原理上可以更大程度上提高计算规模,也是我们正在尝试的方法。另外,我们还将NN-VMC方法应用于固体的薛定谔方程求解[4],分子体系的力场[5]、电极化计算[6]等问题,证明了NN-VMC方法的实用性。图2显示目前NN-VMC方法中代表性工作的精度和规模,纵轴表示精度,圆的大小表示规模。我们提出的LapNet方法能够以更高的精度计算更大的体系。最大的体系有116个电子。图2. NN-VMC方法的规模和精度
[1] Xiang Li, Cunwei Fan, Weiluo Ren, and Ji Chen. Fermionic neural network with effective core potential. Phys. Rev. Research 2022.[2] Ren, W., Fu, W., Wu, X. et al. Towards the ground state of molecules via diffusion Monte Carlo on neural networks. Nature Communication 14, 2023.[3] Ruichen Li, Haotian Ye, Du Jiang, Xuelan Wen, Chuwei Wang, Zhe Li, Xiang Li, Di He, Ji Chen, Weiluo Ren, Liwei Wang. Forward Laplacian: A New Computational Framework for Neural Network-based Variational Monte Carlo. 2023.[4] Li, X., Li, Z. & Chen, J. Ab initio calculation of real solids via neural network ansatz. Nature Communications 13, 2022.[5] Yubing Qian, Weizhong Fu, Weiluo Ren, Ji Chen. Interatomic force from neural network based variational quantum Monte Carlo. Journal Chemical Physics. 157, 2022.[6] Xiang Li, Yubing Qian, Ji Chen. Electric Polarization from Many-Body Neural Network Ansatz, 2023.[7] Li, W., Huang, Z., Cao, C., Huang, Y., Shuai, Z., Sun, X., ... & Lv, D. (2022). Toward practical quantum embedding simulation of realistic chemical systems on near-term quantum computers. Chemical science, 13(31), 8953-8962.[8] Cao, C., Sun, J., Yuan, X., Hu, H. S., Pham, H. Q., & Lv, D. (2023). Ab initio quantum simulation of strongly correlated materials with quantum embedding. NPJ Computational Materials, 9(1), 78.[9] Zhang, Y., Huang, Y., Sun, J., Lv, D. and Yuan, X., 2022. Quantum computing quantum monte carlo. arXiv preprint arXiv:2206.10431.[10] Xie, Y., Shi, C., Zhou, H., Yang, Y., Zhang, W., Yu, Y. and Li, L., MARS: Markov Molecular Sampling for Multi-objective Drug Discovery, ICLR 2021.[11] Long, S., Zhou, Y., Dai, X. and Zhou, H., 2022. Zero-shot 3d drug design by sketching and generating. Advances in Neural Information Processing Systems, 35, pp.23894-23907.[12] Zheng, Z., Deng, Y., Xue, D., Zhou, Y., Ye, F. and Gu, Q. Structure-informed language models are protein designers. ICML 2023. 版权声明:部分文章在推送时未能与原作者取得联系。若涉及版权问题,敬请原作者联系我们。联系方式:[email protected]。