生成的分子几乎 100% 有效，用于逆向分子设计的引导扩散模型

2023-10-28 04:10

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑 | 绿萝

「从头分子设计」是材料科学的「圣杯」。生成深度学习的引入极大地推进了这一方向，但分子发现仍然具有挑战性，而且往往效率低下。

以色列理工学院（Technion-Israel Institute of Technology）和意大利威尼斯大学（University Ca’ Foscari of Venice）的研究团队，提出一种用于逆向分子设计的引导扩散模型：GaUDI，它结合了用于属性预测的等变图神经网络和生成扩散模型。

研究人员通过将单目标和多目标任务应用于生成的 475,000 个多环芳香族系统数据集，证明了 GaUDI 在设计有机电子应用分子方面的有效性。GaUDI 展示了改进的条件设计，生成具有最佳特性的分子，甚至超越原始分布，提出了比数据集中的分子更好的分子。除了逐点目标之外，GaUDI 还可以引导至开放式目标（例如最小值或最大值），并且在所有情况下，生成的分子的有效性都接近 100%。

该研究以「Guided diffusion for inverse molecular design」为题，于 2023 年 10 月 5 日发布在《Nature Computational Science》上。

分子设计已有方法及其挑战

新技术的发展往往取决于获取新功能分子的能力。然而，分子发现对于化学家和材料科学家来说仍然是一个开放的挑战，因为很难准确地模拟分子和材料的性质。这通常会因满足多种需求而加剧，这些需求有时可能是矛盾的，甚至是相互排斥的，例如，需要催化剂既稳定又活跃。因此，关键是找到多种分子特性之间的最佳权衡，以便给定的分子可以提供所需的功能。

找到这个最佳点，首先需要确定分子结构与其各种特性之间的关系。为此，传统的分子设计方法依赖于手动构建的启发式方法和化学直觉。除了缓慢和艰巨之外，这些通常仅限于在较小的化学空间内相关的相对简单的结构-性质关系。

近年来，生成模型将这一化学挑战表述为逆向设计问题，已作为替代方法被引入，并已成为识别各种应用的新候选结构的日益强大的工具。

扩散模型已成为许多生成任务的主要方法，例如图像、视频和文本生成。扩散模型在化学领域也显示出了巨大的前景。然而，扩散模型的全部功能尚未得到充分利用，因为这仍然是一个探索最少的领域。此外，现有的也执行条件生成的扩散模型使用所谓的标准方法，这很难学习条件分布。它们还仅限于逐点目标，必须重新训练以添加新属性，并且无法在不同数据集上训练生成器和预测器。引导扩散模型从条件分布中采样的能力尚未在化学环境中得到充分测试。

GaUDI 用于生成设计具有目标特性的分子

在此，研究人员通过设计和实现引导扩散模型 GaUDI 来弥补这一差距，用于生成设计具有目标特性的分子。

研究人员使用两个预训练模型来设计分子：第一个是经过训练的生成扩散模型，用于根据给定的数据分布生成无条件样本，第二个是经过训练的预测模型，用于预测分子特性。

与标准扩散采样一样，扩散模型从一些易于处理的噪声源中采样，然后迭代地对信号进行去噪；然而，与标准无条件模型相比，在 GaUDI 中，生成模型的中间输出被馈送到预测模型，该模型预测一组预定义的属性。然后，通过在每次迭代中添加校正项，使用这些属性的目标函数的梯度来指导采样过程。通过这种方式，扩散生成偏向于具有低目标函数值（即最接近目标）的分子，这个过程相当于从具有几乎任意复杂条件的条件分布中采样。

图 1：生成流程。（来源：论文）

研究展示了 GaUDI 在多环芳香族系统 (PAS) 用例中的性能，PAS 是由不同大小和原子组成的多个芳香环构成的分子。多环芳香族体系占已知分子的三分之二，是有机电子学的基石，因为它们构成了绝大多数有机半导体。因此，具有特定性能的新型 PAS 对于有机发光二极管、场效应晶体管、光伏和其他光电子学等先进技术至关重要。

在新生成的 475,000 PAS 数据集上进行训练后，GaUDI 在单目标生成任务和多目标生成任务中，无论是在有效性还是在平均误差方面都优于其他领先的扩散模型。GaUDI 提供了具有最佳特性的新型分子，甚至超出了原始数据集的分布。