Redian新闻
>
改进分子表征学习,清华团队提出知识引导的图 Transformer 预训练框架

改进分子表征学习,清华团队提出知识引导的图 Transformer 预训练框架

公众号新闻

ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯



编辑 | 紫罗

学习有效的分子特征表征以促进分子特性预测,对于药物发现具有重要意义。最近,人们通过自监督学习技术预训练图神经网络(GNN)以克服分子特性预测中数据稀缺的挑战。然而,当前基于自监督学习的方法存在两个主要障碍:缺乏明确的自监督学习策略和 GNN 的能力有限。

近日,来自清华大学、西湖大学和之江实验室的研究团队,提出了知识引导的图 Transformer 预训练(Knowledge-guided Pre-training of Graph Transformer,KPGT),这是一种自监督学习框架,通过显著增强的分子表征学习提供改进的、可泛化和稳健的分子特性预测。KPGT 框架集成了专为分子图设计的图 Transformer 和知识引导的预训练策略,以充分捕获分子的结构和语义知识。

通过对 63 个数据集进行广泛的计算测试,KPGT 在预测各个领域的分子特性方面表现出了卓越的性能。此外,通过鉴定两种抗肿瘤靶点的潜在抑制剂验证了 KPGT 在药物发现中的实际适用性。总体而言,KPGT 可以为推进 AI 辅助药物发现过程提供强大且有用的工具。

该研究以《A knowledge-guided pre-training framework for improving molecular representation learning》为题,于 2023 年 11 月 21 日发布在《Nature Communications》上。

通过实验确定分子特性需要大量时间和资源,鉴定具有所需特性的分子是药物发现领域最重大的挑战之一。近年来,基于 AI 的方法在预测分子特性方面发挥着越来越重要的作用。基于 AI 的分子特性预测方法的主要挑战之一是分子的表征。

近年来,基于深度学习的方法的出现成为预测分子特性的潜在有用工具,主要是因为它们具有从简单输入数据中自动提取有效特征的卓越能力。值得注意的是,各种神经网络架构,包括循环神经网络(RNN)、卷积神经网络(CNN)和图神经网络(GNN)擅长对各种格式的分子数据进行建模,从简化的分子输入行输入系统(SMILES)到分子图像和分子图。然而,标记分子的有限可用性和化学空间的广阔限制了它们的预测性能,特别是在处理分布外数据样本时。

随着自监督学习方法在自然语言处理和计算机视觉领域取得的显著成就,这些技术已被用于预训练 GNN 并改进分子的表征学习,从而在下游分子性质预测任务中取得实质性改进。

研究人员假设将定量描述分子特征的额外知识引入自监督学习框架可以有效应对这些挑战。分子有许多定量特征,例如分子描述符和指纹,可以通过当前建立的计算工具轻松获得。整合这些额外的知识可以将丰富的分子语义信息引入自监督学习中,从而大大增强语义丰富的分子表征的获取。

现有的自监督学习方法通常依赖 GNN 作为骨干模型。然而,GNN 只能提供有限的模型容量。此外,GNN 可能很难捕获原子之间的远程交互。基于 Transformer 的模型已经成为游戏规则改变者。其特点是参数数量不断增加,并且能够捕获长程相互作用,为全面模拟分子的结构特征提供了有希望的途径。

自监督学习框架 KPGT

在此,研究人员引入了一种自监督学习框架 KPGT,旨在增强分子表征学习,从而推进下游分子属性预测任务。KPGT 框架包含两个主要组件:称为 Line Graph Transformer (LiGhT) 的骨干模型和知识引导的预训练策略。KPGT 框架结合了 LiGhT 的高容量模型,该模型专门用于精确建模分子图结构,以及捕获分子结构和语义知识的知识引导预训练策略。

研究人员利用 ChEMBL29 数据集中的大约 200 万个分子使用知识引导的预训练策略对 LiGhT 进行预训练。

图示:KPGT 概述。(来源:论文)

KPGT 在分子性质预测方面优于基线方法。与几种基线方法相比,KPGT 在 63 个数据集上取得了很大的进步。

图示:KPGT 和基线方法在分子性质预测方面的比较评估。(来源:论文)

此外,通过成功利用 KPGT 识别造血祖细胞激酶 1 (HPK1) 和成纤维细胞生长因子受体 (FGFR1) 两个抗肿瘤靶点的潜在抑制剂,展示了 KPGT 的实际应用性。

图示:使用 KPGT 识别 HPK1 抑制剂。(来源:论文)

图示:使用 KPGT 识别 FGFR1 抑制剂。(来源:论文)

研究局限性

尽管 KPGT 在有效分子特性预测方面具有优势,但仍然存在一些局限性。

  • 首先,附加知识的整合是所提方法最显著的特征。除了 KPGT 中使用的 200 个分子描述符和 512 个 RDKFP 之外,还有可能纳入各种其他类型的附加信息知识。
  • 此外,进一步的研究可以将三维 (3D) 分子构象整合到预训练过程中,从而使模型能够捕获有关分子的重要 3D 信息,并有可能增强表征学习能力。
  • 虽然 KPGT 目前采用具有大约 1 亿个参数的主干模型,以及对 200 万个分子的预训练,但探索更大规模的预训练可以为分子表征学习提供更实质性的好处。

总的来说,KPGT 为有效的分子表征学习提供了强大的自监督学习框架,从而推动了人工智能辅助药物发现领域的发展。

论文链接:https://www.nature.com/articles/s41467-023-43214-1

人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
「GPT-4只是在压缩数据」,马毅团队造出白盒Transformer,可解释的大模型要来了吗?當病人愛上醫生起底PC新机皇:高通4nm芯片,Arm架构Windows系统,内置Transformer加速,还配了5G和WiFi7性能大涨20%!中科大「状态序列频域预测」方法:表征学习样本效率max|NeurIPS 2023 Spotlight预测token速度翻番!Transformer新解码算法火了,来自小羊驼团队|代码已开源预训练机器阅读理解模型:对齐生成式预训练与判别式下游场景Meta对Transformer架构下手了:新注意力机制更懂推理华为改进Transformer架构!盘古-π解决特征缺陷问题,同规模性能超LLaMADeepMind指出「Transformer无法超出预训练数据实现泛化」,但有人投来质疑寓言故事:打着灯笼找魔鬼智能的本质就是压缩?马毅团队5年心血提出「白盒」Transformer, 打开LLM黑盒!Hyena成下一代Transformer?StripedHyena-7B开源:最高128k输入,训练速度提升50%​将专家知识与深度学习结合,清华团队开发DeepSEED进行高效启动子设计我在Performer中发现了Transformer-VQ的踪迹Transformer挑战者出现!斯坦福CMU联合团队,开源模型及代码,公司已创办NeurIPS 2023 | MCUFormer: 可在内存有限微控制器上部署的Vison Transformer模型ConvNet与Transformer谁更强?Meta评测4个领先视觉模型,LeCun转赞谷歌DeepMind力证:Transformer模型无法超越训练数据进行泛化!GPT-4终局是人类智慧总和!NeurIPS 2023 | 结合脉冲神经网络和Transformer的纯加法Transformer南开&山大&北理工团队开发trRosettaRNA:利用Transformer网络自动预测RNA 3D结构Yann LeCun点赞!Meta对Transformer架构下手了:新注意力机制更懂推理Professor Dajiong Lu elaborates on Accurate Earthquake PredictioICCV 2023 | 浙大&阿里提出:基于Transformer的可泛化人体表征来了!Transformer变革3D建模,MeshGPT生成效果惊动专业建模师,网友:革命性ideaNeurIPS 2023 | MixFormerV2:基于Transformer的高效跟踪器网络规模、训练学习速度提升,清华团队在大规模光电智能计算方向取得进展Transformer变革3D建模!MeshGPT来了!效果惊动专业建模师。。。让大模型自主探索开放世界,北大&智源提出训练框架LLaMA-Rider让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接MIT斯坦福Transformer最新研究:过度训练让中度模型「涌现」结构泛化能力新加坡国立大学发布图文预训练框架 CosMo,助力长文本理解起点谷歌DeepMind力证:GPT-4终局是人类智慧总和!Transformer模型无法超越训练数据进行泛化红色日记 读《岳飞》6.16-30CIKM 2023最佳应用论文:多时间尺度分布预测的用户表征学习方法
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。