Redian新闻
>
Nature子刊:精准预测分子性质和药物靶标的无监督学习框架

Nature子刊:精准预测分子性质和药物靶标的无监督学习框架

科技


药品的临床疗效与安全性由在人类蛋白质组内的分子靶标决定。本文中,湖南大学信息科学与工程学院的李肯立/曾湘祥教授课题组提出了一种无监督的预训练深度学习框架,对 1000 万个未标记的类药性、生物活性分子进行预训练,以预测候选化合物的药物靶标和分子性质。



论文标题:
Accurate prediction of molecular properties and drug targets using a self-supervised image representation learning framework

论文链接:

https://www.nature.com/articles/s42256-022-00557-6

收录期刊:

Nature Machine Intelligence




背景介绍


药物的临床疗效和安全性取决于药物分子的性质和药物作用的靶点。然而,通过湿实验和临床实验的方式评估药物性质和药物靶点是代价巨大的,平均一款新药的研发需要花费 10 年以上时间,10 亿美元成本。通过人工智能技术预测药物性质和药物靶点,可以加速药物研发进程,大幅减少药物研发成本。


在计算机视觉中无监督的最新进展下,本文开发了一个具有化学意识的无监督分子图像预训练框架—— ImageMol,用于从大规模分子图像中学习分子结构。ImageMol 将图像处理框架与综合分子化学知识相结合,以可视化计算的方式提取精细像素级分子特征,在各种药物发现任务中演示了 ImageMol 的高准确性,为计算药物发现提供了一个强大的预训练深度学习框架。



本文创新和贡献:


1. 以往分子性质及药物靶标预测的研究大多围绕序列表示和图(graph)表示展开,它们在提取分子表征时存在一定的局限性。本文提出首个基于分子图像的无监督深度学习框架,为性质预测与靶标预测的分子图像推理提供了基础性、关键性的支撑,证明了分子图像在该领域具有巨大的潜力,开创了分子表征学习的新范式,具有重要的应用价值。


2. 相比于现有的基于序列和图的方法,该研究提供了分子结构重要性的实验观察,展示了模型对分子图像的全局注意力与局部注意力,这些结果使研究人员能够在视觉上直观地理解分子结构是如何影响性质和靶点。


3. 该研究在 51 个药物发现的基准数据集上进行评估,展示了其在性质预测和靶点预测的性能均优于其他模型。此外,在美国国家转化科学推动中心(NCATS)的 13 个实验数据集中准确识别了抗 SARS-CoV-2 分子并确定了治疗 COVID-19 的临床候选 3CL 蛋白酶抑制剂,这对于加速新冠药物研发的进程具有重要意义。




方法介绍


2.1 ImageMol预训练策略


由于有标签的数据较少,通过预训练可以提升模型的效果。目的为让模型学习如何通过对大规模的无标记数据集进行训练来提取表达性表示,然后将预训练好的模型应用于相关的下游任务并进行微调,以提高其性能。在对模型进行预训练时,需要确定几个有效的、与任务相关的代理任务。与基于图的和基于 SMILES 的预训练方法(只考虑一致性/相关性)不同,本文设计了考虑一致性、相关性和合理性的 5 个代理任务(MG3C、MIR、MCL、MRD、JPP)。



2.2 预训练过程和微调


在预训练中,本文使用了来自 PubChem 的约 1000 万个未标记分子进行无监督的预训练。ImageMol 的预训练包括两个步骤,分别是数据增强和训练过程。完成预训练后,本文在下游任务中对预训练的 ResNet18 进行微调。通过为预训练模型建立复杂的微调任务,可以进一步提高模型的性能。




实验


3.1 基准评估


本文使用两种最流行的拆分策略scaffold split与random scaffold split)来评估 ImageMol 在所有基准数据集上的性能。在分类任务中,利用 ROC 曲线面积 AUC,发现 ImageMol 在 scaffold split 上发现了更高的结果。本文使用了与最先进的卷积神经网络(CNN)框架 Chemception相同的实验设置进行比较。


ImageMol 对 HIV 和 Tox21 的检测结果优于 Chemception,表示 ImageMol 比 Chemception 能够从分子图像中获取更多的生物学相关信息。与 Chemception46,ADMET-CNN12 和 QSAR-CNN47 这三种最先进的基于分子图像的表达模型相比,ImageMol 在预测五种主要药物代谢酶的抑制剂和非抑制剂方面的 AUC 值更高。



ImageMol 与使用 random scaffold split 的基于指纹的模型(如AttentiveFP)、基于序列的模型(如 TF_Robust)和基于图的模型(如N-GRAM、GROVER 和 MPG)相比具有更好的性能。此外,与传统的基于 MACCS 的方法和基于 FP4 的方法相比,ImageMol 在 CYP1A2,CYP2C9,CYP2C19,CYP2D6 和 CYP3A4 上实现了更高的 AUC 值。



与基于序列的模型(包括 RNN_LR、TRFM_LR、RNN_MLP、TRFM_MLP、RNN_RF、TRFM_RF和CHEM-BERT)和基于图的模型(包括 MolCLRGIN、MolCLRGCN 和 GROVER)相比,ImageMol 在 CYP1A2、CYP2C9、CYP2C19、CYP2D6、CYP3A4 上得到了更好的 AUC 值。



3.2 13个SARS-CoV-2靶标的抗病毒活性预测


在 13 个 SARS-CoV-2 生物检测数据集中,ImageMol 获得了 72.6% ~ 83.7% 的高 AUC 值。为了测试 ImageMol 是否捕获到生物相关特征,本文使用 ImageMol 的全局平均池化(GAP)层提取潜在特征,并使用t分布随机邻域嵌入(t-SNE)对潜在特征进行可视化。


在所有 13 个靶标上,ImageMol 通过识别的潜在特征可以很好地将有无活性的抗 SARS-COV-2 药物进行区分。这些观察结果表明,ImageMol 可以准确地从分子图像中提取区分的抗病毒特征,用于下游任务。



3.3 识别抗SARS-COV-2抑制剂


通过 ImageMol 框架下的 3CL 蛋白酶抑制剂和非抑制剂数据集的分子图像表示,发现 3CL 抑制剂和非抑制剂在 t-SNE 图中很好地分离(b)。ImageMol 从 16 种已知的 3CL 蛋白酶抑制剂中鉴定出 10 种药物,表明在抗 SARS-COV-2 药物发现中具有较高的泛化能力(c,d)。



3.4 注意力可视化


ImageMol 可以从分子图像表示中获取化学信息的先验知识,包括 =O 键、-OH键、-NH3 键和苯环(a)。图 b 和 c为 ImageMol 的 Grad-CAM 可视化的 12 个示例分子。这表示 ImageMol 同时准确地对全局(b)和局部(c)结构信息进行注意捕获,这些结果使研究人员能够在视觉上直观地理解分子结构是如何影响性质和靶点。



3.5 消融分析


ImageMol 比 ImageMol_NonPretrained 的标准差更低,这表明预训练策略提高了 ImageMol 对超参数的鲁棒性。ImageMol 可以预训练更多的类药物分子,且  ImageMol 框架集成实现的每个任务都协同地提高了性能,这表示未来可以通过从更大的类药物化学数据集进行预训练来进一步改进模型。




总结


本文提出了一种基于无监督的预训练深度学习框架,该框架结合了分子图像和无监督学习来学习分子表征。ImageMol 将为各种新发疾病(包括 COVID-19 大流行和未来的大流行)的快速药物发现和开发提供强大的工具。实验表明,ImageMol 在药物发现的不同任务中实现了高效的性能,优于目前最先进的方法,具有更好的可解释性,在识别分子性质和靶标结合的生物相关化学结构或亚结构方面更直观。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Nature子刊:北大清华等团队发现,读完大学,中国学生批判性思维和学术技能出现全面下降NeurIPS 2022 | 基于精确差异学习的图自监督学习ECCV 2022 | 半监督学习的隐秘角落: 无监督的数据选择性标注 USL10年前被网暴的清华教授, 精准预测到了2022年!Nature子刊:年龄越大,女性怀上龙凤胎的概率就越大,原来是进化上的一个意外?繁忙之夜清华&上交等发表Nature子刊!分片线性神经网络最新综述!Nature子刊文章:带映射和带结构之间的机器学习路线Nature子刊 | 谭济民、夏波等提出基因组构象预测模型及高通量计算遗传筛选方法Nature子刊:高强/黄河团队合作绘制肝癌组织乳酰化修饰图谱Nature子刊:无症状感染者会不会有新冠后遗症?医美抗衰技术新变革!Nature子刊:细胞外囊泡装载mRNA新型递送系统,为下一代基因治疗提供新方向Nature子刊:国内流行BA.5对心肌细胞的损伤能力增强COLING 2022 | 融合自适应机制与自训练框架的无监督文本顺滑方法Nature子刊:中国科学家研发出新的新冠黏膜疫苗STM丨“一个都不落”——李炜、Robert Siliciano团队获得消灭潜伏HIV病毒的新药物靶点和药物组合冠军是巴西!人工智能精准预测世界杯!人工智能就业趋势大公开!为什么美国大使馆可以精准预测Uni-Mol:分子3D表示学习框架和预训练模型项目原作解读精准预言女王驾崩,算命师揭"2023最新预测"!肯爷超惨恐坐牢安子跑得比猎豹快的机器人来了,还能游泳跳跃,大小仅为毫米级 | Nature子刊闻闻肉味就能瘦?Nature子刊:「气味疗法」可促进脂质代谢轻松减重,或是减肥困难户福音!AI为人类开药方:准确预测9000名癌症患者适用药物!成果登上Nature子刊,出自华人团队Nature子刊:年轻的血液真能返老还童?其细胞外囊泡是关键西电 NeurIPS 2022 | 基于结构聚类的异质图自监督学习糊里糊涂到终点。。。AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军NeurIPS 2022 | 基于结构聚类的异质图自监督学习油鸡晋升预言帝!精准预测世界杯!网友:谁家有鸡借我使使清华、上交等联合发表Nature子刊:「分片线性神经网络」最新综述!NeurIPS 2022 | 香港理工提出OGC:首个无监督3D点云物体实例分割算法秋天的仪式最新综述:视频数据的无监督域适应在美国240.到处玩女人,甚至耍流氓
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。