药物设计领域的BERT?三维分子表征学习框架Uni-Mol,一个模型刷爆所有下游任务
▲ 图1. Uni-Mol框架示意图。Uni-Mol由两个模型组成:一个是由2.09亿分子三维构象训练的分子预训练模型;一个是由3百万候选蛋白口袋数据训练的口袋预训练模型。这两个模型独立用于不同的任务,在蛋白质-配体结合任务上两个都用。
▲ 图2. Uni-Mol模型架构。左图:整体预训练架构,包括输入和预训练设计的任务;中间:模型结构,包括模块连接和3D结构编码;右图:模型基本单元,包括表征以及更新过程
1.1.2 原子对表征
其中 是原子对表征, 是 attention heads 的数目, 是隐藏层维度, 是投影矩阵。
此外,为了利用原子表征中的三维信息,作者还引入了原子对到原子的通信,将原子对表征作为自注意力机制的 bias 项,可表示成如下公式:
1.1.3 具有SE(3)等变性的coordinate head
1.2.1 预训练数据集
为了利用大规模无标签数据进行预训练,深势团队自己构造了两个大规模的有机小分子和蛋白口袋 3D 结构数据集。通过统一的预训练模型框架,结合有效的预训练任务策略,在大规模分布式集群上进行了预训练模型的训练。
1.2.2 自监督策略
与 BERT 类似,Uni-Mol 中也使用了对原子掩码的预测任务。对于每个分子/口袋,通过添加了一个特殊的原子 [CLS],其坐标是所有原子的中心,用 [CLS] 的表征代表整个分子/口袋的表征。然而,由于 3D 空间位置编码是有化学键信息泄露的,模型很容易依据相互间的距离推测出被掩盖的原子类型。因此单独对于原子掩码进行预测并不能帮助模型学习有用的信息。
为了解决这个问题同时又能从 3D 信息中学习,Uni-Mol 设计了一个基于 3D 坐标的去噪任务。具体实现中,对于被掩盖的 15% 的原子,给坐标同时加入 [-1Å , 1Å] 的均匀分布噪声,之后模型根据被污染的坐标计算出来空间位置编码。这样一来,对于原子掩码的预测任务就不再可有可无。此外,这里还加入了两个额外的任务单元来直接对于原子坐标进行预测:
1)还原被掩盖的原子间欧氏距离 基于原子对表征,预测被掩盖的原子对的欧氏距离。
2)直接预测被掩盖的原子坐标 通过设计合理的结构,从而保证模型更新对于平移、旋转具有等变性(SE(3) 等变性),去直接预测被掩盖的原子的正确坐标。
两个预训练模型都使用了上述的自监督任务帮助训练,由于蛋白口袋与许多药物设计任务直接相关,作者认为在候选蛋白质口袋数据上的预训练可以提高与蛋白质-配体结构及相互作用有关的任务的表现。图2是整个预训练框架的说明。
2.1 分子性质预测
首先在备受 AI 从业者关注的分子性质预测任务上进行了实验。实验使用的 15 个数据集均来自于 MoleculeNet,划分方式上对齐了之前的工作,采用了骨架划分。从结果上来看,Uni-Mol 在 14/15 个数据集上取得 SOTA,尤其是在 3D 结构强相关的回归任务上,例如水化自由能(ESOL,FreeSolv),亲脂性( Lipo),物化性质(QM 系列)上面相对于之前的 SOTA 平均有 21% 的效果提升!
2.2 分子构象生成
区别于以往的分子构象生成 baseline,Uni-Mol 是对 RDKit 生成的构象进行优化,在评价 AI 模型生成构象多样性的指标 Coverage 和精度指标 Matching 上,Uni-Mol 基本上全面超越现有的 baseline。
同时深势科技团队也提出对于该领域,目前使用的公开数据集主要关注低能的真空、水相模拟构象,而缺少真实的和蛋白结合的药效构象,因此分子构象生成的数据标准也是未来一个很重要的研究方向。
2.3 口袋性质预测
可药性,即候选蛋白质口袋与特定分子配体产生稳定结合的能力,是候选蛋白质口袋最关键的性质之一。由于有标签的数据很有限,这项任务非常具有挑战性。例如常用的 NRDLD 数据集,只包含 113 条数据。因此,除了 NRDLD 之外,作者还构建了一个回归数据集,用于模型性能测试。在表 4 中可以看到,Uni-Mol 表现卓越。
2.4 蛋白质-配体结合位点预测
蛋白质-配体结合的预测是药物设计中最重要的任务之一。Uni-Mol 结合了分子和口袋预训练模型来学习基于距离矩阵的评分函数,之后对复杂的构象进行采样和优化。在基准数据集上,作者使用 CASF-2016 作为测试集,使用 PDBbind General set 作为训练集,并且和测试集进行了去重,确保结果的可泛化性。
在 docking power 和 binding pose 两项评估结合最关键的指标上,Uni-Mol 均表现非常出色,在打分函数 docking power 测评上超越了一系列主流的 docking 工具以及 AI based 打分函数模型,更令行业兴奋的是,在最为直接的 binding pose 预测能力上面,对于 CASF-2016 基准数据集(RMSD<2.0 一般认为是可接受的 pose 预测结果)预测的准确结合构象的比例超过目前主流的 docking 工具约 35%,这无疑是巨大的飞跃。
据了解,深势科技的研究员们希望通过建立统一的分子预训练框架,能够方便药物研发相关的从业人员高效精准的对于关注的具体下游任务能做到统一的建模,此外对于蛋白分子结合预测这一核心问题的探索,也预期着 Uni-Mol 能发挥巨大的潜力。作者同时也提到多个潜在的研究方向:
1. 更好的交互机制,如何将两个预训练模型放在一起进行微调。在当前版本的 Uni-Mol 中,预训练口袋模型和预训练分子模型之间的交互很基础,这块认为有较大的改进空间;
2. 更大的 Uni-Mol 模型。增大预训练模型往往能带来可观的提高,因此,用更多的数据来训练一个更大的 Uni-Mol,也是很值得探索的;
3. 更多高质量的 benchmark。尽管在 AI 模型在药物设计领域已经有很多应用,但高质量的公开数据集一直比较少,许多公开数据集并不能满足现实世界的需求。相信高质量的 benchmark 将成为整个领域的灯塔,并大大加速药物设计的发展。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者