Redian新闻
>
用 Transformer 评估蛋白质结合界面,区分天然蛋白复合物和不正确构象

用 Transformer 评估蛋白质结合界面,区分天然蛋白复合物和不正确构象

公众号新闻

ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑 | 萝卜皮

计算蛋白质结合研究广泛用于研究基本生物过程,从而促进现代药物、疫苗和疗法的开发。评分函数旨在评估和排序预测蛋白质复合物的结合强度。然而,蛋白质结合界面的准确评分仍然是一个挑战。

佛罗里达国际大学(Florida International University)的研究人员展示了 Protein binding Interfaces with Transformer Networks (PIsToN) 的方法来区分天然蛋白复合物和不正确构象。

蛋白质界面被转化为二维图像(界面图)的集合,每个图像对应于一种几何或生化特性。其中,像素强度代表特征值。其神经网络改编自视觉 Transformer,同时进行了多项增强:接受基于经验的能量术语的混合组件、突出基本特征和结合位点的多注意力模块以及使用对比学习,从而获得更好的性能。

该研究以「Evaluating protein binding interfaces with transformer networks」为题,于 2023 年 9 月 7 日发布在《Nature Machine Intelligence》。

随着基于机器学习的 AlphaFold 等工具的出现,蛋白质结构预测变得更加容易处理。该领域的下一个挑战是蛋白质对接。给定两种蛋白质结构(例如,设计的分子和受体或抗体和抗原),对接方法旨在通过计算预测可以形成稳定复合物的最佳结合位置和构象。蛋白质对接工具对于药物、疫苗和疗法的成功开发至关重要。

虚拟筛选已被证明可以节省药物设计过程中的财力和劳动力资源。然而,用于对接的现代计算工具预测了大量具有良好结合分数的候选复合物,但它们在实验室中尚未得到确认。

科学家已经提出了几种方法来将复杂的 3D 信息简化为紧凑的标签,同时保留与绑定相关的空间特征,从而用于评估蛋白复合物的结合界面。例如,PatchBag 根据小表面单元的几何特征来表征蛋白质界面区域,从而搜索蛋白质之间的进化和功能关系。深度局部分析使用局部定向立方体评估 3D 构象信息。

当前比较优秀的方法,分子表面相互作用指纹 (MaSIF) 采用「patch」数据表示来预测蛋白质相互作用。Patch 被定义为溶剂排除的蛋白质表面上的区域,其围绕潜在接触点具有固定的测地线半径。表面上的每个点都与几何和物理化学特征相关。训练暹罗图卷积网络以最小化交互 patch 的嵌入之间的距离,同时最大化非绑定patch的嵌入距离。据报道,MaSIF 比现有对接工具快 1,000 倍,与标准对接工具相比,精度仅略有下降。

但是,MaSIF-Search 存在许多局限性。首先,Siamese网络只能将属于单个蛋白质的特征作为输入,而排除显式的相互作用属性。虽然 Siamese 方法可以超快速扫描分子表面相容性,但它忽略了基本的相互作用项,例如范德华力、氢键、去溶剂化、相对侧原子之间的距离等等。

其次,MaSIF 训练方法通过随机选择界面区域之外的表面来生成负patch对。因此,负面实例由易于区分的非互补 patch 组成。研究人员假设使用近乎原生的非交互 patch 对可以实现更好的训练。

第三,MaSIF 网络架构仅由卷积层组成,而可以考虑更好的选择,例如基于注意力的模型和时间序列预测。

以 MaSIF-Search 为参照,佛罗里达国际大学的研究人员提出了一种名为 Protein Interface Scoring with Transformer Network (PIsToN) 的工具。

图示:PISTON 的特征工程流程。(来源:论文)

研究人员将蛋白质复合物的界面表示为 2D 多通道图像。与 MaSIF 方法一样,蛋白质表面的圆形「patch」首先与几何和物理化学特征相关。该团队执行额外的步骤,将 patch 转换为图像,其像素强度对应于与 1Å 分辨率的表面点相关的特征值。与 MaSIF 的单 patch 方法不同,该方法考虑来自蛋白质结合界面的成对 patch,使研究人员能够计算基本的相互作用特性,例如原子之间的距离、相对可及表面积 (RASA)、范德华相互作用、互补表面电荷和疏水性等等。

图示:PIsToN 网络架构。(来源:论文)

该方法为视觉 Transformer(ViT)模型提供了新颖的适应性,从而提高了预测性能并提供了可解释性。由于 ViT 最适合图像分类,因此选择用于表示特征的图像是一个理想的补充。

除了 ViT 的标准空间注意力之外,该方法还附加了另一个与特征类型(几何或物理化学)相对应的注意力轴。每个蛋白质特性的潜在表示是通过独立的 ViT 网络学习的,并使用 Transformer 编码器在潜在空间中组合。

图示:PIsToN 的可解释性。(来源:论文)

同时,研究人员使用将经验能量项与表面特征表示相结合的混合组件增强了 ViT 模型。另外,多注意力 ViT 允许通过两种方式进行解释:要素类和分类决策所必需的绑定位点。

并且,研究人员引入了一种具有新颖损失函数的对比学习策略,以学习本地绑定器和诱饵的判别性嵌入。先前对蛋白质界面进行评分的方法使用正随机对或多个正负蛋白质复合物的混合批次。在该方法中,每次训练迭代都包含同一蛋白质复合物的可接受和不正确的结合姿势的多个视图。损失函数中监督对比、边缘排序和二元交叉熵项的组合有助于在嵌入空间中聚集正确的对接模型,同时分离不正确的预测。

图示:蛋白质结合评分函数的分类性能。(来源:论文)

PIsToN 在分类和排序任务中优于其他蛋白质界面评估方法。然而,每种方法的误报率都很高,表明需要进一步改进。研究发现,对于 PIsToN 和其他竞争工具 iScore,CAPRI 模型评分排名第一的预测成功率低至 38%。排名性能有限的一个可能原因是绑定位点的竞争。

例如,如果两种蛋白质有几个有利的结合点,当前的方法将无法区分具有最小能量的结合点。PIsToN 模型预测蛋白质结合界面的可行性,但不一定反映结合的强度。

这种改进可以通过对具有实验结合亲和力的蛋白质复合物集(例如 PDBbind)进行额外训练来实现。然而,当考虑前 10 个预测时,PIsToN 识别出了 69% 的正确复合物,这明显优于竞争对手。

图示:成功率表现。(来源:论文)

事实上,PIsToN 可以将天然结合复合物排名高于其他方法,这表明该模型在虚拟筛选中具有价值。给定两个蛋白质靶标的对接模型,PIsToN 有更高的机会将正确的配置放入前 10 个预测中,从而有可能加快蛋白质-蛋白质相互作用测定的筛选。当需要筛选数千个候选物时,PIsToN 卓越的计算效率可以节省计算资源。虽然当前的研究重点是评估大分子发现,但 PIsToN 可以扩展到蛋白质-配体相互作用,而不需要对网络进行任何改变。另一个应用是分子拟态搜索,其中扫描大量抗体抗原结构的交叉反应性。

图示:PIsToN 和 MaSIF 的运行时比较。(来源:论文)

与其他界面评分方法相比,PIsToN 的强大性能表明并不总是需要发明新的机器学习技术来提高性能。然而,更重要的是通过反映对该领域理解的工程架构来更有效地使用现有工具。

论文链接:https://www.nature.com/articles/s42256-023-00715-4

人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
MIT研究人员将Transformer与图神经网络结合,用于设计全新蛋白质《真爱》&《用情》用 Transformer 和 RLHF「炼」大模型,危?ViLT: 没有卷积和区域监督的视觉-语言Transformer模型Transformer论文「重磅更新」!八子全部离职,谷歌删除Attention Is All You Need所有作者邮箱围绕 transformers 构建现代 NLP 开发环境南开&山大&北理工团队开发trRosettaRNA:利用Transformer网络自动预测RNA 3D结构云原生 AI 工程化实践:FasterTransformer 加速 LLM 推理ICML 2023 | 神经网络大还是小?Transformer模型规模对训练目标的影响NeurIPS 2023 | 结合脉冲神经网络和Transformer的纯加法TransformerLetting听我说,Transformer它就是个支持向量机Transformer速查宝典:模型、架构、训练方法的论文都在这里了Transformer能解释一切吗?Science | AI设计蛋白新突破,David Baker设计出具有两种不同构象的铰链蛋白Meta对Transformer架构下手了:新注意力机制更懂推理NeurIPS 2023 | MCUFormer: 可在内存有限微控制器上部署的Vison Transformer模型5125 血壮山河之武汉会战 富金山战役 13ICCV 2023 | token过度聚焦暴露注意力机制弱点,两种模块设计增强视觉Transformer鲁棒性Transformer 一起动手编码学原理ICCV 2023 | 通向3D感知大模型的必由之路!UniTR:统一多模态Transformer Encoder!ICML 2023 | UPop: 使用统一渐进剪枝压缩视觉-语言Transformers第一和第二谷歌最后一位Transformer论文作者离职创业,野心不小,要颠覆当前生成AI范式NeurIPS 2023 | MixFormerV2:基于Transformer的高效跟踪器诺奖风向标之拉斯克奖揭晓:蛋白质结构预测工具 AlphaFold 再获殊荣!起底PC新机皇:高通4nm芯片,Arm架构Windows系统,内置Transformer加速,还配了5G和WiFi7彻底抛弃Transformer,八金刚之一再创业!联手前谷歌Brain大佬创建自然启发智能模型2023拉斯克奖为何给了人工智能预测蛋白质结构?还敢说能吃辣吗​下一代Transformer:RetNet结构可视化及Vision RetNet展望Yann LeCun点赞!Meta对Transformer架构下手了:新注意力机制更懂推理深圳湾实验室团队最新综述:蛋白质结构预测中“分而治之”的策略,以及后AlphaFold2时代Transformer出逃八子最后一人正式创业!坐标日本搞AI“群”模型,本人:在谷歌有被困住的感觉仅根据蛋白质序列便可预测相互作用界面,一种基于Transformer的蛋白预测模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。