让所有人都能做蛋白质结构预测,华为昇思 MindSpore 最新成果将开源
作者:机器之心编辑部
华为推出全流程蛋白质结构预测工具 MEGA-Protein(MindSpore for Evolutionary Generation & Assessment Protein),其中业界首创 AI MSA 引擎使得蛋白质结构预测突破「孤儿序列」等高精预测限制
这是团队在昇腾 AI 基础软硬件平台上实现 AlphaFold 2 从训练到推理全流程打通且效率同比提升 2 至 3 倍后,取得的又一次成功。相关代码和模型参数后续会在昇思 MindSpore 社区开源,算法和相关的论文也会尽快公布。
昇思 MindSpore 首席架构师金雪锋评论称:「该工作是产学界合作的一次重大成功实践,也是科学计算与人工智能结合潜力的展示。」金雪锋补充说,支持多计算范式的 MindSpore 能够有效提升科研工作的生产力,大幅度提升科学计算场景的性能,希望后续能够看到更多、更好的成果涌现出来。
蛋白质是生命活动中最主要的功能体之一,在人体结构和功能中发挥着核心作用。然而,能够解析蛋白质结构的实验手段通常都价格不菲且周期较长,很难直接通过它们去探索整个「蛋白质宇宙」。
蛋白质的 3D 结构完全由组成它的氨基酸序列所决定(1972 年诺贝尔奖得主 Christian Anfinsen 曾通过实验证明),这就从理论上确认了:存在一个「理想函数」,能够将氨基酸序列 x 映射到其 3D 结构 y。因此,蛋白质结构预测问题就转化成典型的数学建模问题。AlphaFold 2 则是目前为止人们所能找到的、最接近「理想函数」的一个模型。
但是,为了达到高精度的预测,AlphaFold 2 必须引入额外的信息,也即蛋白多序列比对(MSA)。有多少 MSA 可用,直接决定了 AlphaFold 等模型的预测精度。
另一方面,AlphaFold 2 等标准检索 MSA 流程,是在数据库中使用搜索工具对目标蛋白及相关序列进行多重序列比对,该流程需要配置数据库,其中数据库规模大概在 1.3T 左右,配置耗时长且繁琐,并且使用数据检索工具(如 HHblits,JackHMMER,MMseqs2 等)搜索时间长,不利于科研人员展开研究。
昇思 MindSpore 社区与昌平实验室、北京大学生物医学前沿创新中心(BIOPIC)和化学与分子工程学院、深圳湾实验室高毅勤教授课题组新提出的 AI MSA 引擎,对于原始 MSA 质量不高或者数量少的蛋白,将 AI MSA 引擎接入 AlphaFold 2 后可以明显改善结构预测的质量,如下图所示:
团队还发布了首个具有高覆盖度和多样性的百万级蛋白质结构预测数据集 PSP。该数据集由 570k 个真实结构序列(10TB)和 745k 个互补蒸馏序列(15TB)组成。昇思 MindSpore 基于该数据集可进行蛋白质结构预测训练,同时提供了丰富的处理及使用该数据集的接口,欢迎试用。
相关工作
MindSpore Science 开源路径
https://gitee.com/mindspore/mindscience
昇思 MindSpore 最新成果开源:高毅勤课题组发布高性能蛋白质结构预测工具
https://biopic.pku.edu.cn/xwzx/mtbd1/517695.htm
昇思 MindSpore 再突破:蛋白质结构预测训练推理全流程开源,助力生物医药发展
https://icg.pku.edu.cn/xwzx/kycg/520034.htm
昇思 MindSpore 蛋白质结构预测模型拿下 CAMEO 全球预测竞赛第一
https://www.huawei.com/cn/news/2022/4/mindspore-cameo-protein-ascend
了解更多,可访问并关注昇思科学计算开源项目
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章