将蛋白质语言模型扩展到千亿参数,深度解读百图生科、清华xTrimoPGLM模型
机器之心发布
近日,百图生科与清华大学联合提出了一种名为 xTrimo Protein General Language Model (xTrimoPGLM) 的模型,参数量高达千亿(100B)。相关成果于 2023 年 7 月 7 日在 biorxiv 上发布。
MLM-adapted GLM:接着 MLM 预训练后的模型,继续训练 GLM 目标函数; GLM-adapted MLM:接着 GLM 预训练后的模型,继续训练 MLM 目标函数;
CDR3 短序列掩码(CSM):对 CDR3 部分区域进行掩码重设计。 CDR3 全序列掩码(CWM):对 CDR3 全部区域进行掩码重设计。 CDR3 随机突变(CRM):对 CDR3 区域内特定位点的随机 3-6 个位置进行突变。 CDR3 随机检索(CRR):使用来自 SARS-CoV-2 野生型库中其他抗体的序列随机替换 CDR3 区域。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章