Redian新闻
>
Cell Syst | 上海药物所郑明月/廖苍松提出机器学习辅助定向进化新方法

Cell Syst | 上海药物所郑明月/廖苍松提出机器学习辅助定向进化新方法

公众号新闻


定向进化是模拟自然进化机制,利用现代分子生物学方法创造大量的突变基因文库,采用灵敏的定向筛选策略,创造出自然界并不存在的或改良特性的蛋白质等生物分子的一种方法。定向进化已广泛应用于蛋白质的分子改造和优化,被认为是生产具有改良或全新特性的蛋白质的高效方法,对于酶工程、多肽和大分子药物设计都具有重要意义。传统的定向进化实验流程包括:筛选测试大量突变序列的功能,将得到的最优序列作为亲本序列进行下一轮的突变和筛选,实行多轮突变筛选以得到功能优化的蛋白序列。然而,传统的定向进化方式容易陷入局部最优,且实验所得的突变序列空间非常受限。


近年来,机器学习辅助定向进化得到越来越多的关注,通过计算机模型模拟实验筛选过程,可以显著减少实验筛选负担,提高筛选效率。机器学习方法最重要的是建立模型学习目标蛋白的序列突变体-功能的函数映射关系,这种映射关系被称为蛋白质适应度图景(protein fitness landscape),其中适应度(fitness)是一个抽象概念,可定量刻画特定蛋白质序列具有的某种生物学功能(比如蛋白的热稳定性、与其他蛋白质的相互作用强弱、催化特定酶促反应的效率等)。由于蛋白质功能不同,适应度图景本身的内涵也各不相同。此外,蛋白质突变效应数据难以获得,实验费时费力,蛋白质适应度图景十分复杂。因此,如何使用有限的实验数据学习蛋白质适应度图景以指导定向进化实验成为一个难题。


中国科学院上海药物研究所郑明月课题组、廖苍松课题组提出了一种新的深度神经网络模型GVP-MSA,基于已有的不同类型的蛋白质适应度图景,通过迁移学习的方式构建新的目标蛋白的适应度图景。相关研究论文“Learning protein fitness landscapes with deep mutational scanning data from multiple sources”于2023年8月16日在Cell Systems在线发表。



为了解决这些问题,研究团队首先从蛋白质热稳定性,上位性效应和序列保守性等多个方面探讨了适应度图景的共同机制。蛋白质发挥其功能的基础是能够折叠和维持稳定的三维结构,对不同蛋白的计算结果发现,突变导致适应度的变化和热稳定性变化的数值上有相关性。其次,上位性效应在不同蛋白的适应度图景中也隐含有相似机制。上位性效应表示残基在蛋白质中存在相互作用,导致多点突变效应并不等于其组成的单点突变效应的加和。研究团队发现在不同蛋白适应度图景中,具有正向上位效应的双点突变的两个氨基酸的位置在三维结构上更加接近。另外,突变效应与同源序列的隐含分布之间的关系也具有共性。这些共性是适应度图景迁移学习的基础(图1)。


图1、蛋白质适应度图景迁移学习的动机和基础。a, 在不同蛋白的深度突变扫描实验中,突变导致的热稳定性变化与适应度变化相关。柱状图显示了由Rosetta计算的热稳定性和适应度变化之间的Spearman相关性。b, 具有正上位效应的双点突变的残基在三维结构上更加接近。粉色直方图表示具有正向上位效应的双点突变的残基间距离,蓝色直方图表示所有双点突变的残基间距离。


研究团队建立了一种新型的深度神经网络模型GVP-MSA,利用预训练的蛋白质语言模型处理目标蛋白的同源序列比对(MSA, multiple sequence alignment)信息,利用E-(3)等变图神经网络提取蛋白质三维结构信息,使用多任务学习的方式有效地学习整合不同维度、不同功能的蛋白质数据,从而泛化到新的目标蛋白体系。


图2、GVP-MSA模型架构和应用场景需求概览。a, GVP-MSA的模型架构。b, 蛋白质定向进化的应用场景需求:(1)没有目标蛋白质的适应度数据时,对新蛋白质的零样本预测能力;(2)已有少量目标蛋白的适应度数据时,模型的随机和按位置外推能力;(3)只有单点突变的适应度数据时,模型对多点突变效应的预测能力。


此外,研究团队设计了多种测试场景:单点突变效应的随机和按位置外推,对新蛋白质突变效应的零样本预测,以及由单点突变效应预测多点突变效应(图2)。这些场景模拟了在定向进化实验中不同阶段的实际需求。GVP-MSA在这三种测试情景中均有良好的表现,验证了适应度图景迁移学习的有效性。这一工作为机器学习辅助定向进化提供了新的思路,有助于更加高效地探索蛋白质序列突变空间,快速设计具有改良或全新特性的蛋白质序列。


全文链接:https://doi.org/10.1016/j.cels.2023.07.003



会议推荐

会议详情














会议名称:2023(第14届)细胞与基因治疗研讨会

暨抗体工程与创新免疫治疗技术论坛

主办单位生物谷、梅斯医学、同济大学附属同济医院、南京可缘

大会时间:9月22-23日

会地上海 

大会规模:1500人

2010年至今,生物谷联合各合作单位已经顺利召开了13届细胞与基因治疗研讨会与全球致力于细胞治疗行业同仁们一同成长沉淀,在提供行业信息交流平台的同时,也为基础研究提供了技术/产品等产业化的孵化平台。


基于此,本届会议继续以转化医学为切入点,以基础研究与临床应用相结合,针对细胞治疗的临床前沿研究、临床监管、治疗规范、细胞治疗安全性,免疫细胞新型疗法、实体瘤治疗、干细胞与癌症、抗体药物、核酸药物、基因编辑、肿瘤免疫治疗等热门议题进行讨论,邀国内外产学研医专家共聚,共绘产业发展新蓝图!

长按识别二维码


立即报名参会





微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
40年前上海药物所老师回复饶毅的信Nature | 上海药物所徐华强/赵丽华团队揭示B类GPCRs新型小分子药物靶点的偏向性激活机制ACS Nano | 上海药物所构建三元协同纳米粒攻破三阴性乳腺癌的免疫抑制网络两篇Cell和两篇Cancer Cell揭示驱动多种癌症生长的关键蛋白及其调控方式会议通知 | 首届机器学习与统计会议暨中国现场统计研究会机器学习分会成立大会MAGUS:机器学习与图论辅助的晶体结构搜索Adv Sci | 上海药物所合作发现全新蛋白质修饰类型——赖氨酸乙酰乙酰化Nature | 饶子和/裴钢点评!上海药物研究所破解GPCRs的激酶招募及偏向性信号转导机制The Good Shepherd Robert DeNiroMatt Damon Angelina Jolie, Alec Bfor whenever I am weak, then I am strong.BJP | 上海药物所发现AhR-铁死亡轴调控间充质干细胞治疗作用新周新气象PlayStation 4 pro 1tb black system 8.00 笑谈邂逅(12)永远怀念张厚感先生Cubist Systematic Strategies岗位专辑 | 海量岗位来袭!给爆火的Llama 2划重点,Huggingface机器学习科学家写了篇分析文章博士申请 | 香港理工大学MIND实验室招收进化计算/机器学习等方向博士/博后/RA中金+麦肯锡内推实习辅助,“个性学霸”人设完美对应招生官偏好,爱自己的100种方式之找对中介圆梦伦敦商学院!俄乌战争:美国愿景港大张老师:基于机器学习的量化交易方法研究|收获一作论文与导师推荐信!Excel变天!微软把Python「塞」进去了,直接可搞机器学习浙大团队将化学知识引入机器学习,提出可外推、可解释的分子图模型预测反应性能Cell子刊 | 卜军/钱昆/陈丰原团队开发中国人群代谢综合征早期筛查与风险预测新方法Cell Syst | 上海药物所提出机器学习辅助定向进化新方法Cell Rep | 中科院微生物所研究团队合作揭示高尔基体定位蛋白GPR108抑制抗病毒固有免疫反应新机制ACS Central Science | 雷晓光/余金权团队合作开发出C–H糖基化新方法虚心求教中科院上海药物所两个问题[日签] ​我欲将心照明月,切莫明月照沟渠Nature | 上海药物所发现B类GPCR与Arrestin全新作用模式饶毅:虚心求教中科院上海药物所两个问题登上Cell Stem Cell封面:我国学者成功在猪体内培养出实体人源器官汇聚机器学习发展前沿,「第十九届中国机器学习会议」即将开幕Protein & Cell | 汤富酬/付卫课题组合作基于人类结直肠癌类器官进行药物筛选和药物作用机制研究对机器学习感兴趣?不如先来实践一下!|《ChatGPT聊天机器人语义情绪波动检测》Cell Stem Cell | 何爱彬团队利用全景实时成像揭示流体力塑造囊胚发育过程
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。