Redian新闻
>
用AIGC搞药物发现,大分子那种,来自Bengio核心团队教授唐建新成果

用AIGC搞药物发现,大分子那种,来自Bengio核心团队教授唐建新成果

科技
衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

又一名AI大牛,为AI制药领域带来了新进展——

AlphaFold2仅仅是蛋白质结构建模迈出的第一步,现在可以基于结构进行蛋白质设计了!

最近在智源大会AI+生命科学论坛上,来自Mila实验室的教授唐建介绍了团队的最新成果,一同受邀参会的还有诺贝尔化学奖得主Arieh Warshel等知名学者。

相关论文《Protein Representation Learning by Geometric Structure Pretraining》已经被顶会ICLR’23接收,还在GitHub上开源。

研究团队由深度学习三巨头之一Yoshua BengioMila实验室、蒙特利尔大学、剑桥大学、IBM Research等机构组成。

在MILA这个学术界最大AI研究中心之一里,唐建任终身教授,同时也是该实验室创办以来唯一的华人教授。

其研究方向主要包括几何深度学习、深度生成模型、知识图谱以及这些方法在药物发现中的应用。

AI 2.0浪潮下,唐建想做的事,是加速AI参与药物设计逐渐走向从drug discovery(发现自然界存在的drug)到drug design(直接通过AI设计drug分子)的演变。

于是,延续之前的发展路线,所创AI驱动型生物制药公司百奥几何,近期将重点落到构建寻找新分子结构的生成式模型上。

蛋白质大分子的基础模型,搞它!

唐建团队的目标,是利用生成式AI,向药物设计更进一步。

大分子药物(蛋白质、抗体)在生物医药领域扮演着越来越重要的作用,有着广泛的应用前景。

蛋白质的功能有三种不同的表示:一级序列,二级结构,三级空间结构。

大多数已有的蛋白质建模的方法是基于序列的方法。蛋白质的序列决定其3D结构,而结构决定功能。 

因此,想要更好地理解蛋白质的功能,从基于结构的角度出发,是一条更好的技术路径。

But!AlphaFold2只是在基于蛋白质结构的建模方向上走出了第一步。

唐建团队做的事,是基于AIGC,进一步推进基于结构的大分子药物设计。

首先基于蛋白质3D结构的表征学习,得到预训练模型,在此基础上就能做更精准的功能预测。

也就是前面介绍到的发表在ICLR’23的论文。

团队首先提出GearNetGearNet-edge,它们依赖稀疏边缘消息(sparse edge message)的传递,来增强蛋白质图中的序列和结构信息的捕获。

在功能预测和折叠分类任务上,这个方法和最先进的基于序列预测蛋白质表征的方法相当(或优于),而且使用的预训练数据更少。

第二步是更精准的结构预测。AlphaFold2主要是对主链进行了预测,对侧链的预测不是很准确。

团队提出扭转扩散模型DiffPack,通过在扭转空间上扩散和去噪,来学习侧链扭转角的联合分布。

侧链是蛋白质结构的构成部分之一,它的差异会带来蛋白质结构和功能的差异。

搞清楚侧链结构,能够更精准地帮助药物设计流程更快更准地抓住药物和受体该在什么点位结合。

DiffPack包含了一个自回归扩散过程,对准确度和速度的限制有所缓解。

实验结果显示,新方法在CASP13和CASP14上的角度和精度,分别提高了11.9%和13.5%,双双取得SOTA,且模型参数却能减少60倍。

接下来,基于精准结构预测结果,就能更好完成蛋白质设计。

这部分用到了扩散模型。已有的工作如华盛顿知名教授David Baker组的工作RFDiffusion采用的是两阶段算法,首先生成结构,然后根据结构设计蛋白质序列。

唐建团队提出了一个新算法,能够同时对结构和序列进行设计。

也就是说,只需要利用同一个算法,就可以对大分子蛋白质的氨基酸序列和三维结构进行建模和设计,并展示二者之间的相互关系,从而生成具有特定功能的蛋白质。

迄今为止,团队已经实现了抗体CDR Loop结构和序列的生成,还设计了具有指定个数的α螺旋跨膜蛋白

其实唐建团队这段征程里的主角,即蛋白质3D结构大模型,无论是模型参数和训练数据量都远不如最热门的ChatGPT。

但因其用于垂直领域,还是生物制药领域——人类的语言词汇量多大几千万,而蛋白质的词汇表只有20个——不那么庞大的参数和训练量已经能够满足实际需求,达到比较好的生成效果。

而对训练数据细究来处,有三个源头:生物制药领域公开数据、AlphaFold2等预测出的大分子结构、实验室的自有数据。

来自最后两个实验室的训练数据,被唐建团队视为壁垒之一。

Bengio所领导的实验室核心团队唯一华人教授

2014年,唐建博士毕业于北京大学信息科学技术学院,其研究方向主要包括几何深度学习、深度生成模型等。

而后,唐建远赴美国,在CMU以及密歇根大学进行博士后研究。

2013年,恰逢深度学习兴起,一直专注传统机器学习领域的他在关注到ImageNet、Word2Vec等在深度学习领域取得了非常不错的效果。

“当时我觉得自己的研究遇到了一定的瓶颈,所以也开始想转向深度学习领域。”

唐建称自己做了很多层面的思考,即便是要真的做出研究方向的调整,也想做自己能drive、相对独立的研究,而不是随大流进行“follow”。

最后,他寻找的的机会是用深度学习解决图结构数据,成为国内利用DL研究图结构数据的最早的一批人。

他作为一作的理论工作《Understanding the Limiting Factors of Topic Modeling via Posterior Contraction》获得ML顶级会议ICML 2014的最佳论文。

此后,他在图表示学习领域的工作LINE(《Line: Large-scale information network embedding》)引用次数超5300次,并多次在计算机顶会ICML、NeurlPS担任领域主席。

再后来,因为对“21世纪是生物的世纪”这句话的深信不疑,他的研究逐渐集中在AI和生物交叉领域,在分子性质预测、结构性质预测上进行探索。

2017年12月起,唐建成为Mila实验室(加拿大魁北克省人工智能研究中心)20余名教授中的一员,与深度学习三巨头之一Yoshua Bengio一起,致力于推进AI for Science。

投身创业前,唐建团队已经发布了药物研发机器学习平台TorchDrug

并在一年后,即2022年9月,联合英伟达、英特尔、IBM等公司,发布了针对大分子药物研发的开源机器学习平台TorchProtein

平台开源了深度学习对大分子建模的一个通用框架、基于蛋白质三维几何结构的第一个预训练大模型、以及专门用于评价深度学习对蛋白质建模效果的标准数据集。

唐建坦然表示,在接下来的进展中,这些公司也将成为百奥几何在大模型研究中的国际合作伙伴,“这是我们与同行相比的优势所在”。

TorchProtein发布的同时,公司宣布完成千万美元天使轮融资。

现在,唐建白天醉心百奥几何的技术研究,夜晚为远在大洋彼岸的学生们指导。但这样的工作模式并没有让他疲于应对或感到苦恼:

在两者间取得平衡并不是难事,这反而让公司团队更具国际化优势。

相关论文:
[1]
https://arxiv.org/abs/2203.06125
[2]https://arxiv.org/abs/2306.01794
[3]https://arxiv.org/abs/2210.08761

— 联系作者 —

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「电商零售」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
格力被曝解散手机核心团队,或不再出手机新品李飞飞团队「具身智能」新成果!机器人接入大模型直接听懂人话,日常操作轻松完成!爱驰汽车被曝要求员工自费垫付社保公积金;格力电器回应解散手机核心团队;醉鹅娘组织员工给同行刷差评被罚20万 |雷峰早报17岁少年发现新物种,成果被撰写成论文,并在国际期刊上发表百余款AI临床设计新药进入美国IND申报,为何海外没在卷AI药物发现?《艰难岁月》新书推荐讲演稿James Collins、诺奖得主担任顾问,抗衰老初创推出药物发现平台,可基于光遗传学控制衰老相关应激反应北师大团队最新成果:可完全生物降解和生物兼容的离子电子皮肤缓解气候危机最新成果:CO₂电催化分子催化剂,法拉第效率98.6%!【首发】Aureka完成千万美元种子轮融资,高通量数字生物技术与AI结合颠覆大分子药物研发范式FudanNLP团队最新成果,借助RLHF实现人类对齐的MOSS-RLHF来了早财经丨手机核心团队解散?格力回应;央行、外汇局出手:必要时纠偏;代表突然离席!美国债务谈判骤停,道指跳水300点全球首家SPAC上市分子农业公司再推新成果,让大豆富含动物蛋白,含量占比高达26%7nm DNA「针管」可将药物分子直接注入细胞,来自约翰霍普金斯大学团队22023回国 去美食家蔡澜的餐厅喝早茶(图)UCSD、MIT等华人团队教机器狗感知3D世界!搭M1芯片,爬楼跨障无所不能|CVPR 2023《扫花游 - 听风》Nature | 上海药物所徐华强/赵丽华团队揭示B类GPCRs新型小分子药物靶点的偏向性激活机制17岁少年发现新物种,成果在国际期刊发表!5061 血壮山河之武汉会战 鏖战幕府山 30利用AI发现3种Senolytics化合物,James Collins团队新成果登Nature子刊,已落地公司推进抗衰老研究北航李洪革教授团队最新成果:智能触控显示芯片设计领域取得突破性进展谷歌推出人工智能工具,发力靶标发现和数据分析,加速药物发现和精准医疗创业101学员对话录|Pando Bioscience:创新药物发现PLOS Pathogens | 复旦大学吕鸣芳/唐建国/张文宏发现酰基羧酸水解酶通过防止肺泡巨噬细胞耐受增强肺部防御《一首桃花》&《云水难记》科研实习 | 加拿大Mila实验室唐建教授招收机器学习/生物医药方向科研实习生BB鸭 | 微信正式支持“刷掌支付”;格力回应解散手机核心团队;小米新折叠屏或暑期发布;B站赠BLG粉丝一年大会员喜报 |复旦大学陈飞团队Nature发表最新成果、Astellas投资5000万美元加码通用型细胞疗法华为5倍薪酬再招“天才少年”;格力解散手机核心团队;百度“希壤”陷入边缘化危机;ChatGPT上架苹果美国应用商店丨邦早报我在iPhone上装了70亿参数大模型,来自陈天奇团队最新成果阿斯利康和珂阑医药就高胆固醇血症达成药物发现合作和许可选择协议达成3项许可交易,斩获超1亿美元融资,加州初创基于诺奖技术进行药物发现突发!美光产品采购被叫停;美团新外卖平台香港开送;格力解散手机核心团队;微信刷掌支付发布;杭州人均存款达16万元...华为再招全球「天才少年」,薪酬 5 倍起;苹果:禁止员工用 ChatGPT;传格力手机核心团队解散,官网无法访问 | 极客早知道
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。