Redian新闻
>
AlphaFold对手来了:Meta发布6亿“暗物质”蛋白预测结果,仅用2周完成

AlphaFold对手来了:Meta发布6亿“暗物质”蛋白预测结果,仅用2周完成

公众号新闻
Alex 发自 凹非寺
量子位 | 公众号 QbitAI

预测蛋白质结构的AI超级新星AlphaFold,现在遇到了强劲对手。

Meta的蛋白质预测大模型ESMFold,刚刚公布了其最新成果:

6亿多种蛋白结构预测结果,而且还是“蛋白质中的暗物质”——宏基因组蛋白(Metagenomic Proteins)

宏基因组蛋白,简单来说就是特定时刻下,环境微生物表达的所有蛋白。

它们来自细菌、病毒和其他尚未确定特征的微生物,数量非常庞大。

研究它们不仅有助于发现新的蛋白质结构,还能帮科学家预测并寻到更多微生物,比如RNA病毒等。

要知道,此前AlphaFold背后的公司DeepMind,公布了约2.2亿种蛋白质预测结构,几乎涵盖了DNA数据库中已知生物体的所有蛋白质。

也就是说,ESMFold现在预测出来的结构数量,相当于AlphaFold的3倍左右。

Meta的研究团队还据此成果提出了一个关于元基因组数据库:ESM Metagenomic Atlas,这也是全球首个大规模的元基因组蛋白质结构集合。

这些消息一出,很快便收获了一波关注和惊叹声,Nature还为此发了篇专门的报道。

有意思的是,虽然AlphaFold更早问世,但LeCun曾指出这个思路是他们先提出的:

早在2019年,ESMFold背后的FAIR团队就先提出了使用预训练、基于Transformer的语言模型构想,后来该想法被AlphaFold团队采纳。

除了预测的数量多外,ESMFold还有个明显优势:速度快

2周预测出6.17亿个蛋白质结构

Meta团队的研究人员表示,用ESMFold预测超过6.17亿个蛋白质的结构,只花了2周时间。

另外,在单个英伟达V100 GPU上,ESMFold可以在14.2秒内对含有384个残基的蛋白质进行预测,比AlphaFold2快6倍。

而对于较短的序列,它甚至比AlphaFold2快了60倍。

如此神速的背后,一个至关重要的因素就是:ESMFold的输入基于Transformer语言模型。

看到这点,你或许会疑惑:预测蛋白质结构的模型,和语言模型有什么关系?

一方面,从数据层面来看,语言和蛋白质结构都具有离散性

通俗来说,一个合成结构可以拆成单个成分,就像一段话能拆分出单个字词、一个蛋白质能拆分出单个氨基酸;且两个单位之间不存在量的连续性递增或递减关系。

另一方面,上下文和语境制约着某个单词的含义;相似地,蛋白质的结构和功能制约着序列突变方向。

所以,Meta AI受到语言模型启发,提出了ESMFold的基本构想。

基于语言模型的开发出来的ESMFold,主体结构其实和AlphaFold2有不少相似之处——

它也能拆分为四部分:数据解析、编码器、解码器,以及循环部分。

其中,数据解析部分用于输入序列和数据库的解析,为编码器提供输入。

ESMFold模型结构示意图

巴特!比起AlphaFold 2,ESMFold用于推理的神经网络结构结构被简化了:

ESMFold消除了对明确同源序列(以MSA形式)输入的需求,并且也不用进行Jax图编译,所以可以省下了不少时间。

这样不仅可以大幅缩短大型基因组序列数据库的构建时长;而且能在相同时间内预测出更多结构。

150亿的参数量

除了基于语言模型,还有一点也不容忽视:ESMFold的参数量巨大

在今年早些时候,Meta AI团队宣布ESMFold模型更新了:

ESM2的参数量直接飙升到150亿,一跃成为迄今为止最大的蛋白质语言模型。(AlphaFold2的参数量为9300万左右)

一般来说,模型的参数量越大,意味它其能运用的函数越多,进而使其学习的准确率和精度大大提升。

这一点在蛋白质结构预测AI上也得到了印证:

ESMFold模型的参数量达150亿之后,其分辨率更高了,能达到原子级别。

其中,对于单序列输入,ESMFold的精度优于AlphaFold2——

通过这个150亿参数的ESM2,ESMFold只用一个序列作为输入,就能有效预测端到端的3D结构;而AlphaFold2则需要多序列输入才能有良好表现。

单序列输入时,ESMFold预测精度更高

不过在多序列输入的情况下,ESMFold的精度和AlphaFold2相比,还是略有差距。

此外,在蛋白质结构预测的准确性方面,ESMFold和AlphaFold2的表现不相上下。

不过需要说明的一点是,Meta的研究人员也表示,这6亿多个预测出来的蛋白质结构目前还没有被定性,还需后续的核验、分类等。

......

话说这些年,蛋白质预测模型以及其背后的计算生物学可谓方兴未艾,“AI For Science”正在发生。

先前科学家们经过几十年的努力,只覆盖了人类蛋白质序列中17%的氨基酸残基;而AlphaFold在2018年才官宣,至今已经预测出了人类98.5%的蛋白质结构。

至于ESMFold,该研究团队的领导者Alexander Rives指出:

对于蛋白质结构解析和探索未知蛋白质结构,ESMFold都算科学家们的得力助手。

目前ESM2模型的部分代码已在GitHub上免费开源,感兴趣的伙伴们可以去看看!

代码传送门:
https://github.com/facebookresearch/esm
模型传送门:
https://esmatlas.com
参考链接:
[1]https://twitter.com/alexrives/status/1587467124741742593
[2]https://www.nature.com/articles/d41586-022-03539-1
[3]https://twitter.com/alexrives/status/1561693284912828420
[4]https://www.biorxiv.org/content/10.1101/2022.07.20.500902v1.full
[5]https://www.biorxiv.org/content/10.1101/2022.07.20.500902v2

「AIGC系列直播 - 应用落地与商业化」直播报名

技术热潮之外,AIGC如何实际落地?又如何长期商业变现?

11月3-4日晚7点到8点,量子位智库联手国内头部AIGC企业及投资机构,为你解答,扫码预约~


点这里关注我 👇 记得标星噢 ~


一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
房地产的终极对手来了!AlphaFold终结了生物学家研究蛋白质结构之路 于是颜宁回国了!一个华裔修女的直觉,纽约18年冤狱获得平反马斯克将于本周完成收购推特;新东方2023财年第一季度营收7.45亿美元;美团开始招聘中国香港业务人员……Struct2Graph:基于结构的蛋白质-蛋白质相互作用预测的图注意网络仅用256KB就实现单片机上的神经网络训练监控拍到嫌犯是华人!自家车道上停放车辆竟被开锁偷光,仅用2分钟...广州新增3653例,7区中小学继续线上教学!一公司错报核酸检测结果,公安机关介入调查世界杯16强预测结果,中奖名单将于12月3日公布!背包徒步-哥特盆地 (Gothic Basin)Meta打造首个「蛋白质宇宙」全景图!用150亿参数语言模型,预测了6亿+蛋白质结构宝可梦官宣:将在中国开卖宝可梦实体卡牌,奥特曼卡牌对手来了?NeurIPS 2022 | 仅用256KB就实现单片机上的神经网络训练高手来了!东方证券杯"逐鹿东方"衍生品基金经理擂台赛结果出炉,这些机构表现出色李飞飞高徒盘点年度十大AI亮点:核聚变、ChatGPT、AlphaFold上榜马斯克拟本周完成收购推特回到吃吃喝喝的好日子-印度餐+快餐世界首个!Meta AI开放6亿+宏基因组蛋白质结构图谱,150亿语言模型用两周完成呼和浩特通报一机构错报核酸检测结果,公安机关介入调查有个房子能坐落在大海边颜宁公开回复“AlphaFold对自己科研的影响”及只有“一两个课题”;称小伙伴们已经“截屏、存档”。。。结构生物学没失业!深度评估AlphaFold 2:「蛋白质功能预测」水平不足|NeurIPS 2022从《黑暗物质三部曲》到《尘埃之书》| 在舞台上创造异想世界世界杯16强预测结果公示,最高正确11个!尹哥评书 | 暗物质与恐龙:看不见的物质如何引发恐龙灭绝?“有史以来最亮”的伽马射线暴揭示暗物质线索,重要数据来自四川OpenFold更多细节公开:重新训练AlphaFold2对其学习机制和泛化能力产生新见解A-Soul对手来了?阴阳师“大江山乐队”公布出道预告PV,酒吞茨木亮相骁龙的对手来了,天玑9200曝光,预计11月发布Copilot被告、LeCun自主AI、AlphaFold发现所有蛋白质……2022年激动人心的AI大新闻无需新型token mixer就能SOTA:MetaFormer视觉基线模型开源,刷新ImageNet记录晚午餐、早晚餐:用2.1亿撬员工8.8亿,身价440亿“玻尿酸女王”差这点钱?Alex Hesz离职电通并重返宏盟;亚马逊第三季度广告收入超过Snap、Meta和Alphabet(广告狂人日报)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。