Redian新闻
>
比AlphaFold2快一个数量级!蛋白质通用大模型来了,13个任务取得SOTA丨百图生科&清华

比AlphaFold2快一个数量级!蛋白质通用大模型来了,13个任务取得SOTA丨百图生科&清华

科技
萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

蛋白质领域的“通用大模型”来了!

参数量高达1000亿,在这个领域尚属首次,一出场就在13个任务上达到SOTA——

例如在抗体结构预测任务中,就超越了“老前辈”AlphaFold2

如果说之前蛋白质AI模型还大多停留在单一类型任务上,现在从蛋白质预测到蛋白质设计,各种细分任务都用一个AI就能完成。

这个蛋白质语言模型由百图生科和清华大学共同开发,取名xTrimoPGLM

所以,它究竟在哪些任务上取得了SOTA,这个千亿大模型又究竟是如何炼成的?背后的运作原理和实现方式是什么?

未来在整个生命科学领域,是否也会像自然语言这样,出现类似ChatGPT的通用大模型?

百图生科的CTO宋乐博士向我们分享了思考。

蛋白质的“通用大模型”长啥样?

这个名叫xTrimoPGLM的蛋白质语言大模型,“底子”是清华推出的GLM(通用语言模型)算法。

选用这种算法,是因为人类语言和蛋白质之间存在很多相似之处。

和语言任务一样,蛋白质任务也可以被分为理解(预测)生成(设计)两大类:

生成任务,指根据不同条件设计对应的蛋白质。如给定某个功能标签,要求生成能实现这一功能的蛋白质;或是给一段蛋白质结构,设计一段可折叠成该结构的氨基酸序列等。

理解任务,指预测某种蛋白质的属性。如蛋白质本身是酶,用AI预测它的最优催化温度、催化效率、稳定性等。

但和人类语言一样,在大模型出现前,蛋白质语言模型往往也“只能干好一件事”,同时学多个任务,反而可能把原来的能力给“忘了”。

(毕竟理解类任务通常用的是双向注意力机制,类似完形填空;但生成类任务用的却是单向的,像续写作文一样)

GLM在框架设计上兼顾了大模型的理解和生成能力,因此也成为团队这次的基础架构“首选项”。

不过,相比自然语言模型,蛋白质在训练数据、任务和框架适用性上又有所不同。

为了更好地将GLM的优势和蛋白质语言特性结合起来,xTrimoPGLM设计了一种新框架,其中增加了MLM(掩码语言模型)部分。

其中,紫色的[MASK]表示MLM,用于提升模型理解能力;绿色的[sMASK]和[gMASK]表示GLM,用于提升模型生成能力。

具体到细节上,[sMASK]掩盖序列中间的连续部分,模型预测时不仅要学会预测内容,还需要学会预测长度;[gMASK]掩盖除了上下文之外的其余序列部分,以进一步提升模型的生成能力。

不过,即使是Meta的蛋白质理解模型ESM,参数量也就在150亿级别左右。

为何xTrimoPGLM模型参数量会达到千亿级

宋乐博士介绍称,这是因为蛋白质的数据比想象中要更大:

目前可用的蛋白质序列已经有几十亿,而这些序列的长度平均又达到几百甚至上千,乘起来就接近自然语言token的数量规模了。

更大的数据量,自然需要更大的模型来“吃”。

在大语言模型已经达到千亿级参数量的情况下,蛋白质语言模型理论上也应达到这一规模,才能实现比Meta的ESM更好的效果。

基于这一理念设计的xTrimoPGLM,确实在理解和生成任务上均取得了不错的效果。

斩下13个SOTA,可直接用于行业

研究人员一共将xTrimoPGLM在15个任务上进行了测试。

事实证明,这个蛋白质语言模型在其中的13个任务上都取得了SOTA。

这些任务从蛋白质结构、可发展性、相互作用到功能分为四大类,具体又包括评估蛋白质特性,如溶解性、对蛋白酶的稳定性、温度敏感性、蛋白质结合亲和力、抗生素抗性等。

以抗体结构预测为例。据宋乐博士介绍,和AlphaFold2相比,xTrimoPGLM不仅效果更好,而且速度快了接近一个数量级

之所以能做到在模型更大的同时,预测速度还更快了,是因为相比AlphaFold2,xTrimoPGLM“跳了一步”:

AlphaFold2依赖多序列比对进行搜索,但xTrimoPGLM因为已经“学会了蛋白质的语言”,所以直接省去了这个步骤。

在此基础之上,xTrimoPGLM不仅能很好地提供蛋白质序列信息,模型能力也得到了增强。

宋乐博士认为,不止是抗体结构预测,类似思路也能被推广到更通用的蛋白质结构预测上去,这也在团队的下一步计划之内。

不仅如此,团队还计划把模型扩展到RNA、DNA等不同模态的生命科学数据上,甚至是跨细胞、跨组织层面,尝试实现更加通用的生命科学大模型

当然,目前这一阶段的xTrimoPGLM,就已经能直接提供给行业使用了。

从它能实现的任务来看,已经涵盖了不少蛋白质下游应用的场景,如涉及蛋白质的相关酶的设计,以及医药食品行业的一些消费级蛋白质预测任务,都可以直接用xTrimoPGLM去帮助解决。

据宋乐博士介绍,xTrimoPGLM未来也会接入到百图生科的AI生成蛋白平台AIGP中去,负责如抗体结构预测、亲和力预测和蛋白质相互作用预测等任务。

One More Thing

目前来看,发展“通用大模型”的路径主要有两种。

一种是继续扩大单个模型的参数量,试图达到真正的单个AGI之路;

另一个则是通过多个模型联合的如Mixture of Experts等方式,将负责不同任务类型的大模型之间联合起来,以实现更多功能。

这两条路各有其优缺点所在。如果要想继续发展生命科学领域的“通用大模型”,哪条路径更有可能通往AGI?

宋乐博士认为“都有可能”。

不过就百图生科团队而言,他们仍然采取多个大模型联动的方式,来继续探索通用大模型之路。

论文地址:
https://www.biorxiv.org/content/10.1101/2023.07.05.547496v1

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「电商零售」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Holiday Special 七月上 望七月 ~~ poem & song by 盈盈 & AP《夏日的玫瑰》&合唱《天下有情人》英国政府资助研究:AI识别收割西兰花非食用部分,蛋白质比大豆蛋白更可持续AI对于生物学,早就不只是AlphaFold了……中美科技股市值拉开一个数量级,业内预计分化还将长期持续天热懒得进厨房,我找到了更省心的一招!蛋白质是牛奶的2、3倍,解馋抗饿味道好超越所有开源模型,击败 Claude、Bard,专门用于编程任务的大模型来了开课啦!蛋白质分析技术助力干细胞前沿研究李彦宏:大模型即将改变世界,百度要第一个把全部产品用大模型重做一遍哈佛教授捐赠2.1亿美元用于蛋白质创新研究,计划加速蛋白质和抗体发现【美国春天母亲节5原创钢琴三部曲 “粉衣蓝裙”不表白庆六一艺术节】《美丽夏天温柔的雨》&《爱的童话》&《雷雨之后》小米 MIX Fold 3快来了,MIX Alpha还能再见吗?【美国春天母亲节5年回顾原创三部曲六一钢琴节】我为柳宗元《小石潭记》作曲 &《让我们唱在夏天里》&《卖火柴的小女孩》真人对话中关村科金张杰:通用大模型落地企服赛道,领域适配是门槛【𝐂𝐚𝐥𝐧𝐢𝐊𝐞𝐚𝐧双皮奶无痕内裤】49元三条!巨巨巨好穿 !!简直就是辣妹顶配,食品级冰箱收纳盒【一日团】20年、60亿人民币、7000种蛋白质,SomaLogic蛋白质组数据库的构建之途清华校友立功!谷歌发布首个全科医疗大模型,14项任务SOTA【美国春天母亲节献礼4女高音三部曲 舞台艺术节255】春天原创现场舞台:《妈妈是天使》&《游子吟:三春晖》&《春天摇篮》2023回国 梦牵魂萦的上海南京路,外滩(多图)外派故事 (30)约翰和女出租车司机 (下)将蛋白质语言模型扩展到千亿参数,深度解读百图生科、清华xTrimoPGLM模型𝐂𝐚𝐥𝐧𝐢𝐊𝐞𝐚𝐧双皮奶内衣裤,软弹有度,上身0束缚~早餐半斤牛奶,不如2块它!蛋白质是牛奶的3倍多,满分营养还顶饿阿里云回应裁员/ iOS 17新功能曝光,锁屏iPhone大变样/小米称不做通用大模型Meta解散蛋白质大模型团队,转向商业化AI,聊天机器人或9月推出Ex-Soldier Sleeps in Cave for 22 Years to Protect Song Treasures阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl通用大模型转向行业大模型:腾讯云、华为云们的下一个战场紫东太初全模态大模型来了,一个模型打通感知、认知、决策交互屏障“超越”(MMCU)中文通用大语言模型测试集--国内首个多领域多任务数据集ACL2023 | 一个任务通用的的指令微调Embedder!在食物健康的前提下,怎样把吃饭&收拾做到极简化中美科技股市值拉开一个数量级繁复不是一种美丽《行香子 - 贺吉安一中百年华诞》AI offer最优解:2024届秋招线上宣讲会,蚂蚁集团、科大讯飞、第四范式、百图生科与同花顺传滴滴造车VP创业大模型;澜舟科技推出400亿参数通用大模型;商汤AIGC相关收入增长670.4%印象笔记唐毅:通用大模型不会一统天下,用户需要不同的「机器大脑」性能超越Llama2-13B,可免费商用,姚星创业公司开源百亿参数通用大模型欧福蛋业:Z世代对蛋白质的认识越来越深入,鸡蛋白将有全新消费方式
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。