Redian新闻
>
AI成功改写人类DNA,全球首个基因编辑器震撼开源!近5倍蛋白质宇宙LLM全生成

AI成功改写人类DNA,全球首个基因编辑器震撼开源!近5倍蛋白质宇宙LLM全生成

科技



  新智元报道  

编辑:编辑部
【新智元导读】刚刚,分子生物学界引爆核弹级消息:人类的DNA,已经能由AI重新改写了!初创公司Profluent宣布开源了世界首个AI设计基因编辑器,成功编辑了人类细胞中的DNA。这可太科幻了,如果有机会,你会选择「改造」自己的DNA吗?

AI,能够重写人类基因组了?

就在刚刚,初创公司Profluent宣布,完全由AI设计的基因编辑器,已经成功编辑了人类细胞中的DNA。

也就是说,世界上首个使用AI从头设计的分子级精确基因编辑器诞生了。

就像ChatGPT能生成诗歌一样,Profluent这个全新的AI系统,可以让我们编辑自己DNA的微观机制生成蓝图。
在迄今最广泛的基于CRISPR的基因编辑系统数据集上,研究者训练了LLM。这些LLM产生的蛋白质,将几乎所有天然存在的CRISPR-Cas家族的多样性,扩大了4.8倍!
并且,基因编辑器在人类细胞中显示出了与SpCas9(一个示例基因编辑器)相当或更好的活性和特异性,同时距离超过400个突变。
这也就意味着,我们掌握了自己的基因组密码。未来的科学家,会比今天更精确、更快速地对抗疾病。
而且,公司还决定,会在OpenCRISPR协议下,自由释放这些DNA分子。

OpenCRISPR-1的物理结构,OpenCRISPR-1即是由Profluent的AI技术创建的基因编辑器
Profluent联创Ali Madani表示,「尝试用AI设计的生物系统,编辑人类DNA是一次科学登月之旅」。
「我们的成功表明,在未来,AI可精准设计出一系列定制的疾病治疗方案」。
有网友表示,「是时候重新编程人类了吗?AI驱动的CRISPR技术进步,正挑战着基因伦理的边界」。
如果你可以改变自己的DNA,你会这么做吗?

贫血、失明疾病的基因,由我们自己修改

初创公司Profluent在刚刚发表的这篇论文中,详细描述了这项技术。

论文地址:https://www.biorxiv.org/content/10.1101/2024.04.22.590591v1.full.pdf
论文预计将于下月,在美国基因与细胞治疗学会年会上发表。
这项技术和驱动ChatGPT的方法是一样的,它在分析大量生物数据后,创造了新的基因编辑器,包括科学家已经用于编辑人类DNA的微观机制。
这些基因编辑器基于的是诺奖的获奖方法,涉及一种名叫CRISPR的生物机制。
基于CRISPR的技术诞生后,即在业界引起轰动。它改变了科学家研究疾病的方式。
在以前,如果我们不幸得了镰状细胞性贫血和失明这样的遗传性疾病,往往束手无策,而现在,CRISPR技术可以直接让我们修改导致这些疾病的基因了!
CRISPR方法使用的是我们在自然界中发现的机制:从细菌中收集的生物材料,竟然神奇地赋予了这些微生物抵抗细菌的能力。
加州大学旧金山分校生物工程和治疗科学系教授兼系主任James Fraser介绍说,这些生物材料从未在地球上存在过,而Profluent的AI系统,正是从大自然中学习如何创造这些全新的东西。
如果这些技术继续发展,所产生的基因编辑器,或许会比我们人类经过数十亿年进化磨练的基因编辑器更灵活、更强大。
现在,Profluent表示正在开源OpenCRISPR-1编辑器,这也就意味着,个人、学术实验室和公司都能免费使用这些技术。
AI界常见的开源,可以加速新技术的产生。不过,对于生物实验室和制药公司来说,像OpenCRISPR-1这样的开源并不常见。
当然,Profluent也只是开源了其AI技术生成的基因编辑器,并没有开源AI技术本身。

由OpenCRISPR-1编辑的人类细胞延时摄影

AI编辑蛋白质,为何意义重大

目前,蛋白质工程界想要复制功能性蛋白质,或者用「定向进化」来迭代修饰,通常还是需要从自然界中复制。
许多对人类有重大意义的蛋白质,都是我们偶然发现的,比如狗的胰岛素、酸奶设施中的Cas9和经常造成食物中毒的肉毒杆菌毒素。
大型生成蛋白质语言模型的作用,就是可以捕获使天然蛋白质发挥作用的基本蓝图。它们勾勒出一条捷径,可以绕过进化的随机过程,推动人类有意识地为特定目的设计蛋白质。
Cas9蛋白,是CRISPR-Cas9基因编辑系统的核心组成部分,它是一种RNA引导的核酸酶,可以搜索人类基因组中的所有30亿个核苷酸,并在一个特定位点进行切割。
这种核酸酶与单导RNA(sgRNA)复合在一起,sgRNA由一个在结构上与蛋白质相互作用的支架和一个间隔序列组成,后者可通过编程靶向基因组中的任何位点。
棘手的是,大多数Cas9蛋白的长度超过1000个氨基酸,整个设计空间包含20^1000种可能的序列,比起可观测宇宙中的原子数量,它都要高出几个数量级!
而且,由于这些蛋白质必须以精确的顺序协调许多相互作用,才能实现精确切割,因此即使是单个错位突变,也可能完全消除蛋白质的功能。
如果通过实验穷尽所有可能的序列变异,许多科学家几辈子时间都做不完。
然而,AI系统却能很轻松地探索整个搜索空间,发现功能性的基因编辑器。而且,只需要花几个小时!

全球首个开源基因编辑器,改写人类DNA


基因编辑器OpenCRISPR-1,由一个Cas9样蛋白质,和引导RNA(guide RNA)构成。
正如之前所述,它是完全由Profluent的AI大模型开发的。
在具体实现过程中,研究人员对26TB组装的「基因组」和「元基因组」数据库系统进行挖掘,整理出超100万个CRISPR操纵子(operon)的数据集。
通过训练OpenCRISPR,AI从大规模序列和生物背景中学习,生成了自然界不存在的数百万种CRISPR样蛋白。
研究人员称,AI生成了自然界中已发现的「CRISPR-Cas家族」的4.8倍的蛋白质集群,完全实现了指数级扩展!
而且,语言模型还为类Cas9效应蛋白定制了单引导RNA序列。
与原型基因编辑效应器SpCas9相比,几个生成的基因编辑器显示出,可比或改进的活性和特异性,同时在序列上相差400个突变。
最后,研究人员还证明了AI生成的基因编辑OpenCRISPR-1与碱基编辑的兼容性。
这项研究中的关键结果,具体如下。

AI生成4.8倍「CRISPR-Cas」蛋白质宇宙

生成蛋白质语言模型通常是在,大型涵盖多种系统发育和功能的天然蛋白序列的数据集上,进行预训练 。
这些模型能够生成,反映天然蛋白质分布和特性的真实蛋白质序列。
然而,对于特定的应用,例如新型基因编辑器的生成,有必要将生成过程导向特定的感兴趣的蛋白家族子集。
对此,研究人员进行了详尽的数据挖掘来构建数据库。
他们搜索了26.2TB的组装微生物基因组和宏基因组,发现了1,246,163个CRISPR-Cas操纵子。
与CRISPRCasDB和CasPDB等精选数据库,以及世界上最大的蛋白质资源UniProt相比,最新创建的数据库显示出更大的多样性。
通过总结共性,研究人员发现了所有CRISPR-Cas蛋白的单一模型,能够生成跨家族的不同序列。
为了生成新型CRISPR-Cas蛋白,作者在CRISPR-Cas Atlas上微调了基于ProGen2的语言模型,由此平衡了蛋白家族的表示和序列簇大小。
从这个模型中,研究者生成了400万个序列。
其中一半是直接从模型生成的,另一半是由天然蛋白质N或C末端的最多50个残基提示,以引导向特定蛋白的生成。
为了评估其新颖性和多样性,作者使用MMseqs2对每个家族的生成序列和天然序列按70%的同一性进行了聚类。
结果发现,与CRISPR-Cas图谱中的天然蛋白相比,生成序列实现了4.8倍的多样性扩展。
对于天然蛋白质很少的家族,比如Cas13和Cas12a,生成序列的多样性分别增加了8.4倍和6.2倍。
另外,只需要极少的上下文,即提供50个或更少的残基,就能针对某一特定科引导序列生成与感兴趣的科保持一致。

100万个类Cas9蛋白全部生成

虽然许多CRISPR-Cas蛋白已被用于基因组编辑 ,但Cas9仍是应用最广泛的一种。
为了生成类Cas9的新序列,研究人员从CRISPR-Cas图谱中采样,Cas9的N端或C端50个残基,对CRISPR-Cas模型进行了提示。
这里,作者使用了CRISPR-Cas Atlas中238917条Cas9序列,对另一个语言模型进行了微调。
这一模型生成可行的类Cas9序列的速度是CRISPR-Cas模型的2倍(54.2%),而且需要任何提示。
为了探索II型效应器的潜在序列分布,研究人员使用Cas9模型生成了100万个Cas9蛋白。
生成的可存活代(n=542,042)与同一性为40%的天然Cas9聚类在一起,并用作构建最大似然系统发育树的输入(图2a)。
引人注目的是,生成的蛋白质主导了系统发育的格局,占系统发育总多样性的94.1%。
与整个CRISPR-Cas图谱相比,多样性增加了10.3倍(图2b)。
新的系统发生群分布在整个树中,这表明该模型捕捉到了Cas9的全部多样性,并没有过度拟合任何特定系。
生成的序列与CRISPR-Cas图谱的差异很大,与任何自然序列的平均同一性只有56.8%(图2c)。
总体而言,生成的序列与同一蛋白质簇中天然蛋白质的长度密切匹配,皮尔逊相关性为0.97(图2d)。
此外,图2e显示了,天然Cas9、祖先序列重建和48个生成蛋白的靶上和脱靶的编辑效率。图2f展示了自然Cas9、祖先序列重建,以及生成蛋白在靶向编辑效率和特异性方面的对比。
生成的基因编辑器,在人类细胞中发挥作用
然后,研究者进一步将关注范围缩小到CRISPR-Cas9系统,并在CRISPR-Cas图谱中的238,917个Cas9蛋白上,训练了蛋白质语言模型。
使用这些模型,研究者生成了可与SpCas9互操作的Cas9样蛋白。也就是说,它们与基因组的相同部分(PAM)结合,并与相同的sgRNA相容,因此,它们可用于相同的应用。
研究者选择了其中48个生成的序列,用于在人类细胞中进行严格的功能表征。
最热门的OpenCRISPR-1,在靶向位点的活性与SpCas9相当(OpenCRISPR-1的编辑率为55.7%,SpCas9的编辑率为48.3%),但令人惊讶的是,在脱靶位点的编辑减少了95%(OpenCRISPR-1的编辑率为0.32%,SpCas9为6.1%)。
此外,作为一种非常新的蛋白质,OpenCRISPR-1与SpCas9相距403个突变,与 CRISPR-Cas图谱中的任何天然蛋白质相距182个突变。

多种生成的核酸酶(绿色),包括OpenCRISPR-1(深绿色),具有与SpCas9(蓝色)相当或更高的靶向活性,但脱靶活性要低得多
研究者们还发现,当与脱氨酶配对时,OpenCRISPR-1和SpCas9在精确编辑靶基因组中的单个碱基时,具有相似的活性和特异性。
他们还能保持碱基编辑活性,同时通过用由另一种Profluent训练的蛋白质语言模型生成的脱氨酶,来提高特异性。

使用ABE8.20(一种高活性工程脱氨酶)以及生成的脱氨酶PF-DEAM-1和PF-DEAM-2进行碱基编辑时,OpenCRISPR-1的功能与SpCas9非常相似
最后,为了进一步优化所生成的核酸酶的活性,研究者还训练了一个模型来为任何给定的Cas9样蛋白生成相容的sgRNA。
与SpCas9的sgRNA相比,这些生成的sgRNA可以提高所测试的五种蛋白质中四种产生的核酸酶的活性。

对于测试的5种生成的核酸酶中的4种,使用模型生成的sgRNA提高了编辑效率

AI,正在改善医疗保健


现在,全世界都有很多项目,在用AI技术改善医疗保健。
比如,华盛顿大学的科学家们正在用ChatGPT和Midjourney背后的方法来,创造全新的蛋白质,并且正在努力加速新疫苗和药物的开发。
如今大火的许多生成式AI,背后都是由神经网络驱动的。通过分析大量数据,神经网络就习得了某些技能。
比如,Midjourney以神经网络为基础,分析了数百万张数字图像,以及描述每张图像的标题。这样,系统就学会了识别图像和文字之间的联系,可以画出「犀牛从金门大桥上跳下来」这样的画。
Profluent的技术,也是由一个类似的AI模型驱动的。
这个模型从氨基酸和核酸序列中学习,正是这些化合物,定义了科学家用来编辑基因的微观生物学机制。
本质而言,它就是分析了从自然界中提取的CRISPR基因编辑器的行为,学习了如何生成全新的基因编辑器。
Profluent的CEO Ali Madani介绍道,这些AI模型都是从序列中学习的,无论是字符、单词、计算机代码,还是氨基酸的序列。

Madani先生在加州伯克利Profluent实验室内,此前他曾在软件巨头Salesforce的人工智能实验室工作

人类编辑基因,还会有多远


目前,Profluent尚未对这些合成基因编辑器进行临床试验,因此尚不清楚它们是否能与CRISPR的性能相媲美,甚至超过CRISPR。
但他们的研究表明了,AI模型可以产生能够编辑人类基因组的东西。
尽管如此,这项成果还不太可能在短期内影响医疗保健。
UC伯克利创新基因组学研究所的基因编辑先驱兼科学主任费Fyodor Urnov表示,科学家们并不缺乏天然存在的基因编辑器,用来对抗疾病。
真正的瓶颈在于,这项编辑器在用于临床治疗之前,还会因安全性、制造、监管审查产生极高的成本。
但是,随着学习越来越多的数据,生成式AI系统的潜力不可小觑。
如果Profluent的技术继续改进,终有一天,科学家们可以用更精确的方式编辑基因。
到那时,我们可能身处这样一个世界——许多药物和治疗方法,都能快速为个人量身定制。这是今天的人们所不敢想的。
「我梦想着这样一个世界,我们可以在几周内按需提供CRISPR,」 Urnov博士说。
还有一个重大的问题就是,CRIPSR有风险吗?
长期以来,科学家们一直在警告:不要使用CRISPR进行人类增强!
因为,这是一项相对较新的技术,很可能会产生不良的副作用,比如引发癌症。而且还有些人会用于非道德的用途,比如转基因人类胚胎。
合成基因编辑器,也面临着这项问题。而如今,科学家们已经掌握了编辑胚胎所需的一切技术。
但Fraser博士表示,如果真的有人想用它们做坏事,也只会使用现有的东西,而非AI创建的编辑器。
参考资料:
https://www.profluent.bio/blog/editing-the-human-genome-with-ai
https://www.nytimes.com/2024/04/22/technology/generative-ai-gene-editing-crispr.html




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
1.8B参数,阿里云首个联合DNA、RNA、蛋白质的生物大模型,涵盖16.9W物种刚刚!全球首例猪肾移植患者死亡!基因编辑依旧无法破除活不过两月魔咒?4000万蛋白结构训练,西湖大学开发基于结构词表的蛋白质通用大模型,已开源别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂最后的爬藤(小说)湖南大学聂舟团队Angew |工程化Anti-CRISPR蛋白创建CRISPR-Cas蛋白开关用于激活型基因编辑和病毒蛋白酶检测首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源宇宙人(1451期)中国卫通将推出消费级卫星互联网产品;华为研发,全球首个;通过星链实现卫星直连普通智能手机上网,测试发推成功世界首例!我国学者成功开展基因编辑猪肝脏的人体移植,迈出异种移植临床应用的关键一步诺奖得主Doudna最新演讲:基因编辑治疗价格太高,体内编辑是未来重要方向开源富文本编辑器Quill 2.0重磅发布谷歌、OpenAI 都搞起了AI “造人”?创始团队:开源AI基因编辑器只是冰山一角全球首个「开源GPT-4」出世!Llama 3震撼发布,Meta AI免登录可用全球首例基因编辑猪肾移植者去世,出院仅1个多月,院方称没有证据表明移植手术是死因AI成功改写人类DNA:全球首个基因编辑器开源;浙江大学首次实现汉字书写脑机接口,“意念写字”成现实丨AIGC日报2023年全球生物制药公司市值TOP20,基因编辑黑马/减肥药登顶【首发】引正基因完成新一轮融资,专注下一代基因编辑工具苹果一次性开源了8个大模型! 包含模型权重、训练日志和设置,OpenELM全面开源69次改造猪肾基因,全球首例人类活体移植猪肾成功!《扎基拉姆》&《一生的梦》父亲与京华火腿全球首次!基因编辑药物让22岁失明女子恢复视力Transformer大杀器进入蛋白质组学,一文梳理LLM如何助力生命科学领域大变革UC网盘称不限速,我国医生将基因编辑猪肝植入人体,B站用户平均年龄达24岁,元梦之星回应被起诉,这就是今天的其他大新闻!线粒体基因编码第14个蛋白质被发现;今年电影票房突破200亿丨科技早新闻【首发】篆码生物完成数千万元种子轮融资,推进原创超小型高效基因编辑器研发AI可以改写人类基因组吗?首次由AI从头设计的基因编辑器成功编辑人类细胞中DNA苹果发高效语言模型 OpenELM;小米策划 15 万元新车;AI 成功改写人类 DNA | 极客早知道去年今日此门中----谷歌微软的神奇可怕记忆基因编辑猪获重大突破,有望今年内进入消费市场【天玉之浪漫爱情诗歌五十首】(2016-2018)清华开源全球首个基于U-ViT的多模态扩散大模型UniDiffuserTessera公布镰状细胞贫血症疗法数据,两次编辑效果可达44%,体内基因编辑或成更简单经济的方法不用再等 OpenAI ,全球首个 Open-Sora 全面开源!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。