Redian新闻
>
化学语言模型polyBERT,以前所未有的速度和准确性在聚合物「宇宙」中搜索所需聚合物

化学语言模型polyBERT,以前所未有的速度和准确性在聚合物「宇宙」中搜索所需聚合物

公众号新闻

ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯



编辑 | 紫萝

聚合物是我们日常生活中不可或缺的一部分,几乎触及生活的方方面面。从塑料袋、水瓶,到橡胶和木材,再到DNA、RNA 等。

聚合物化学空间如此之大,为识别合适的特定应用候选聚合物提供了前所未有的机遇和重大挑战。

聚合物信息学这个新兴领域可以深入了解聚合物「宇宙」,其中机器学习(ML)模型极具潜力。

近日,来自佐治亚理工学院(GT)的研究人员提出了一种化学语言模型:polyBERT——一个完整的端到端机器驱动的聚合物信息学管道,可以以前所未有的速度和准确性在这个空间中搜索合适的候选聚合物。

polyBERT 是一位化学语言学家,将聚合物的化学结构视为一种化学语言。

该方法超越了目前基于手工指纹方案的聚合物性能预测的最佳概念,在保持准确性的同时,速度提高了两个数量级,从而使其成为部署在包括云基础设施在内的可扩展架构中的强有力候选者。

该研究以「polyBERT: a chemical language model to enable fully machine-driven ultrafast polymer informatics」为题,于 2023 年 7 月 11 日发布在《Nature Communications》上。

论文链接:https://www.nature.com/articles/s41467-023-39868-6

机器学习框架在聚合物特性预测器的开发和解决逆向问题方面取得了实质性进展,在逆向问题中,满足特定特性要求的聚合物要么从候选集中识别,要么使用遗传或生成算法重新设计。

聚合物信息学管道中的一个重要步骤是将聚合物化学结构转换为通常称为指纹、特征或描述符的数字表示(见图 1a 中的蓝色框)。

图 1:使用 polyBERT 进行聚合物信息学。

过去的手工指纹识别方法利用化学信息学工具对聚合物的关键化学和结构特征进行数字编码。尽管这种手工制作的指纹建立在宝贵的直觉和经验的基础上,但它们开发起来很乏味,涉及复杂的计算,通常会消耗模型训练和推理期间的大部分时间,并且缺乏对所有高分子化学类别的泛化。

因此,使用手工指纹的机器学习管道在探索新的聚合物化学类别时很容易出错。此外,手工制作的指纹为完全机器驱动的管道的开发和部署带来了障碍,这些管道适合云计算和高吞吐量环境中的可扩展性。

克服前面提到的限制的一种方法是用完全机器制作的「Transformer」指纹代替手工制作的指纹(见图 1a 的右侧管道)。Transformer 已成为 ML 语言建模的黄金标准。

另一种有前途的神经网络架构,即图神经网络,它将化学结构视为图,已应用于分子和聚合物化学空间。与 Transformer 相反,图神经网络将原子表示为节点,将键表示为图的边,从而对原子之间的直接和扩展连接进行编码。因此,图神经网络并不像 Transformer 那样直接基于 PSMILES 字符串,而是依赖于需要为每个节点计算并分配给每个节点的一组初始特征向量(例如原子类型、隐式价等)。

在此,研究人员设想将简化分子线性输入规范(SMILES)字符串作为聚合物的「化学语言」来表示聚合物。研究使用数百万个聚合物 SMILES (PSMILES) 字符串来训练名为 polyBERT 的语言模型,使其成为聚合物化学语言的专家(语言学家)。与多任务深度神经网络相结合,polyBERT 实现了完全端到端机器驱动的聚合物信息学管道,该管道使用并释放了人工智能方法的真正力量。多任务深度神经网络利用多保真度和多属性数据集中的固有相关性,在云计算环境中轻松扩展,并推广到多个预测任务。

该研究几个关键要素如下:

  • 首先,通过枚举组合从 13000 多种合成聚合物列表中提取的化学片段,生成了 1 亿个假设聚合物的数据集。
  • 接下来,使用这个假设的聚合物数据集来训练 PolyBERT(一种基于 DeBERTa 的仅编码器 Transformer),使其成为一名高分子化学语言学家。在训练过程中,polyBERT 学习将输入 PSMILES 字符串转换为其用作聚合物指纹的数字表示。
  • 最后,使用其多任务机器学习框架将 PolyBERT 指纹映射到大约 36 种聚合物属性,以产生完全机器驱动的超快聚合物属性预测器。为了进行基准测试,将这种新的端到端属性预测管道的性能(准确性和速度)与之前开创的基于手工制作的 Polymer Genome (PG) 指纹的管道进行了比较。使用超快的 PolyBERT 聚合物信息学管道,能够预测 1 亿种假设聚合物的属性,旨在找到聚合物宇宙的属性边界。

该研究通过利用语言、数据和人工智能模型的力量,有助于加快聚合物的发现、设计、开发和部署。

属性预测

为了对 PolyBERT 和 PG 指纹的属性预测准确性进行基准测试,研究人员为表 1 中定义的每个属性类别训练多任务深度神经网络。

表 1:属性预测器的训练数据集。(来源:论文)

图 2a 显示了 29 种聚合物特性交叉验证过程的五个验证数据集的决定系数 (R^2) 平均值和标准差。研究发现共聚物的热性能和机械性能(相对于均聚物)的预测精度更高,而透气率的预测精度稍差,这与之前的发现类似。

图 2b 显示了每个元学习器(每个类别一个)的高 R^2 值,表明所有属性都具有出色的预测性能。

基于 PolyBERT 的超快且准确的聚合物信息学管道使研究人员能够预测最初为训练 polyBERT 而创建的 1 亿个假设聚合物的所有 29 个属性。图 2c 显示了每个属性的最小值、平均值和最大值。

图 2:polyBERT (PB) 和聚合物基因组 (PG) 指纹的决定系数 (R^2) 性能值。(来源:论文)

总体而言,PG 表现最好 (R^2 = 0.81),但紧随其后的是 polyBERT (R^2 = 0.80)。指纹类型的整体性能顺序与类别平均值和属性一致,但 Xc、 Xe 和 ϵb 除外,其中 polyBERT 略优于 PG 指纹。注意到,polyBERT 和 PG 指纹都是聚合物特征化的实用途径,因为它们的 R^2 值非常接近并且通常很高。polyBERT 指纹具有手工制作的 PG 指纹的准确性,但速度快了两个数量级以上。

图 3:聚合物指纹的计算时间。(来源:论文)

PolyBERT 的其它三个优势

前馈网络在 PolyBERT 自监督训练期间预测屏蔽标记,能够将数字潜在空间(即指纹)映射到 PSMILES 字符串。

polyBERT 方法的第二个优点是可解释性。更详细地分析 PolyBERT 指纹的化学相关性可以揭示聚合物结构部分的化学功能和相互作用。

PolyBERT 方法的另一个优点是它覆盖整个化学空间。分子 SMILES 字符串是聚合物 SMILES 字符串的子集,仅区别两个星 ([*]) 符号,表示聚合物重复单元的两个端点。polyBERT 没有内在的限制或功能来阻碍预测分子 SMILES 字符串的指纹。

总之,polyBERT 是一种可通用、超快且准确的聚合物信息学管道,可在云硬件上无缝扩展,适用于巨大聚合物空间的高通量筛选。polyBERT 能够大规模探索这个巨大的聚合物宇宙。PolyBERT 为新型聚合物的发现铺平了道路。

人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
宜居温哥华,荒谬前所未有:租住无窗户的储物间月租金800加元…她死了,但因她得名的那个包变得前所未有的疯狂…思念,是对母亲唯一的回报百度肖阳:大语言模型重构搜索引擎,让搜索越来越懂用户“中国正以前所未有的速度进行部署”高利率,低利率,总有一款镰刀可以收割韭菜5071 血壮山河之武汉会战 黄广战役 3前所未见! 加拿大贫富差距正以惊人的速度拉大, 这些人最穷…前所未有的加拿大山火还在燃烧,美国超5000万人饱受污染之苦真相当你感觉前所未有的阻力时你该怎么办?谁能想到,这一届00后毕业生,遭遇了前所未有的地狱开局……越来越多海洋生物横尸海滩,西海岸面临前所未有的危机230万吨!研究:全球海洋塑料污染达到“前所未有的水平”佐治亚理工提出polyBERT化学语言模型,促进聚合物空间高通量筛选拜疯狂的无良票代所赐,我们宝贵的回国机票正在遭遇前所未有的威胁港媒:中国“做出前所未有的决定”——大型语言模型专场上线!四位AI新青年直播讲解MiniGPT-4、LLaVA、Gorilla以及大型语言模型Token危机Nature:有史以来最大的人类正常乳腺细胞图谱为乳腺生物学带来了前所未有的新见解张维迎:经济面临前所未有的危机|要让企业家能掌握自己命运战争丨辽沈战役——从时机和地理上看前所未有的大歼灭战苹果iPhone 15爆料大汇总!它将带来前所未有的创新和惊喜QUERT:基于旅行搜索领域Query理解的预训练语言模型巴黎十八区爆炸,五人受伤!召回这些牛奶!超市9月降价更明显?法国医院陷入“前所未有的危机”欠债危机!加拿大人信用卡人均欠款超$4000!负债前所未有的高!天津,前所未有的反差脑损伤实例分析突破自我,新的站牌!一场前所未有的实践……请你见证!国殇日长周末:交通将前所未有忙碌!出行需谨慎!纽约是美国蚊子最猖獗的城市之一ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成【医疗】法国医院前所未有的紧张局势,急诊部频频关闭中国美院院长: 一场前所未有的变革正在中国发生, 必须重振社会主义文化领导力剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态突然宣布:重大好消息!中国最强武器亮相!前所未有的震撼镜头曝光美军谋划"前所未有的行动"
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。