Redian新闻
>
EMNLP 2023 | 通过化学知识和自然语言关联以增强生物领域的跨模态学习

EMNLP 2023 | 通过化学知识和自然语言关联以增强生物领域的跨模态学习

科技

©PaperWeekly 原创 · 作者 | 裴启智
单位 | 中国人民大学高瓴人工智能学院
研究方向 | AI4Science、自然语言处理

EMNLP 2023 接收的论文 “BioT5: Enriching Cross-modal Integration in Biology with Chemical Knowledge and Natural Language Associations” 提出了一种在生物跨模态预训练中融合化学知识和自然语言关联的方案,突破了现有模型在生成有效分子 SMILES、对上下文信息利用不够充分,以及区分结构化与非结构化知识方面的局限性,进一步提升了药物发现过程中关键信息的理解和应用。

论文标题:
BioT5: Enriching Cross-modal Integration in Biology with Chemical Knowledge and Natural Language Associations

论文链接:

https://arxiv.org/abs/2310.07276

代码链接:

https://github.com/QizhiPei/BioT5



研究背景
在药物发现领域,分子和蛋白质是两个重要且关键的生物实体。小分子药物长期以来一直是制药工业的基石。蛋白质是生命科学的基础,扮演着多种生理功能的关键角色。它们不仅是细胞结构的主要组成部分,还涉及到信号传递、免疫反应和代谢过程。因此,准确理解和预测这些生物实体的特性以及它们之间的相互作用至关重要。

如上图所示,分子和蛋白质有多种表示形式,比如化学名称、1D 序列、2D 图和3D 结构等等。分子可以通过 SMILES 序列来描述, 蛋白质可以用 FASTA 序列表示。分子和蛋白质的序列表示促进了 Transformer 模型和预训练技术在生物医学领域的应用。
科学文献和生物数据库包含了许多关于分子和蛋白质的知识,例如生物实体的属性、定量实验测定,以及生物实体间如何相互作用。这些信息是仅仅从分子或蛋白质序列中无法推断得到的。因此,近来一些工作对文本、分子和蛋白质进行联合建模,通过自然语言文本的描述来增强分子和蛋白质的表示,但他们仍有很大的改进空间:
  1. 先前的工作通常用 SMILES 来表示分子,这可能会导致生成无效的 SMILES。

  2. 分子或蛋白质名称的上下文信息包含了生物实体的特性和相互作用信息,如何开发有效的方法来利用这些信息值得进一步的关注。

  3. 现有研究对结构化数据(例如数据库中的分子-文本对)和非结构化数据(例如科学文献中的无监督文本)的利用还不够充分。

本篇论文提出了 BioT5,一个包含文本、分子和蛋白质的联合预训练框架。BioT5 使用 SELFIES [1] 来表示小分子。与 SMILES 相比,SELFIES 提供了更加鲁棒的分子表示,解决了使用 SMILES 时常遇到的非法结构问题。通过 BioT5 的跨模态预训练以及在下游任务上的进一步微调,BioT5 在 10 个任务上取得了最先进的表现,并在 5 个任务上展示了与领域特定大模型相媲美的结果。



生物序列的独立分词和嵌入

在以往的工作中,分子和蛋白质的表征没有得到足够细致的关注。MolT5 使用与原始 T5 模型相同的字典,该字典是在自然语言文本上使用 SentencePiece [6] 生成的。
然而,直接使用这个字典来标记化分子 SMILES 会使得一些化学上有意义的标记,如完整的原子或官能团被错误地标记化。例如,在上图的分子中,溴原子在 SMILES 中表示为 “Br”,但在 MolT5 中被标记化为 “B”(硼原子)和 “r”。因此,MolT5 错误地将这种分子表征为既含溴的物质(相关于 “Br”),又含硼的物质(相关于“B”)。Galactica [7] 将SMILES拆分成一个一个的字符,也同样存在这个问题。
另一方面,不同模态间是否应该共享嵌入也值得讨论。在多语言任务中,共享嵌入允许模型更好地表征和学习借用词和同源词的含义,这些词在不同语言中保有原有意义。

然而,分子、蛋白质和文本代表着完全不同的语言,同一个标记在不同模态中承载着不同的语义含义。例如,标记 “C” 在自然语言中表示字符 C,在分子中表示碳原子,在蛋白质中表示半胱氨酸。为了解决上述问题,我们对分子、蛋白质和文本使用不同的词汇表,明确区分不同模态的语义空间,从而保持每个模态的内在完整性。



预训练与微调

预训练的整体框架如上,主要包含6种类型的数据:通用域文本 、分子 SELFIES 序列、蛋白质 FASTA 序列、生物领域文本,以及从数据库中提取的分子-文本和蛋白质-文本平行语料。对于部分生物领域的文本,我们采用和 MolXPT [3] 类似的方式,用命名实体识别和实体链接来提取和识别分子和蛋白质,将它们替换为相应的 SELFIES 或 FASTA 序列。这类数据称为 “wrapped sentences”。

BioT5 采用 T5 [4] 模型架构来处理不同的模态,整体框架如上图。BioT5 包含三种预训练任务:

  1. 在分子 SELFIES 序列、蛋白质 FASTA 序列和通用域文本上进行 T5 标准预训练,确保模型具有理解每种模态的能力。

  2. 对非结构化的生物领域的 wrapped 文本进行 T5 标准预训练,其中生物文本、SELFIES 序列和 FASTA 序列都可以被 mask 和恢复,从而使得模型学习到它们之间的关联。

  3. 对于结构化的分子-文本对和分子-蛋白对数据,使用双向翻译的训练目标,使得模型能够获得关于生物实体的权威知识。

BioT5 可以在涉及分子、蛋白质和文本的各种单模态和跨模态下游任务上进行微调。为了统一不同的下游任务并减少预训练和微调阶段的差距,我们采用了基于提示的微调方法,将各种任务统一成序列生成任务。



实验与结果

在下游任务的评估中,BioT5 表现出卓越的性能。下游任务可以分为单模态属性预测、跨模态属性预测和跨模态生成任务。

4.1 单模态属性预测

单模态属性预测包括 MoleculeNet benchmark [8] 和 PEER benchmark [9] 中的蛋白质性质预测任务,主要是预测给定的分子或蛋白是否具有某种特定的属性,如毒性、可溶解性等。BioT5 在 MoleculeNet 的分子属性预测任务中超过了多个基准模型,在 PEER 基准测试的蛋白质属性预测任务也表现良好。

4.2 跨模态属性预测

跨模态属性预测任务包括药物-靶点相互作用预测(DTI)和 PEER benchmark [9] 中的蛋白质-蛋白质相互作用预测(PPI),主要是预测给定的两个生物实体是否能够相互作用。在这两个任务上 BioT5 同样表现出色。

4.3 跨模态生成任务

跨模态生成任务主要包括 Molecule Captioning 任务和 Text-based Molecule Generation 任务。这两个任务由 MolT5 [5] 提出,均使用 ChEBI-20 数据集。BioT5 在这两个任务的大部分指标上达到了最好的效果,并且参数量适中。值得注意的是,通过使用 SELFIES 来表示分子,BioT5在Text-based Molecule Generation 任务上达到了 100% 的分子生成合法性,这体现了 SELFIES 相较于 SMILES 在鲁棒性上的优势。



总结

本文提出了 BioT5,一个全面的预训练框架。BioT5 有效地丰富了生物学中跨模态的化学知识和自然语言关联,在多种任务上实现了显著提升。

由于篇幅限制,这里省略了很多文章细节,可以参考论文原文。

▲ from DALL-E


参考文献

[1] Krenn, Mario, et al. “SELFIES and the future of molecular string representations." Patterns 3.10 (2022): 100588.

[2] Canese, Kathi, and Sarah Weis. "PubMed: the bibliographic database." The NCBI handbook 2.1 (2013).

[3] Liu, Zequn, et al. "MolXPT: Wrapping Molecules with Text for Generative Pre-training." arXiv preprint arXiv:2305.10688 (2023).

[4] Raffel, Colin, et al. "Exploring the limits of transfer learning with a unified text-to-text transformer." The Journal of Machine Learning Research 21.1 (2020): 5485-5551.

[5] Edwards, Carl, et al. "Translation between molecules and natural language." arXiv preprint arXiv:2204.11817 (2022).

[6] Kudo, Taku, and John Richardson. "Sentencepiece: A simple and language independent subword tokenizer and detokenizer for neural text processing." arXiv preprint arXiv:1808.06226 (2018).

[7] Taylor, Ross, et al. "Galactica: A large language model for science." arXiv preprint arXiv:2211.09085 (2022).

[8] Wu, Zhenqin, et al. "MoleculeNet: a benchmark for molecular machine learning." Chemical science 9.2 (2018): 513-530.

[9] Xu, Minghao, et al. "Peer: a comprehensive and multi-task benchmark for protein sequence understanding." Advances in Neural Information Processing Systems 35 (2022): 35156-35173.



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
一项比较有挑战的责任多模态学习方向微信交流群成立!JMT 2023.09.01EMNLP 2023 | 解决LLaMA、BERT等部署难题:首个4-bit浮点量化LLM来了旅美散记(21):韩国大学生球友Brandon复旦大学自然语言处理实验室:如何构建和训练ChatGPT学术成果 | EMNLP2023:MMEdit——如何编辑多模态大语言模型?毫米波生物雷达系统:生物医学领域的技术变革与应用前景 | 络绎学术Online第180期EMNLP 2023 | MMEdit——如何编辑多模态大语言模型?这种流行的调味品可以增强记忆力​EMNLP 2023 | Explore-Instruct: 通过LLM的主动探索提高特定领域指令多样性ICCV 2023 | 用“自编码器+多模态学习”更有效地解决3D物体可供性问题志愿者招募令丨智合论坛2023,一场知识和朋友的法律嘉年华EMNLP 2023 | 阅读顺序很重要:蚂蚁联合复旦提出全新多模态文档信息抽取模型WHAT A 2023 GOVERNMENT SHUTDOWN MEANS FOR YOUJMT 2023.08.29NLP年终盘点!2023年顶会论文合集(含ACL、EMNLP、NAACL、AAAI等)回国后我与支付宝和国际版支付宝​EMNLP 2023 findings | 生成式框架下解决输入扰动槽填充任务EMNLP 2023 | 大模型对话系统的内功与外功NeurIPS 2023 | 跨模态提示:微调大型预训练模型适应音视频下游任务EMNLP 2023 | 基于知识图谱嵌入的关系感知集成学习算法EMNLP2023 | LLM作用下的成分句法分析基础研究铁线草EMNLP2023 | LLMs也许不擅长少样本信息提取,但可以为候选答案重新排序!复旦大学、中国科学院团队综述,化学机器学习:基础知识和应用COLING/EMNLP/NAACL/NLPCC群,快来~EMNLP 2023录用结果公布,高分仍然被拒?评审内幕公开2023年医学生物领域年度热词“突破”,2024年预期热词“融合”。附:2023 年七大医学突破上海内推 | 小红书多模态算法组招聘多模态CV/NLP算法实习生工作着是美丽的吗?冬季孩子吃什么可以增强抵抗力?看看这份指南→谷歌Bard「破防」,用自然语言破解,提示注入引起数据泄漏风险EMNLP 2023评审内幕公开EMNLP 2023 Best Paper公布啦!JMT 2023.09.02从大脑活动中解码自然语言:任务与前沿方法JMT 2023.08.30EMNLP2023 | 计算语言揭秘认知扭曲:SCIR推出C2D2中文数据集EMNLP 2023 | 用于开放域多跳推理的大语言模型的自我提示思想链
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。