EMNLP 2023 | 通过化学知识和自然语言关联以增强生物领域的跨模态学习

2023-11-23 04:11

©PaperWeekly 原创 · 作者 | 裴启智

单位 | 中国人民大学高瓴人工智能学院

研究方向 | AI4Science、自然语言处理

EMNLP 2023 接收的论文 “BioT5: Enriching Cross-modal Integration in Biology with Chemical Knowledge and Natural Language Associations” 提出了一种在生物跨模态预训练中融合化学知识和自然语言关联的方案，突破了现有模型在生成有效分子 SMILES、对上下文信息利用不够充分，以及区分结构化与非结构化知识方面的局限性，进一步提升了药物发现过程中关键信息的理解和应用。

论文标题：

BioT5: Enriching Cross-modal Integration in Biology with Chemical Knowledge and Natural Language Associations

论文链接：

https://arxiv.org/abs/2310.07276

代码链接：

https://github.com/QizhiPei/BioT5

研究背景

在药物发现领域，分子和蛋白质是两个重要且关键的生物实体。小分子药物长期以来一直是制药工业的基石。蛋白质是生命科学的基础，扮演着多种生理功能的关键角色。它们不仅是细胞结构的主要组成部分，还涉及到信号传递、免疫反应和代谢过程。因此，准确理解和预测这些生物实体的特性以及它们之间的相互作用至关重要。

如上图所示，分子和蛋白质有多种表示形式，比如化学名称、1D 序列、2D 图和3D 结构等等。分子可以通过 SMILES 序列来描述，蛋白质可以用 FASTA 序列表示。分子和蛋白质的序列表示促进了 Transformer 模型和预训练技术在生物医学领域的应用。

科学文献和生物数据库包含了许多关于分子和蛋白质的知识，例如生物实体的属性、定量实验测定，以及生物实体间如何相互作用。这些信息是仅仅从分子或蛋白质序列中无法推断得到的。因此，近来一些工作对文本、分子和蛋白质进行联合建模，通过自然语言文本的描述来增强分子和蛋白质的表示，但他们仍有很大的改进空间：

先前的工作通常用 SMILES 来表示分子，这可能会导致生成无效的 SMILES。
分子或蛋白质名称的上下文信息包含了生物实体的特性和相互作用信息，如何开发有效的方法来利用这些信息值得进一步的关注。
现有研究对结构化数据（例如数据库中的分子-文本对）和非结构化数据（例如科学文献中的无监督文本）的利用还不够充分。

本篇论文提出了 BioT5，一个包含文本、分子和蛋白质的联合预训练框架。BioT5 使用 SELFIES [1] 来表示小分子。与 SMILES 相比，SELFIES 提供了更加鲁棒的分子表示，解决了使用 SMILES 时常遇到的非法结构问题。通过 BioT5 的跨模态预训练以及在下游任务上的进一步微调，BioT5 在 10 个任务上取得了最先进的表现，并在 5 个任务上展示了与领域特定大模型相媲美的结果。

生物序列的独立分词和嵌入

在以往的工作中，分子和蛋白质的表征没有得到足够细致的关注。MolT5 使用与原始 T5 模型相同的字典，该字典是在自然语言文本上使用 SentencePiece [6] 生成的。

然而，直接使用这个字典来标记化分子 SMILES 会使得一些化学上有意义的标记，如完整的原子或官能团被错误地标记化。例如，在上图的分子中，溴原子在 SMILES 中表示为 “Br”，但在 MolT5 中被标记化为 “B”（硼原子）和 “r”。因此，MolT5 错误地将这种分子表征为既含溴的物质（相关于 “Br”），又含硼的物质（相关于“B”）。Galactica [7] 将SMILES拆分成一个一个的字符，也同样存在这个问题。

另一方面，不同模态间是否应该共享嵌入也值得讨论。在多语言任务中，共享嵌入允许模型更好地表征和学习借用词和同源词的含义，这些词在不同语言中保有原有意义。

然而，分子、蛋白质和文本代表着完全不同的语言，同一个标记在不同模态中承载着不同的语义含义。例如，标记 “C” 在自然语言中表示字符 C，在分子中表示碳原子，在蛋白质中表示半胱氨酸。为了解决上述问题，我们对分子、蛋白质和文本使用不同的词汇表，明确区分不同模态的语义空间，从而保持每个模态的内在完整性。

预训练与微调

预训练的整体框架如上，主要包含6种类型的数据：通用域文本、分子 SELFIES 序列、蛋白质 FASTA 序列、生物领域文本，以及从数据库中提取的分子-文本和蛋白质-文本平行语料。对于部分生物领域的文本，我们采用和 MolXPT [3] 类似的方式，用命名实体识别和实体链接来提取和识别分子和蛋白质，将它们替换为相应的 SELFIES 或 FASTA 序列。这类数据称为 “wrapped sentences”。

BioT5 采用 T5 [4] 模型架构来处理不同的模态，整体框架如上图。BioT5 包含三种预训练任务：

在分子 SELFIES 序列、蛋白质 FASTA 序列和通用域文本上进行 T5 标准预训练，确保模型具有理解每种模态的能力。
对非结构化的生物领域的 wrapped 文本进行 T5 标准预训练，其中生物文本、SELFIES 序列和 FASTA 序列都可以被 mask 和恢复，从而使得模型学习到它们之间的关联。
对于结构化的分子-文本对和分子-蛋白对数据，使用双向翻译的训练目标，使得模型能够获得关于生物实体的权威知识。

BioT5 可以在涉及分子、蛋白质和文本的各种单模态和跨模态下游任务上进行微调。为了统一不同的下游任务并减少预训练和微调阶段的差距，我们采用了基于提示的微调方法，将各种任务统一成序列生成任务。

实验与结果

在下游任务的评估中，BioT5 表现出卓越的性能。下游任务可以分为单模态属性预测、跨模态属性预测和跨模态生成任务。

4.1 单模态属性预测

单模态属性预测包括 MoleculeNet benchmark [8] 和 PEER benchmark [9] 中的蛋白质性质预测任务，主要是预测给定的分子或蛋白是否具有某种特定的属性，如毒性、可溶解性等。BioT5 在 MoleculeNet 的分子属性预测任务中超过了多个基准模型，在 PEER 基准测试的蛋白质属性预测任务也表现良好。

4.2 跨模态属性预测

跨模态属性预测任务包括药物-靶点相互作用预测（DTI）和 PEER benchmark [9] 中的蛋白质-蛋白质相互作用预测（PPI），主要是预测给定的两个生物实体是否能够相互作用。在这两个任务上 BioT5 同样表现出色。

4.3 跨模态生成任务

跨模态生成任务主要包括 Molecule Captioning 任务和 Text-based Molecule Generation 任务。这两个任务由 MolT5 [5] 提出，均使用 ChEBI-20 数据集。BioT5 在这两个任务的大部分指标上达到了最好的效果，并且参数量适中。值得注意的是，通过使用 SELFIES 来表示分子，BioT5在Text-based Molecule Generation 任务上达到了 100% 的分子生成合法性，这体现了 SELFIES 相较于 SMILES 在鲁棒性上的优势。

总结

本文提出了 BioT5，一个全面的预训练框架。BioT5 有效地丰富了生物学中跨模态的化学知识和自然语言关联，在多种任务上实现了显著提升。

由于篇幅限制，这里省略了很多文章细节，可以参考论文原文。

▲ from DALL-E

参考文献

[1] Krenn, Mario, et al. “SELFIES and the future of molecular string representations." Patterns 3.10 (2022): 100588.

[2] Canese, Kathi, and Sarah Weis. "PubMed: the bibliographic database." The NCBI handbook 2.1 (2013).

[3] Liu, Zequn, et al. "MolXPT: Wrapping Molecules with Text for Generative Pre-training." arXiv preprint arXiv:2305.10688 (2023).

[4] Raffel, Colin, et al. "Exploring the limits of transfer learning with a unified text-to-text transformer." The Journal of Machine Learning Research 21.1 (2020): 5485-5551.

[5] Edwards, Carl, et al. "Translation between molecules and natural language." arXiv preprint arXiv:2204.11817 (2022).

[6] Kudo, Taku, and John Richardson. "Sentencepiece: A simple and language independent subword tokenizer and detokenizer for neural text processing." arXiv preprint arXiv:1808.06226 (2018).

[7] Taylor, Ross, et al. "Galactica: A large language model for science." arXiv preprint arXiv:2211.09085 (2022).

[8] Wu, Zhenqin, et al. "MoleculeNet: a benchmark for molecular machine learning." Chemical science 9.2 (2018): 513-530.

[9] Xu, Minghao, et al. "Peer: a comprehensive and multi-task benchmark for protein sequence understanding." Advances in Neural Information Processing Systems 35 (2022): 35156-35173.

更多阅读