EMNLP 2023 | 通过化学知识和自然语言关联以增强生物领域的跨模态学习
EMNLP 2023 接收的论文 “BioT5: Enriching Cross-modal Integration in Biology with Chemical Knowledge and Natural Language Associations” 提出了一种在生物跨模态预训练中融合化学知识和自然语言关联的方案,突破了现有模型在生成有效分子 SMILES、对上下文信息利用不够充分,以及区分结构化与非结构化知识方面的局限性,进一步提升了药物发现过程中关键信息的理解和应用。
论文链接:
代码链接:
先前的工作通常用 SMILES 来表示分子,这可能会导致生成无效的 SMILES。
分子或蛋白质名称的上下文信息包含了生物实体的特性和相互作用信息,如何开发有效的方法来利用这些信息值得进一步的关注。
现有研究对结构化数据(例如数据库中的分子-文本对)和非结构化数据(例如科学文献中的无监督文本)的利用还不够充分。
本篇论文提出了 BioT5,一个包含文本、分子和蛋白质的联合预训练框架。BioT5 使用 SELFIES [1] 来表示小分子。与 SMILES 相比,SELFIES 提供了更加鲁棒的分子表示,解决了使用 SMILES 时常遇到的非法结构问题。通过 BioT5 的跨模态预训练以及在下游任务上的进一步微调,BioT5 在 10 个任务上取得了最先进的表现,并在 5 个任务上展示了与领域特定大模型相媲美的结果。
生物序列的独立分词和嵌入
然而,分子、蛋白质和文本代表着完全不同的语言,同一个标记在不同模态中承载着不同的语义含义。例如,标记 “C” 在自然语言中表示字符 C,在分子中表示碳原子,在蛋白质中表示半胱氨酸。为了解决上述问题,我们对分子、蛋白质和文本使用不同的词汇表,明确区分不同模态的语义空间,从而保持每个模态的内在完整性。
预训练与微调
BioT5 采用 T5 [4] 模型架构来处理不同的模态,整体框架如上图。BioT5 包含三种预训练任务:
在分子 SELFIES 序列、蛋白质 FASTA 序列和通用域文本上进行 T5 标准预训练,确保模型具有理解每种模态的能力。
对非结构化的生物领域的 wrapped 文本进行 T5 标准预训练,其中生物文本、SELFIES 序列和 FASTA 序列都可以被 mask 和恢复,从而使得模型学习到它们之间的关联。
对于结构化的分子-文本对和分子-蛋白对数据,使用双向翻译的训练目标,使得模型能够获得关于生物实体的权威知识。
BioT5 可以在涉及分子、蛋白质和文本的各种单模态和跨模态下游任务上进行微调。为了统一不同的下游任务并减少预训练和微调阶段的差距,我们采用了基于提示的微调方法,将各种任务统一成序列生成任务。
实验与结果
在下游任务的评估中,BioT5 表现出卓越的性能。下游任务可以分为单模态属性预测、跨模态属性预测和跨模态生成任务。
4.1 单模态属性预测
单模态属性预测包括 MoleculeNet benchmark [8] 和 PEER benchmark [9] 中的蛋白质性质预测任务,主要是预测给定的分子或蛋白是否具有某种特定的属性,如毒性、可溶解性等。BioT5 在 MoleculeNet 的分子属性预测任务中超过了多个基准模型,在 PEER 基准测试的蛋白质属性预测任务也表现良好。
4.2 跨模态属性预测
跨模态属性预测任务包括药物-靶点相互作用预测(DTI)和 PEER benchmark [9] 中的蛋白质-蛋白质相互作用预测(PPI),主要是预测给定的两个生物实体是否能够相互作用。在这两个任务上 BioT5 同样表现出色。
4.3 跨模态生成任务
跨模态生成任务主要包括 Molecule Captioning 任务和 Text-based Molecule Generation 任务。这两个任务由 MolT5 [5] 提出,均使用 ChEBI-20 数据集。BioT5 在这两个任务的大部分指标上达到了最好的效果,并且参数量适中。值得注意的是,通过使用 SELFIES 来表示分子,BioT5在Text-based Molecule Generation 任务上达到了 100% 的分子生成合法性,这体现了 SELFIES 相较于 SMILES 在鲁棒性上的优势。
总结
由于篇幅限制,这里省略了很多文章细节,可以参考论文原文。
参考文献
[1] Krenn, Mario, et al. “SELFIES and the future of molecular string representations." Patterns 3.10 (2022): 100588.
[2] Canese, Kathi, and Sarah Weis. "PubMed: the bibliographic database." The NCBI handbook 2.1 (2013).
[3] Liu, Zequn, et al. "MolXPT: Wrapping Molecules with Text for Generative Pre-training." arXiv preprint arXiv:2305.10688 (2023).
[4] Raffel, Colin, et al. "Exploring the limits of transfer learning with a unified text-to-text transformer." The Journal of Machine Learning Research 21.1 (2020): 5485-5551.
[5] Edwards, Carl, et al. "Translation between molecules and natural language." arXiv preprint arXiv:2204.11817 (2022).
[6] Kudo, Taku, and John Richardson. "Sentencepiece: A simple and language independent subword tokenizer and detokenizer for neural text processing." arXiv preprint arXiv:1808.06226 (2018).
[7] Taylor, Ross, et al. "Galactica: A large language model for science." arXiv preprint arXiv:2211.09085 (2022).
[8] Wu, Zhenqin, et al. "MoleculeNet: a benchmark for molecular machine learning." Chemical science 9.2 (2018): 513-530.
[9] Xu, Minghao, et al. "Peer: a comprehensive and multi-task benchmark for protein sequence understanding." Advances in Neural Information Processing Systems 35 (2022): 35156-35173.
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者