一文速览大语言模型在分子领域中的探索
/ /
论文标题:
在这篇文章中,作者研究了简单语言模型学习分子更复杂分布的能力。为此,作者通过编译更大,更复杂的分子分布来引入几个具有挑战性的生成建模任务,并评估语言模型对每个任务的能力。语言模型可以准确地生成:ZINC15 中得分最高的被惩罚 LogP 分子的分布,PubChem 中最大分子的多模态分子分布。这一发现证明,语言模型具有学习复杂分子分布的强大能力,并且其性能优于图模型。
/ /
论文标题:
Chemformer: a pre-trained transformer for computational chemistry
https://iopscience.iop.org/article/10.1088/2632-2153/ac3ffb/pdf
https://github.com/MolecularAI/Chemformer
/ /
论文标题:
论文地址:
https://pubs.acs.org/doi/pdf/10.1021/acs.jcim.1c00600
项目链接:
https://github.com/devalab/molgpt
为了开发一种能够生成具有特定性质分子的生成模型,本文使用了一种基于 Transformer-decoder 的生成式模型 MolGPT,其架构包括以下几个部分:
输入编码器:将 SMILES 字符串编码为向量表示,以便输入到模型中。
Transformer-decoder 模型:由多个 transformer 模块和一个 decoder 模块组成。每个 transformer 模块包括多头自注意力机制和前馈神经网络,用于学习输入序列中的上下文信息。decoder 模块使用自注意力机制和编码器-解码器注意力机制来生成下一个 SMILES 字符。
输出解码器:将生成的 SMILES 字符串解码为分子结构。
在训练过程中,MolGPT 使用掩码自注意力机制来预测下一个 SMILES 字符。在生成过程中,MolGPT 使用贪心搜索或基于束搜索的方法来生成具有所需性质的分子。
这篇文章主要进行了分子生成任务的实验,旨在评估 MolGPT 模型的性能和多样性。实验结果表明,MolGPT 生成的分子在多个性质上与目标分子具有相似的性质,包括分子量、脂水分配系数、旋转键数等。此外,MolGPT 生成的分子具有较高的多样性和独特性,与其他现有的分子生成模型相比,MolGPT 生成的分子更加多样化和有效。
/ /
论文地址:
https://arxiv.org/pdf/2301.11259.pdf
项目链接:
https://github.com/zjunlp/MolGen
本文旨在开发一种能够生成具有特定化学性质的分子的深度学习模型。作者提出了一种名为 MOLGEN 的预训练分子语言模型。该模型使用 SELFIES 作为分子语言,SELFIES 是一种无语法和语义障碍的分子表示方法,比 SMILES 更加鲁棒。MOLGEN 采用 Encoder-Decoder 的架构,使用自回归的方式生成分子。
该方法分为三个主要部分:
预训练第一阶段:使用大规模的分子数据集对模型进行预训练,以获取分子的结构和语法信息。这个预训练过程使用了超过 1 亿个分子 SELFIES 进行重构,从而获得分子的内在结构和语法洞察力。
预训练第二阶段:引入了不依赖特定领域的分子前缀,以增强模型对不同领域的理解能力。这种前缀调整方法不仅仅更新前缀矩阵,还能有效增强模型理解不同领域的能力。
微调阶段:提出一种自反馈机制,根据生成的分子的性质评估结果来调整模型的参数,以逐步优化生成的分子。这种自反馈机制使得模型能够更好地生成具有期望性质的分子。通过将模型与优化目标对齐,鼓励模型对更优的候选分子分配更高的概率,从而实现分子性质的优化。
▲ 图4:MolGen 的模型架构
/ ICML 2023 Poster /
论文标题:
▲ 图5:KV-PLM 的模型架构
实验结果表明,KV-PLM 模型能够有效地处理分子结构和生物医学文本的信息;能够准确地识别实体,并在关系抽取任务中能够识别化学物质和蛋白质之间的关系;通过预训练能够有效地学习内部结构知识,并在自然语言任务中展现出良好的性能。
/ /
论文标题:
Translation between Molecules and Natural Language
为了实现分子和自然语言之间的双向翻译,以便更好地控制分子的发现和理解,作者提出了一个自监督学习框架 MolT5,用于预训练模型,使其能够同时处理大量未标记的自然语言文本和分子字符串。
为此,作者定义了两个新的任务来实现这个目标:分子字幕和基于文本的 de novo 分子生成。对于任何给定的分子,分子字幕的目标是描述分子及其功能。在高层次上,分子字幕与图像字幕非常相似。但是,由于可能的字幕语言多样性增加,分子字幕的情况要困难得多。对于基于文本的 de novo 分子生成,目标是根据给定的文本描述生成新的分子。这种方法可以生成具有特定功能(如味道)而不是属性的分子,从而实现定制分子。
MolT5 是一个基于 Transformer 的模型,使用了 T5 的预训练架构。MolT5 的输入是一个分子 SMILES 字符串和一个自然语言文本,输出是一个分子字符串或一个自然语言文本,具体取决于所执行的任务。在分子字幕任务中,模型的输入是一个分子字符串,输出是一个自然语言文本,描述该分子及其功能。在基于文本的 de novo 分子生成任务中,模型的输入是一个自然语言文本,输出是一个新的分子字符串,该分子具有与文本描述相对应的功能。
/ /
论文标题:
论文地址:
https://arxiv.org/pdf/2301.12586.pdf
项目链接:
https://github.com/GT4SD/gt4sd-core
▲ 图7:Text+Chem T5 的模型架构。
/ /
论文标题:
Mol-Instructions: A Large-Scale Biomolecular Instruction Dataset for Large Language Models
▲ 图8:Mol-Instructions 数据集能够帮助大型语言模型解锁生物分子领域。
通过大量的指令微调实验,该数据集被证明可以提高 LLMs 在复杂的生物分子研究领域的适应性和认知能力,以推动生物分子研究社区的进步。
/ /
论文标题:
https://www.techrxiv.org/articles/preprint/DrugChat_Towards_Enabling_ChatGPT-Like_Capabilities_on_Drug_Molecule_Graphs/22945922
https://github.com/UCSD-AI4H/drugchat
这篇文章旨在开发一个能够在药物分子图上实现 ChatGPT 类似功能的系统,以便回答关于药物的问题和生成文本描述。所提出的 DrugChat 模型利用图神经网络(GNN)对药物的分子图结构进行编码。GNN 捕捉图中原子和键之间的关系,并生成节点和边的嵌入表示。这些嵌入表示经过线性投影层,得到图结构特征表示。此外,DrugChat 还结合了 LLM,用于生成关于药物的文本描述和回答问题。采用与 Mini-GPT4 类似的架构,LLM 将图结构特征作为输入,根据提供的药物结构生成描述性文本。
在训练过程中,DrugChat 模型使用来自 ChEMBL 和 PubChem 数据集的数据。这些数据包括问题-答案对和药物特征,以指导模型生成准确的回答和描述。
参考文献
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者