Redian新闻
>
ACL2023 | 面向信息检索的结构感知语言模型训练方法

ACL2023 | 面向信息检索的结构感知语言模型训练方法

公众号新闻

作者 | 李欣泽、刘正皓等

单位 | 东北大学

来源 | 社媒派SMP

进NLP群—>加入NLP交流群

论文作者:

李欣泽、刘正皓、熊辰炎、于是、谷峪、刘知远、于戈

作者单位:

东北大学;微软研究院;清华大学

论文链接:

https://aclanthology.org/2023.findings-acl.734/

代码链接:

https://github.com/OpenMatch/SANTA



研究背景

结构化数据(如代码、HTML 文档和商品描述)在文章、书籍和网页中无处不在。学习文本结构背后的语义信息来表示结构化数据,对于构建更完备的检索系统至关重要。如图 1,结构化数据检索任务,如代码检索和商品检索,要求模型根据用户查询检索结构化数据。稠密向量检索是一种常用的信息检索方法,通过在向量空间中对用户查询和结构化数据进行编码,并根据向量的相似度进行匹配,来返回用户所需要的结构化数据。

▲ 图1. 非结构化数据检索示例图


然而,大多数预训练语言模型缺乏结构感知预训练,无法为结构化数据检索提供有效的向量表示。相关工作提出了一些结构感知预训练方法,用于继续训练预训练语言模型使其具备结构感知能力,来更好地表示结构化数据。这些方法通常设计了特定的掩码策略,并使用掩码语言建模对预训练语言模型进行训练。

但仅仅使用掩码语言建模可能无法充分训练预训练语言模型以进行有效的结构化数据表示。由于结构化和非结构化数据之间通常存在一些自然的对齐信号、结构化数据也蕴含有特殊的结构信息,这些为训练结构化数据表示提供了强有力的支持。我们在此基础上提出了一种结构感知语言模型预训练方法,用于实现面向结构化数据的稠密向量检索模型。


面向结构感知的语言模型预训练方法


▲ 图2. 结构感知预训练方法描述图。我们使用了结构数据对齐(SDA)和掩码实体预测(MEP)两种预训练方法。

针对结构数据检索,我们提出了面向结构感知的稠密向量检索方法(Structure Aware DeNse ReTrievAl, SANTA)。如图 2 所示,SANTA 设计了两个预训练任务:结构数据对齐(Structured Data Alignment,SDA)和掩码实体预测(Masked Entity Prediction,MEP)来继续训练预训练语言模型,使其对结构化数据更加敏感,更好地学习到结构化数据的表示。 

1. 数据收集和处理:我们使用结构化和非结构化数据之间存在的自然对齐信号,代码-描述文档和商品描述-商品要点,来构造预训练数据对。对于代码,我们将一些代码标识符视为实体,如变量、函数名、外部库和方法,并且在 Python 和其它编程语言中分别使用 BytesIO 和 tree_sitter 来识别实体。对于商品描述,我们使用 NLTK 工具来识别同时出现在商品描述和标题中的名词及特殊名词,并将它们视为实体。 

2. 结构数据对齐:我们计算编码后的非结构化数据与结构化数据之间的相似性得分,然后使用对比学习来继续训练语言模型。通过将两种模态数据对齐训练来指导语言模型优化向量空间。

▲ 公式1. 结构数据对齐。由批内负样本中采样的结构数据组成

 

3. 掩码实体预测:由于实体语义对于学习数据的结构化语义信息有着重要作用,我们在预训练语言模型时采用掩码语言模型方法来帮助语言模型捕捉数据背后的结构化语义信息。具体的,我们使用公式2训练语言模型,让其从上下文以及学习到的知识中获取必要的信息来恢复被掩码的实体,从而更好地理解数据的结构化语义信息。

▲ 公式2. 掩码实体预测





实验结果

▲ 表1. 不同检索模型在代码检索和商品检索任务上效果


如表 1 所示,通过与微调后的模型性能进行比较,我们的模型(SANTA)展现出了很强的零样本能力。在代码检索任务上相比微调的 CodeT5 取得了 6.8% 的性能改进。微调之后,在代码检索和商品检索任务上分别比 CodeT5 和 T5 取得了约 8% 和 2% 的性能改进。同时,相比最先进的代码检索模型 CodeRetriever 也取得了 4.3% 的性能提升。

▲ 表2. 消融实验


如表 2 所示,在基线模型上增加 MEP 任务与之前表现几乎相同,说明单纯使用掩码语言模型方法对于结构化文本的表示学习几乎没有作用。但与 MEP 不同,SDA 任务在两个结构化数据检索任务中都取得了显著的改进。当同时使用两个预训练任务后,检索性能会进一步提高。这一现象表明 MEP 任务可以通过与 SDA 任务相结合为结构化数据提供更有效的向量表示。

▲ 图3. 不同预训练方法向量空间展示


如图 3 所示,我们发现 SDA 任务可以很好地将非结构化数据和非结构化数据进行对齐,然而二者的向量表示会混合在一起;加入了 MEP 任务后,语言模型能够有能力对结构化和非结构文本进行区分并将其分布到不同区域中。综上,SDA 和 MEP 从不同方面帮助语言模型捕捉数据的结构化特征,进而实现更加精确的检索结果。




总结

当前预训练工作忽略了设计特定的结构感知预训练任务去学习结构化数据的表示,这使得他们在相应的结构数据检索任务上的表现差强人意。在这篇文章之中我们设计了结构数据对齐和掩码实体预测这两个任务,训练语言模型,使其学习数据结构背后的结构语义信息。我们的实验结果表明,SANTA,它通过捕捉结构化数据的语义来学习更加精准的结构化数据表示,最终在代码和产品搜索两个任务上取得了先进的效果。


进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
从原理到代码理解语言模型训练和推理,通俗易懂,快速修炼LLM减少内存消耗、降低大模型训练成本,ACL杰出论文作者揭秘CAME优化器Google提出LaCLIP:大语言模型重写本文输入,让CLIP重焕光彩!持续数据开源,智源发布超3亿对面向中英文语义向量模型训练数据集MetaMath:新数学推理语言模型,训练大模型的逆向思维大型语言模型训练加速专场在线研讨会上线,三位专家将主讲AI服务器、训练框架和云上高性能存储架构大型语言模型专场上线!四位AI新青年直播讲解MiniGPT-4、LLaVA、Gorilla以及大型语言模型Token危机今晚直播 | ACL 2023原作解读:研究评测与提升大语言模型时间推理能力ICCV 2023 | 面向视觉-语言导航的实体-标志物对齐自适应预训练方法泰坦号潜艇出事联想类GPT模型训练提速26.5%,清华朱军等人用INT4算法加速神经网络训练Transformer速查宝典:模型、架构、训练方法的论文都在这里了智源开放3亿条语义向量模型训练数据, BGE模型持续迭代更新650亿参数大模型预训练方案开源可商用!LLaMA训练加速38%,来自明星开源项目32卡176%训练加速,开源大模型训练框架Megatron-LLaMA来了ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成给大语言模型“开个眼”,看图说话性能超CLIP!斯坦福等新方法无需多模态预训练丨开源直接用GPT-4控制空调,微软免训练方法让LLM迈向工业控制【“核废水”政策性辩论信息检索挑战!】限时2.5小时提供三个年度完整版《中国核能年鉴》PDF文件DeepSpeed ZeRO++:降低4倍网络通信,显著提高大模型及类ChatGPT模型训练效率北京内推 | 航天信息招聘大语言模型算法研究实习生(2023年暑期)NeurIPS 2023 | InstructBLIP:指令微调训练通用视觉-语言模型飞碟宣言(全文)《美好的期待》&《千年守候》ACL 2023 | 面向信息检索的结构感知语言模型训练方法ACL 2023 | 达摩院、NTU提出多视图压缩表示,显著提升预训练语言模型鲁棒性词表的选择如何影响语言模型训练?这可能是目前见过最好的词表选择研究九剑一魂 - 第24回 汉胡同源 九剑一魂(九)面向真实用户需求的中文大语言模型评测第二期(LLMEVAL-2)发布微前沿 | 强可控视频生成;定制化样本检索器;用脑电重建视觉感知;大模型鲁棒性评测​ACL 2023 | AD-KD:归因驱动的预训练语言模型知识蒸馏框架陈丹琦 ACL'23 Tutorial - 基于检索的大语言模型 学习笔记从感知到理解-融合语言模型的多模态大模型研究ACL 2023 | 使用语言模型解决数学推理问题的协同推理框架漫游大华府(11)大使馆开放日(中)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。