Redian新闻
>
ACL 2023 | 面向信息检索的结构感知语言模型训练方法

ACL 2023 | 面向信息检索的结构感知语言模型训练方法

公众号新闻
©作者 | 李欣泽、刘正皓等
单位 | 东北大学
来源 | 社媒派SMP


论文作者:

李欣泽、刘正皓、熊辰炎、于是、谷峪、刘知远、于戈

作者单位:

东北大学;微软研究院;清华大学

论文链接:

https://aclanthology.org/2023.findings-acl.734/

代码链接:

https://github.com/OpenMatch/SANTA



研究背景

结构化数据(如代码、HTML 文档和商品描述)在文章、书籍和网页中无处不在。学习文本结构背后的语义信息来表示结构化数据,对于构建更完备的检索系统至关重要。如图 1,结构化数据检索任务,如代码检索和商品检索,要求模型根据用户查询检索结构化数据。稠密向量检索是一种常用的信息检索方法,通过在向量空间中对用户查询和结构化数据进行编码,并根据向量的相似度进行匹配,来返回用户所需要的结构化数据。

▲ 图1. 非结构化数据检索示例图


然而,大多数预训练语言模型缺乏结构感知预训练,无法为结构化数据检索提供有效的向量表示。相关工作提出了一些结构感知预训练方法,用于继续训练预训练语言模型使其具备结构感知能力,来更好地表示结构化数据。这些方法通常设计了特定的掩码策略,并使用掩码语言建模对预训练语言模型进行训练。

但仅仅使用掩码语言建模可能无法充分训练预训练语言模型以进行有效的结构化数据表示。由于结构化和非结构化数据之间通常存在一些自然的对齐信号、结构化数据也蕴含有特殊的结构信息,这些为训练结构化数据表示提供了强有力的支持。我们在此基础上提出了一种结构感知语言模型预训练方法,用于实现面向结构化数据的稠密向量检索模型。


面向结构感知的语言模型预训练方法


▲ 图2. 结构感知预训练方法描述图。我们使用了结构数据对齐(SDA)和掩码实体预测(MEP)两种预训练方法。

针对结构数据检索,我们提出了面向结构感知的稠密向量检索方法(Structure Aware DeNse ReTrievAl, SANTA)。如图 2 所示,SANTA 设计了两个预训练任务:结构数据对齐(Structured Data Alignment,SDA)和掩码实体预测(Masked Entity Prediction,MEP)来继续训练预训练语言模型,使其对结构化数据更加敏感,更好地学习到结构化数据的表示。 

1. 数据收集和处理:我们使用结构化和非结构化数据之间存在的自然对齐信号,代码-描述文档和商品描述-商品要点,来构造预训练数据对。对于代码,我们将一些代码标识符视为实体,如变量、函数名、外部库和方法,并且在 Python 和其它编程语言中分别使用 BytesIO 和 tree_sitter 来识别实体。对于商品描述,我们使用 NLTK 工具来识别同时出现在商品描述和标题中的名词及特殊名词,并将它们视为实体。 

2. 结构数据对齐:我们计算编码后的非结构化数据与结构化数据之间的相似性得分,然后使用对比学习来继续训练语言模型。通过将两种模态数据对齐训练来指导语言模型优化向量空间。

▲ 公式1. 结构数据对齐。由批内负样本中采样的结构数据组成

 

3. 掩码实体预测:由于实体语义对于学习数据的结构化语义信息有着重要作用,我们在预训练语言模型时采用掩码语言模型方法来帮助语言模型捕捉数据背后的结构化语义信息。具体的,我们使用公式2训练语言模型,让其从上下文以及学习到的知识中获取必要的信息来恢复被掩码的实体,从而更好地理解数据的结构化语义信息。

▲ 公式2. 掩码实体预测





实验结果

▲ 表1. 不同检索模型在代码检索和商品检索任务上效果


如表 1 所示,通过与微调后的模型性能进行比较,我们的模型(SANTA)展现出了很强的零样本能力。在代码检索任务上相比微调的 CodeT5 取得了 6.8% 的性能改进。微调之后,在代码检索和商品检索任务上分别比 CodeT5 和 T5 取得了约 8% 和 2% 的性能改进。同时,相比最先进的代码检索模型 CodeRetriever 也取得了 4.3% 的性能提升。

▲ 表2. 消融实验


如表 2 所示,在基线模型上增加 MEP 任务与之前表现几乎相同,说明单纯使用掩码语言模型方法对于结构化文本的表示学习几乎没有作用。但与 MEP 不同,SDA 任务在两个结构化数据检索任务中都取得了显著的改进。当同时使用两个预训练任务后,检索性能会进一步提高。这一现象表明 MEP 任务可以通过与 SDA 任务相结合为结构化数据提供更有效的向量表示。

▲ 图3. 不同预训练方法向量空间展示


如图 3 所示,我们发现 SDA 任务可以很好地将非结构化数据和非结构化数据进行对齐,然而二者的向量表示会混合在一起;加入了 MEP 任务后,语言模型能够有能力对结构化和非结构文本进行区分并将其分布到不同区域中。综上,SDA 和 MEP 从不同方面帮助语言模型捕捉数据的结构化特征,进而实现更加精确的检索结果。




总结

当前预训练工作忽略了设计特定的结构感知预训练任务去学习结构化数据的表示,这使得他们在相应的结构数据检索任务上的表现差强人意。在这篇文章之中我们设计了结构数据对齐和掩码实体预测这两个任务,训练语言模型,使其学习数据结构背后的结构语义信息。我们的实验结果表明,SANTA,它通过捕捉结构化数据的语义来学习更加精准的结构化数据表示,最终在代码和产品搜索两个任务上取得了先进的效果。

更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
面向真实用户需求的中文大语言模型评测第二期(LLMEVAL-2)发布MetaMath:新数学推理语言模型,训练大模型的逆向思维减少内存消耗、降低大模型训练成本,ACL杰出论文作者揭秘CAME优化器650亿参数大模型预训练方案开源可商用!LLaMA训练加速38%,来自明星开源项目【美国春天印象5年飞兔藏龙卧虎跨年音乐会】《岳阳楼记先天下之忧而忧》范仲淹 &《陋室铭山不在高有仙则名,水不在深有龙则灵持续数据开源,智源发布超3亿对面向中英文语义向量模型训练数据集类GPT模型训练提速26.5%,清华朱军等人用INT4算法加速神经网络训练俄乌战况22【老键曲库】Daniel Lozakovich – Tchaikovsky: Six Pieces, Op. 51, TH 14【“核废水”政策性辩论信息检索挑战!】限时2.5小时提供三个年度完整版《中国核能年鉴》PDF文件陈丹琦 ACL'23 Tutorial - 基于检索的大语言模型 学习笔记Transformer速查宝典:模型、架构、训练方法的论文都在这里了2023 夏 北海道吃喝之旅2023 春季欧洲游 2. 9天环游瑞士直接用GPT-4控制空调,微软免训练方法让LLM迈向工业控制大型语言模型专场上线!四位AI新青年直播讲解MiniGPT-4、LLaVA、Gorilla以及大型语言模型Token危机ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成ACL2023 | 面向信息检索的结构感知语言模型训练方法午夜惊魂 冷明微前沿 | 强可控视频生成;定制化样本检索器;用脑电重建视觉感知;大模型鲁棒性评测从感知到理解-融合语言模型的多模态大模型研究DeepSpeed ZeRO++:降低4倍网络通信,显著提高大模型及类ChatGPT模型训练效率32卡176%训练加速,开源大模型训练框架Megatron-LLaMA来了智源开放3亿条语义向量模型训练数据, BGE模型持续迭代更新2023 春季欧洲游 3. 法国的卢瓦尔河谷和诺曼底5097 血壮山河之武汉会战 浴血田家镇 5NeurIPS 2023 | InstructBLIP:指令微调训练通用视觉-语言模型Google提出LaCLIP:大语言模型重写本文输入,让CLIP重焕光彩!词表的选择如何影响语言模型训练?这可能是目前见过最好的词表选择研究ACL 2023 | 达摩院、NTU提出多视图压缩表示,显著提升预训练语言模型鲁棒性在野猪笼落下那一刻想到的ICLR 2023|UniVL-DR: 多模态稠密向量检索模型ACL 2023 | 使用语言模型解决数学推理问题的协同推理框架给大语言模型“开个眼”,看图说话性能超CLIP!斯坦福等新方法无需多模态预训练丨开源​ACL 2023 | AD-KD:归因驱动的预训练语言模型知识蒸馏框架大型语言模型训练加速专场在线研讨会上线,三位专家将主讲AI服务器、训练框架和云上高性能存储架构从原理到代码理解语言模型训练和推理,通俗易懂,快速修炼LLM《国脉》&《千里共婵娟》北京内推 | 航天信息招聘大语言模型算法研究实习生(2023年暑期)今晚直播 | ACL 2023原作解读:研究评测与提升大语言模型时间推理能力
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。