Redian新闻
>
​SIGIR 2023 | 基于图的预训练和提示来增强低资源文本分类

​SIGIR 2023 | 基于图的预训练和提示来增强低资源文本分类

科技

©PaperWeekly 原创 · 作者 | Zhihao Wen
单位 | 新加坡管理大学
研究方向 | 图神经网络,文本分类




摘要

本文由来自新加坡管理大学的作者提出了一种基于图的预训练和提示来增强低资源文本分类的方法 G2P2。

论文标题:

Augmenting Low-Resource Text Classification with Graph-Grounded Pre-training and Prompting

论文地址:

https://dl.acm.org/doi/pdf/10.1145/3539618.3591641


文本分类是信息检索中的一个基本问题,在现实世界中有许多应用,例如预测在线文章的主题和电子商务产品描述的类别。然而,低资源文本分类由于标注样本较少或没有标注样本,给监督学习带来了严重的问题。同时,许多文本数据本身就基于网络结构,如在线文章的超链接/引用网络和电子商务产品的用户-物品购买网络。这些图结构捕捉了丰富的语义关系,有可能增强低资源文本分类。

在本文中,我们提出了一种名为 “基于图的预训练和提示”(Graph-Grounded Pre-training and Prompting,G2P2)的新型模型,以双管齐下的方式解决低资源文本分类问题。在预训练过程中,我们提出了三种基于图交互的对比策略,以联合预训练图-文本模型;在下游分类过程中,我们探索了对联合预训练模型的提示,以实现低资源分类。在四个真实世界数据集上的广泛实验证明了 G2P2 在零资源和少量资源文本分类任务中的优势。




简介
文本分类是一个基础研究问题,在信息检索中有许多重要应用。例如,预测在线文章的主题可以帮助读者轻松地在网站或门户网站内进行搜索和导航;对电子商务商品描述的类别进行分类可以帮助企业有效地组织库存,改善用户的搜索体验。
近十年来,有监督深度学习在文本分类方面取得了显著的进步,尤其是在有大规模和高质量标签数据的情况下。然而,数据标注通常成本高、耗时长,因此,在没有或仅有少量标注样本的情况下,低资源分类成为一种有吸引力的替代方法。
要解决低资源文本分类问题,一种方法是利用预先训练好的语言模型(PLM)。通过微调模型参数以达到特定任务的目标,PLM 可以适应不同的任务。与传统的监督学习相比,“预训练、微调”模式所需的标注数据更少,但它有两个缺点。
首先,最先进的 PLM 通常具有巨大的模型规模,例如,GPT-3 有 1750 亿个参数,这使得微调的成本过高。其次,由于预训练和微调目标之间的差距,微调仍然需要合理数量的标注数据,因此在低资源场景(包括零和少量分类)下很难实现。为了克服预训练和微调的问题,有人提出了提示法。它使用自然语言指令或 "提示 "来提示下游任务,同时冻结大型 PLM 的参数。
与此同时,文本数据经常以网络结构为基础,这些网络结构揭示了文章或项目之间的重要关系,可用于增强低资源文本分类。现有的 PLM 和提示并不能利用这些关系,而图神经网络(GNN)是基于消息传递架构设计的,可以从图结构中学习。然而,传统的端到端 GNN 训练严重依赖于丰富的特定任务标签。

这就激发了 GNN 在无标签图上采用精心设计的前置任务来进行自监督学习来抽取知识,以使得减少对标签的依赖。遗憾的是,GNN 对文本特征的处理仍然很初级。通常情况下,简单的词袋表示或浅层词嵌入向量的聚合被输入到 GNN 中作为初始节点特征,然后再沿着图结构进一步传播。因此,GNN 对文本的建模是粗粒度的,无法完全捕捉文本中细微的语义差异和相似性。

2.1 面临的挑战和提出的工作

为了克服现有基于文本和图的解决方案的局限性,我们必须解决以下两个开放性问题。

首先,我们如何捕捉细粒度的文本语义,同时联合利用图结构信息?一种简单的方法是使用语言模型从原始文本作为输入生成特征,然后训练 GNN。然而,这样一来,文本和图只是松散地耦合在一起,缺乏明确的配对来相互补充。在本文中,我们提出了以图为基础的对比预训练,根据文本-节点、文本-摘要和节点-摘要三种图的交互,最大限度地提高文本和图表征之间的一致性。
其次,在联合预训练图-文模型的情况下,我们如何增强低资源文本分类?我们提出了一种新方法,即 “提示” 联合预训练的图-文模型,而不是对其进行微调。这样,我们就能利用预训练模型中最相关的结构和语义信息,使该过程更适合低资源场景。

更具体地说,我们将手工制作的离散提示用于零样本分类,将连续提示用于基于自动提示调整的少样本设置。由于涉及的参数少得多,提示调整比对预训练模型进行微调更节省标签和计算。此外,我们还提出了一种基于上下文的提示调整初始化方法,该方法考虑了文本之间的图结构,从而提供了一个信息量更大的训练起点。




方法

3.1 G2P2 概述
如图 1 所示,我们的模型包括两个阶段:(a)基于图的恒定预训练;(b)用于低资源分类的基于图的及时调整。
在预训练期间,我们通过以自我监督的方式联合训练文本编码器和图编码器来学习双模态嵌入空间,因为文档也是图上的一个节点。更具体地说,我们使用基于转换器的文本编码器和基于 GNN 的图编码器。转换器将每个节点(即文档)上的文本作为输入,为节点 输出文本嵌入向量
另一方面,GNN 将图和节点特征作为输入,为节点 生成节点嵌入向量 。随后,在双模态嵌入空间中,我们根据图上不同类型的交互,通过三种对比策略来调整相同或相关节点上的文本和图表示。

在下游测试中,我们对联合预训练的图-文模型进行提示,以进行零样本或少样本分类。对于零样本分类,我们使用手工制作的离散提示和标签文本。对于少样本分类,我们使用连续提示来填充标签文本。特别的是,为了进行提示调整,我们根据图结构的上下文来初始化连续提示嵌入。

▲ 图1:G2P2 的整体框架。(a)在预训练期间,它通过三种对比策略联合训练文本和图形编码器。(b)在测试期间,它执行提示辅助的零样本或少样本分类(图中只显示了少样本分类的提示调整,而零样本推理采用的是简化方案)。

3.2 基于图结构的对比预训练

通过图上的三种交互方式, 基于图结构的预训练通过联合训练文本编码器和图编码器来学习双模态嵌入空间。
双编码器
文本编码器是一个 Transformer,我们将其命名为 ,给定文档 ,文本编码器输出 维嵌入向量,表示为

同时,文档 也是图中的节点 。我们选择一种名为图卷积网络(GCN)的经典 GNN 作为图编码器,用 表示。同样,它也会输出给定节点 的嵌入向量
文本-节点交互
基于图的文本自然意味着节点和文本之间的双射关系,其中每个文档 对应图中的节点 。受图像和标题文本配对以及内容和节点序列映射的启发,我们设计了一种预训练策略来预测哪个文本文档与图中的哪个节点相匹配。具体来说,给定 个文档和相应的 个节点,有 个可能的文档-节点配对。
其中,只有 对是真匹配,而其余的 对是假匹配。作为我们的第一个对比策略,我们利用图上文本和节点之间的双向互动,最大化 匹配对的余弦相似度,同时最小化 不匹配对的余弦相似度。为了计算 对的余弦相似度,我们首先对嵌入矩阵 进行行向 L2 归一化,分别得到 。然后,我们计算节点-文本相似性矩阵 ,以捕捉成对的余弦相似性,如下所示。
其中,𝜏 是一个可训练的温度参数,用于缩放相似度值。为了计算基于文本-节点双向交互的对比度损失,我们采用了 multi-class N-pair loss,同时考虑了行和列的交叉熵损失。例如, 的第 行表示节点 与每个文档之间的相似性得分,其中行索引 表示与 真实匹配的文档
其中, 是对比训练的标签向量,CE 表示以行为单位应用于输入矩阵 的交叉熵损失。
文本-摘要交互
除了文本-节点的双射交互,我们还进一步利用了图上的高阶交互。特别是,每个文档都有一组由图拓扑定义的相邻文档。鉴于目标文档之间的语义关联性,相邻文档可以理解为目标文档的摘要。例如,在电子商务网络中,用户购买的产品自然就是该用户的摘要,反之亦然。在不失一般性的前提下,我们采用简单的均值池法生成如下的摘要嵌入
因此,作为我们的第二种对比策略,我们根据图邻域中文本与摘要之间的交互关系,将每篇文档的文本嵌入与其对应的摘要文本嵌入对齐。

节点-摘要交互
基于邻域的文档摘要 也是对节点 的语义描述。与文本和摘要的交互一样,作为我们的第三种对比策略,我们试图使节点嵌入和基于邻域的摘要文本嵌入保持一致。

总的预训练目标
最后,我们整合了基于文本-节点、文本-摘要和节点-摘要交互的三种对比损失。我们会得到一个预训练模型 ,该模型由双重编码器的参数组成,通过如下公式获得

3.3 提示图-文联合模式

零样本分类
对于 -way zero-shot 分类,我们预测标签文本嵌入与节点嵌入相似度最高的类别,如图 2 所示,

▲ 图2:零样本分类示意图。预训练模型 由图 1(a)得到。
具体来说,分类权重可由文本编码器根据类别标签文本生成。具体来说, 类的权重向量 是预训练文本编码器的输出,如下公式所示。
这里的 “prompt [CLASS]” 是提示模板,其中 “[CLASS]” 指的是目标类别 y 的标签文本(例如,论文领域分类中的 “NLP”),“prompt” 是自然语言 token 序列。然后,给定节点表示 的类别分布预测为
其中 为余弦相似度。
少样本分类
离散提示的问题在于,由于 PLM 本身是连续的,因此很难对其进行优化。因此,我们采用了提示调整技术。它用可学习的连续提示语取代了离散的自然语言提示语,同时仍保持主干 PLM 的参数不变。也就是说,我们不再使用离散标记序列,而是使用连续嵌入序列作为提示。连续提示作为输入送到文本编码器,为每个类别 生成分类权重:

为了充分利用图结构的优势,我们提出了以图为基础的提示调整方法,用图上下文来初始化提示嵌入。节点 及其邻居  统称为 的图上下文。





实验结果

▲ 表1:95% 置信区间下的 Five-shot 性能(百分比)。在每一列中,所有方法中的最佳结果用粗体表示,基线中的最佳结果用下划线表示。G2P2 的改进是相对于最佳基线计算的。 表示根据双尾 检验 ,我们的模型明显优于最佳基线。

▲ 表2:零样本分类准确率(百分比)。相关样式说明见表 1。可以看出,我们的模型 G2P2 和 G2P2+d 的表现明显优于基线模型,这证明了我们的基于图的对比预训练在零样本设置下的有效性。




结语

主要贡献:1)解决了低资源文本分类的问题;2)提出了 G2P2,包括预训练中的三种基于图交互的对比策略,以及下游分类中联合预训练的图-文模型的提示机制。

局限性:1)需要图结构;2)无法在零样本设置下进行 prompt tuning。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Powerline:为 Vim 和 Bash Shell 带来超炫的状态栏和提示符俄乌战况222023 春季欧洲游 2. 9天环游瑞士女工智能突发:资金过亿美元的金太阳房地产欺诈案被法官驳回;副总统哈里斯在西雅图的竞选活动5000美元起跳;本周西雅图的炎热天气破纪录​SIGIR 2023 | 用于序列推荐的多兴趣预训练框架尽早领取社安金双声子 江湖黄永玉基于牛顿求根法,新算法实现并行训练和评估RNN,带来超10倍增速7 Papers & Radios | LeCun世界模型首次尝试;Meta开源文本音乐生成模型九成企业领导者正借助人工智能来增强运营韧性|绿研院半月报中小学数学中,计算训练和概念理解,孰轻孰重???社会救助和医保待遇标准调整、本科阶段除综合评价批次外的其他批次志愿填报……本周提示来了!从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统九成企业领导者正借助人工智能来增强运营韧性;刘德华:重复的次数够多,成功应该是逃不掉|绿研院半月报高考成绩公布,端午节假期交通指南,上海电视节开幕……本周提示来了!投资东南亚系列——印尼外商投资法律环境介绍和提示父亲节的小情人,穿汉服的小仙女预训练通用神经网络CHGNet,实现基于电荷的原子模拟【美国风流才女春天传奇夏至父亲端午节5年现场舞台风格流派三部曲原创演唱会】励志春天跑步歌《阳光下奔跑》&《白色衣裙女孩》OpenAI的文本分类器悄悄停用:它们也分不清AI生成的内容了Nat Med丨斯坦福团队利用twitter资源,开发出“病理图像文本对应”的自然语言-图像预训练模型李强主持召开国务院常务会议 审议通过《关于加强低收入人口动态监测 做好分层分类社会救助工作的意见》等科研上新 | 第2期:可驱动3D肖像生成;阅读文本密集图像的大模型;文本控制音色;基于大模型的推荐智能体电饭锅能带上高铁吗?提示来了→​ACL 2023 | AD-KD:归因驱动的预训练语言模型知识蒸馏框架中秋国庆长假即将到来,存量首套房贷利率今起批量下调,2023上海马拉松报名即将截止……本周提示来了!从原理到代码理解语言模型训练和推理,通俗易懂,快速修炼LLMICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成【提示】亚运会开幕、旅游节花车巡游、景点门票限时半价……本周提示来了!紧接无尽夏故事的一位律师的思考650亿参数大模型预训练方案开源可商用!LLaMA训练加速38%,来自明星开源项目【加勒比蓝/热带雨林/古堡/溶洞/荧光海】2023 波多黎各Puerto Rico环岛之旅Gzip+ kNN文本分类竟然击败Transformers:无需预训练、14行代码实现2023 春季欧洲游 3. 法国的卢瓦尔河谷和诺曼底荐书|因果推断-基于图模型分析通过循环训练实现忠实的低资源数据文本生成电饭锅能带上高铁吗?官方提示来了!​ICLR 2023 高分论文 | 基于子图草图的图神经网络用于链路预测【提示】野餐垃圾该如何分类?简单易学的垃圾分类方法来了→
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。