©PaperWeekly 原创 · 作者 | Zhihao Wen
摘要
本文由来自新加坡管理大学的作者提出了一种基于图的预训练和提示来增强低资源文本分类的方法 G2P2。
论文标题:
Augmenting Low-Resource Text Classification with Graph-Grounded Pre-training and Prompting
https://dl.acm.org/doi/pdf/10.1145/3539618.3591641
文本分类是信息检索中的一个基本问题,在现实世界中有许多应用,例如预测在线文章的主题和电子商务产品描述的类别。然而,低资源文本分类由于标注样本较少或没有标注样本,给监督学习带来了严重的问题。同时,许多文本数据本身就基于网络结构,如在线文章的超链接/引用网络和电子商务产品的用户-物品购买网络。这些图结构捕捉了丰富的语义关系,有可能增强低资源文本分类。在本文中,我们提出了一种名为 “基于图的预训练和提示”(Graph-Grounded Pre-training and Prompting,G2P2)的新型模型,以双管齐下的方式解决低资源文本分类问题。在预训练过程中,我们提出了三种基于图交互的对比策略,以联合预训练图-文本模型;在下游分类过程中,我们探索了对联合预训练模型的提示,以实现低资源分类。在四个真实世界数据集上的广泛实验证明了 G2P2 在零资源和少量资源文本分类任务中的优势。
文本分类是一个基础研究问题,在信息检索中有许多重要应用。例如,预测在线文章的主题可以帮助读者轻松地在网站或门户网站内进行搜索和导航;对电子商务商品描述的类别进行分类可以帮助企业有效地组织库存,改善用户的搜索体验。近十年来,有监督深度学习在文本分类方面取得了显著的进步,尤其是在有大规模和高质量标签数据的情况下。然而,数据标注通常成本高、耗时长,因此,在没有或仅有少量标注样本的情况下,低资源分类成为一种有吸引力的替代方法。
要解决低资源文本分类问题,一种方法是利用预先训练好的语言模型(PLM)。通过微调模型参数以达到特定任务的目标,PLM 可以适应不同的任务。与传统的监督学习相比,“预训练、微调”模式所需的标注数据更少,但它有两个缺点。首先,最先进的 PLM 通常具有巨大的模型规模,例如,GPT-3 有 1750 亿个参数,这使得微调的成本过高。其次,由于预训练和微调目标之间的差距,微调仍然需要合理数量的标注数据,因此在低资源场景(包括零和少量分类)下很难实现。为了克服预训练和微调的问题,有人提出了提示法。它使用自然语言指令或 "提示 "来提示下游任务,同时冻结大型 PLM 的参数。与此同时,文本数据经常以网络结构为基础,这些网络结构揭示了文章或项目之间的重要关系,可用于增强低资源文本分类。现有的 PLM 和提示并不能利用这些关系,而图神经网络(GNN)是基于消息传递架构设计的,可以从图结构中学习。然而,传统的端到端 GNN 训练严重依赖于丰富的特定任务标签。这就激发了 GNN 在无标签图上采用精心设计的前置任务来进行自监督学习来抽取知识,以使得减少对标签的依赖。遗憾的是,GNN 对文本特征的处理仍然很初级。通常情况下,简单的词袋表示或浅层词嵌入向量的聚合被输入到 GNN 中作为初始节点特征,然后再沿着图结构进一步传播。因此,GNN 对文本的建模是粗粒度的,无法完全捕捉文本中细微的语义差异和相似性。
为了克服现有基于文本和图的解决方案的局限性,我们必须解决以下两个开放性问题。
首先,我们如何捕捉细粒度的文本语义,同时联合利用图结构信息?一种简单的方法是使用语言模型从原始文本作为输入生成特征,然后训练 GNN。然而,这样一来,文本和图只是松散地耦合在一起,缺乏明确的配对来相互补充。在本文中,我们提出了以图为基础的对比预训练,根据文本-节点、文本-摘要和节点-摘要三种图的交互,最大限度地提高文本和图表征之间的一致性。其次,在联合预训练图-文模型的情况下,我们如何增强低资源文本分类?我们提出了一种新方法,即 “提示” 联合预训练的图-文模型,而不是对其进行微调。这样,我们就能利用预训练模型中最相关的结构和语义信息,使该过程更适合低资源场景。更具体地说,我们将手工制作的离散提示用于零样本分类,将连续提示用于基于自动提示调整的少样本设置。由于涉及的参数少得多,提示调整比对预训练模型进行微调更节省标签和计算。此外,我们还提出了一种基于上下文的提示调整初始化方法,该方法考虑了文本之间的图结构,从而提供了一个信息量更大的训练起点。
如图 1 所示,我们的模型包括两个阶段:(a)基于图的恒定预训练;(b)用于低资源分类的基于图的及时调整。在预训练期间,我们通过以自我监督的方式联合训练文本编码器和图编码器来学习双模态嵌入空间,因为文档也是图上的一个节点。更具体地说,我们使用基于转换器的文本编码器和基于 GNN 的图编码器。转换器将每个节点(即文档)上的文本作为输入,为节点 输出文本嵌入向量 。另一方面,GNN 将图和节点特征作为输入,为节点 生成节点嵌入向量 。随后,在双模态嵌入空间中,我们根据图上不同类型的交互,通过三种对比策略来调整相同或相关节点上的文本和图表示。在下游测试中,我们对联合预训练的图-文模型进行提示,以进行零样本或少样本分类。对于零样本分类,我们使用手工制作的离散提示和标签文本。对于少样本分类,我们使用连续提示来填充标签文本。特别的是,为了进行提示调整,我们根据图结构的上下文来初始化连续提示嵌入。
▲ 图1:G2P2 的整体框架。(a)在预训练期间,它通过三种对比策略联合训练文本和图形编码器。(b)在测试期间,它执行提示辅助的零样本或少样本分类(图中只显示了少样本分类的提示调整,而零样本推理采用的是简化方案)。
3.2 基于图结构的对比预训练
通过图上的三种交互方式, 基于图结构的预训练通过联合训练文本编码器和图编码器来学习双模态嵌入空间。文本编码器是一个 Transformer,我们将其命名为 ,给定文档 ,文本编码器输出 的 维嵌入向量,表示为同时,文档 也是图中的节点 。我们选择一种名为图卷积网络(GCN)的经典 GNN 作为图编码器,用 表示。同样,它也会输出给定节点 的嵌入向量 。基于图的文本自然意味着节点和文本之间的双射关系,其中每个文档 对应图中的节点 。受图像和标题文本配对以及内容和节点序列映射的启发,我们设计了一种预训练策略来预测哪个文本文档与图中的哪个节点相匹配。具体来说,给定 个文档和相应的 个节点,有 个可能的文档-节点配对。其中,只有 的 对是真匹配,而其余的 对是假匹配。作为我们的第一个对比策略,我们利用图上文本和节点之间的双向互动,最大化 匹配对的余弦相似度,同时最小化 不匹配对的余弦相似度。为了计算 对的余弦相似度,我们首先对嵌入矩阵 和 进行行向 L2 归一化,分别得到 和 。然后,我们计算节点-文本相似性矩阵 ,以捕捉成对的余弦相似性,如下所示。其中,𝜏 是一个可训练的温度参数,用于缩放相似度值。为了计算基于文本-节点双向交互的对比度损失,我们采用了 multi-class N-pair loss,同时考虑了行和列的交叉熵损失。例如, 的第 行表示节点 与每个文档之间的相似性得分,其中行索引 表示与 真实匹配的文档 。其中, 是对比训练的标签向量,CE 表示以行为单位应用于输入矩阵 或 的交叉熵损失。除了文本-节点的双射交互,我们还进一步利用了图上的高阶交互。特别是,每个文档都有一组由图拓扑定义的相邻文档。鉴于目标文档之间的语义关联性,相邻文档可以理解为目标文档的摘要。例如,在电子商务网络中,用户购买的产品自然就是该用户的摘要,反之亦然。在不失一般性的前提下,我们采用简单的均值池法生成如下的摘要嵌入 。因此,作为我们的第二种对比策略,我们根据图邻域中文本与摘要之间的交互关系,将每篇文档的文本嵌入与其对应的摘要文本嵌入对齐。
基于邻域的文档摘要 也是对节点 的语义描述。与文本和摘要的交互一样,作为我们的第三种对比策略,我们试图使节点嵌入和基于邻域的摘要文本嵌入保持一致。
最后,我们整合了基于文本-节点、文本-摘要和节点-摘要交互的三种对比损失。我们会得到一个预训练模型 ,该模型由双重编码器的参数组成,通过如下公式获得3.3 提示图-文联合模式
对于 -way zero-shot 分类,我们预测标签文本嵌入与节点嵌入相似度最高的类别,如图 2 所示,具体来说,分类权重可由文本编码器根据类别标签文本生成。具体来说, 类的权重向量 是预训练文本编码器的输出,如下公式所示。这里的 “prompt [CLASS]” 是提示模板,其中 “[CLASS]” 指的是目标类别 y 的标签文本(例如,论文领域分类中的 “NLP”),“prompt” 是自然语言 token 序列。然后,给定节点表示 的类别分布预测为离散提示的问题在于,由于 PLM 本身是连续的,因此很难对其进行优化。因此,我们采用了提示调整技术。它用可学习的连续提示语取代了离散的自然语言提示语,同时仍保持主干 PLM 的参数不变。也就是说,我们不再使用离散标记序列,而是使用连续嵌入序列作为提示。连续提示作为输入送到文本编码器,为每个类别 生成分类权重:
为了充分利用图结构的优势,我们提出了以图为基础的提示调整方法,用图上下文来初始化提示嵌入。节点 及其邻居 统称为 的图上下文。
▲ 表1:95% 置信区间下的 Five-shot 性能(百分比)。在每一列中,所有方法中的最佳结果用粗体表示,基线中的最佳结果用下划线表示。G2P2 的改进是相对于最佳基线计算的。 表示根据双尾 检验 ,我们的模型明显优于最佳基线。
▲ 表2:零样本分类准确率(百分比)。相关样式说明见表 1。可以看出,我们的模型 G2P2 和 G2P2+d 的表现明显优于基线模型,这证明了我们的基于图的对比预训练在零样本设置下的有效性。
结语
主要贡献:1)解决了低资源文本分类的问题;2)提出了 G2P2,包括预训练中的三种基于图交互的对比策略,以及下游分类中联合预训练的图-文模型的提示机制。
局限性:1)需要图结构;2)无法在零样本设置下进行 prompt tuning。
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧