Redian新闻
>
COLING 2022 | CPSUM:低资源场景下的半监督文本摘要抽取式模型

COLING 2022 | CPSUM:低资源场景下的半监督文本摘要抽取式模型

公众号新闻


©作者 | 毛乾任等

单位 | 北京航空航天大学

本文主要介绍我们在自然语言处理领域被 COLING 2022 接收的工作。我们提出了CPSUM,一种解决低资源场景的半监督文本摘要抽取式模型。该模型引入了数据加噪增强的一致性学习方法与熵约束伪标签学习方法,仅需要极小规模的有标签数据,结合大规模的无标签数据进行训练,较好利用了低熵分布的无标签数据来提高摘要模型决策边界的精准性,获得比有监督学习更强的泛化性能,并且极大地减少了自动摘要模型对标注数据的依赖。




论文标题:
Noise-injected Consistency Training and Entropy-constrained Pseudo Labeling for Semi-supervised Extractive Summarization

收录会议:

COLING 2022

代码链接:

https://github.com/OpenSUM/CPSUM




背景与挑战

当前比较主流的摘要任务数据集,例如 CNN/DailyMail、BBC XSUM 等,都需要大量的有标签训练数据,无论是生成式的人工摘要撰写,还是抽取式的句子分类标注,其数据的构建规模与标注成本巨大。半监督学习(SSL)旨在利用少量有标签数据和大量无标签数据进行模型训练。

过去的几十年间,SSL 在多个领域都引起了广泛的研究兴趣,包括协同学习(Co-Training)、自集成学习(Pi-model,Temporal Ensembling,Mean-Teacher)、一致性正则(Consistency Training)等方法陆续被提出。本文聚焦于少标注的低资源场景,仅依赖少量有标签数据并结合大量的无标签数据,对半监督抽取式摘要任务进行了一系列的探索。主要涉及两个方面:

1. 半监督学习解决监督学习模型的泛化能力不强和无监督学习模型的不精确等问题;

2. 数据增强加噪的一致性学习与熵约束的伪标签学习,提高模型决策边界的精确性。



方法
首先,CPSUM 在一致性学习框架下,引入少量有标签数据,并加噪大量无标签数据进行一致性正则训练,该过程为无标注数据增强加噪的一致性训练过程。其次,CPSUM 集成了一种熵约束的伪标签学习方法,该过程包含了一种信息熵约束的伪标签筛选方法。接下来简要介绍我们的模型细节。

2.1 数据增强加噪的一致性学习

2.1.1 数据增强加噪

数据增强的目的是给无标柱数据获取加噪数据,在数据增强阶段,我们沿用了 TinyBERT 中的数据增强做法。对于 Single-piece Word,我们将源文本进行遮盖,进行 BERT 预训练预测后,用预测结果来替换原有的词语,以此获得增强样本。对于 Multiple-pieces Word,我们直接采用 Glove 中预训练好的词向量进行替换。至此,准备好了有标签、无标签数据,以及每个无标签数据对应的增强数据。
2.1.2 一致性学习
一致性训练框架包括有监督训练与无监督一致性训练过程。模型的输入包括有监督的训练样本,以及若干组无监督的样本及其对应的增强数据。有监督损失为网络输出的分布与真实分布进行交叉熵:

无监督损失即一致性训练损失,是无监督样本及其增强样本对应的两个模型预测分布,并进行均方差损失计算,目的是让这两个分布尽可能相似:


在无监督损失前的平衡系数,便于调整有监督和无监督训练之间的重要程度,最终训练的总损失为:

2.2 熵约束的伪标签选择

2.2.1 自适应熵约束伪标签选择


无标签数据在被用于模型正则的一致性训练后,是否可以利用高置信度的预测结果作为标注进一步训练模型呢?答案是肯定的,事实上,在前向传播和损失计算完成之后,高置信度的预测结果可以作为伪标签数据被模型再次利用,这样做的好处是为模型带来更多的分布近似标签数据。然而现有的伪标签学习方法多为设置阈值进行伪标签筛选,存在一定的噪声,容易造成错误传播。
我们提出熵约束的自动伪标签筛选机制,用有监督输出结果的熵来约束无监督输出结果的熵,并选择低熵样本作为高置信度的伪标签数据。具体而言,在每一训练时刻,有监督部分的模型预测值与无监督部分的模型预测值,通过 Softmax 归一化后,输出结果的熵分别为:


当无监督样本输出分布的平均熵小于有监督样本时,即为维度归一化因子)时,可以视为该无监督结果的置信度是较高的,将其作为新的有监督数据保留下来。这里我们强调使用的是平均熵,即在原有熵的基础上除以了输出分布的维度大小,起到了归一化的作用,避免了维度差异带来的结果影响。
2.2.2 概率梯度上升的二次过滤
在模型训练初期,模型的训练结果的正确性较差,因为有监督输出分布的平均熵本身可能较高,因此会将更多的无监督噪声样本给筛选进去。为了防止这样的现象发生,我们还加入了一个概率梯度上升的伪标签二次过滤机制。
具体而言,我们设置一种 Ramp-up 的伪标签筛选方法,随着训练时刻线性上升的概率值,对于刚刚被筛选出来的伪标签,有概率被最终归为有监督样本,而有概率被丢弃掉。这样能够在一定程度上使得网络训练初期的伪标签被更少地选择出来,当模型训练趋于稳定,预测的准确性等到保障后,再由模型通过熵约束自动选择更多的伪标签进行有监督训练。





实验结果


主实验部分,我们采用了两个主流抽取式摘要数据集,分别是长文本摘要数据集 CNN/DailyMail 和短文本摘要数据集 BBC XSUM,并将有监督数据集规模分别设置为 10、100、1000。同时,我们还测试了软标签和硬标签两种类伪标签的性能影响。 
1. 所有的数据集规模下都实现了显著的性能提升,相比于纯有监督训练,当有监督数据量为 100 时,效果尤为显著,在 ROUGE-1, ROUGE-2 和 ROUGE-L 这三个指标上分别实现了 1.17、0.86 和 1.09 个点的性能提升。 
2. 硬标签比软标签的性能更为优异,因为硬标签相对于软标签而言,带有的噪声更加少。

对于 CPSUM 模型的不同组成部分,我们进行了消融实验分析。发现在一致性正则框架下,引入我们提出的自适应熵约束机制,以及高置信度伪标签进行二次筛选之后,模型的整体性能提升最为明显,说明了熵约束伪标签学习方法的有效性。

可视化展示,随着伪标签的加入有效的缓解了少标注下模型的过拟合现象(开始跳出局部最优解)。同时,相比于不经过任何筛选的伪标签学习过程,经过熵约束筛选后的伪标签能够更有效地提升整体模型的性能(红色曲线上升)。




总结
在本文中,我们实现了一种少标注的半监督学习的低资源抽取式摘要方法。有效地利用无标注数据的半监督学习方法提高模型在极少标注下的抽取式摘要性能。通过数据增加噪的噪声注入的一致性训练和平均熵来约束的伪标签学习,我们的模型获得了比有监督学习更强的泛化性能。未来工作也将持续关注低资源场景的自然语言理解与自然语言生成任务。


王一鸣

[email protected]

大数据科学与脑机智能高精尖创新中心

北京航空航天大学人工智能研究院


研究兴趣

低资源文本生成与机器翻译


毛乾任

[email protected]

大数据科学与脑机智能高精尖创新中心

北京航空航天大学计算机学院


研究兴趣

文本自动生成、网络内容安全


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍

现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
NeurIPS 2022 | 香港理工提出OGC:首个无监督3D点云物体实例分割算法WSDM 2023 | 针对长文档场景下的跨语言摘要信息抽取 | 周杰博士后论文荣获COLING'22 Outstanding PaperVideoMAE:简单高效的视频自监督预训练新范式|NeurIPS 2022​达摩院文档级关系抽取新数据集和五元组抽取新任务民族的年轻与年老SIGIR 2022 | 集理解、策略、生成一体的半监督预训练对话模型The Four Key Issues Facing China at the COP27 Climate SummitCOLING 2022 | CogBERT:脑认知指导的预训练语言模型这种办法,可以把一份要抽签的H-1B变成不需要抽签的,亲测可行!ECCV 2022 Oral | ​Language Matters:面向场景文字检测和端到端识别的弱监督的视觉-语言预训练方法CoRL 2022 | 清华&天津大学提出SurroundDepth:自监督环视深度估计网络3D版DALL-E来了!谷歌发布文本3D生成模型DreamFusion,给一个文本提示就能生成3D模型!NeurIPS 2022 | 如何提高生成摘要的忠实度?加斯佩半岛自驾游 (五)加斯佩CopyNet、SeqGAN、BERTSUM…你都掌握了吗?一文总结文本摘要必备经典模型(一)Rosalía 登意大利版《VOGUE》封面!COLING 2022 | 针对重叠和嵌套事件抽取的One-Stage框架Global Brands Pitch Sustainable Solutions to Chinese Consumers報紙的情結(上)我在台湾过鬼节美光削减DRAM和NAND产量,将进一步降低资本支出柯基因开刀剃毛变成“抽取式纸盒狗”,形象破灭一脸难过...ACL 2022 | 给注意力升升温,模型摘要的有效蒸馏IGCSE英语ESL:摘要写作(Summary writing)高分tips!NeurIPS 2022 | 基于精确差异学习的图自监督学习NeurIPS 2022 | 首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准复杂场景下的权限系统该怎么玩?ABAC权限模型帮你搞定它!柳叶刀摘要征稿 | The Lancet Summit:儿童肥胖影响整个生命历程NIPS'22 | 如何提高生成摘要的忠实度?NIPS'22 | USB: 统一、任务多样化、对学术界更友好的半监督学习算法库NeurIPS 2022 | Rebuttal起死回生!对攻击者的攻击:一种真实场景下的防御港科大褚晓文:医疗场景下的 AutoML ,模型参数量更小、分类准确率更高触摸美国 26 阿拉巴马新天地
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。