NeurIPS 2022 | 如何提高生成摘要的忠实度？

公众号新闻

2022-10-27 10:10

©作者 | 赵金旭

单位 | 北京邮电大学NLP摘要组

研究方向 | 自然语言处理

论文标题：

Towards Improving Faithfulness in Abstractive Summarization

文章来源：

NeurIPS 2022

文章链接：

https://arxiv.org/abs/2210.01877

Abstract & Intro

尽管基于预训练的语言模型的摘要取得了成功，但一个尚未解决的问题是生成的摘要并不总是忠实于输入文档。造成不忠实问题的原因可能有两个：

（1）摘要模型未能理解或捕获输入文本的要点；

（2）模型过度依赖语言模型，生成流畅但不充分的单词。

在本文研究中，提出了一个忠实增强摘要模型（FES），旨在解决这两个问题，提高抽象摘要的忠实度。对于第一个问题，本文使用问答（QA）来检查编码器是否完全掌握输入文档，并能够回答关于输入中的关键信息的问题。QA 对适当输入词的注意也可以用来规定解码器应该如何处理输入。

对于第二个问题，本文引入了一个定义在语言和总结模型之间的差异上的最大边际损失，目的是防止语言模型的过度自信。在两个基准总结数据集（CNN/DM 和 XSum）上的大量实验表明，本文的模型明显优于强基准。事实一致性的评估也表明，本文的模型生成的摘要比基线更可靠。

本文的主要贡献如下：

1. 提出了一种信度增强摘要模型，从编码器端和解码器端都缓解了不信度问题。

2. 提出了一个多任务框架，通过自动 QA 任务来提高摘要性能。还提出了一个最大边际损失来控制 LM 的过度自信问题。

3. 实验结果表明，与基准数据集上的最新基线相比，本文提出的方法带来了实质性的改进，并可以提高生成摘要的忠实度。

Model Architecture

本文从三个方面实现了信度的提高：

（1）多任务编码器。它通过检查辅助 QA 任务的编码文档表示的质量，提高了对输入文档的语义理解。编码的表示因此捕获关键输入，以便做出忠实的总结。

（2）QA 注意增强解码器。来自多任务编码器的注意使解码器与编码器对齐，以便解码器能够获取更准确的输入信息以生成摘要。

（3）Max-margin 损失。这是一个与代损耗正交的损耗。它测量 LM 的准确性，防止它在生成过程中过度自信。

2.1 Multi-task Encoder

多任务编码器设计用于对输入文档进行编码，以便在集成训练过程中进行摘要和问题回答，如图 1（b）所示。这与之前的工作不同，之前的工作是在后期阶段使用 QA 来评估生成摘要的忠实度，如图 1（a）所示。本文让 QA 更接近编码器，而不是把它留给后生成的总结，并让编码器接受训练，同时完成 QA 和总结任务。在多任务编码器的综合训练中，除了摘要生成质量外，还将忠实度作为优化目标，答案是来自文档的关键实体，因此 QA 对关注输入中的关键信息。

如图 2 所示，我们首先应用经典的 Transformer 架构，获得文档和问题的 token 表示，和，然后设计编码器，从实体层和句子层理解问题和输入文档问题。

Encoding at Multi-level Granularity

本文通过在不同粒度级别组织表示学习来构建编码器。我们使用实体作为基本语义单位，因为它们包含贯穿全文的紧凑而突出的信息，而阅读理解题的重点是实体。由于问题通常很短，本文为每个问题创建一个节点。本文将双向边从问题添加到句子节点，从句子添加到实体节点。这些节点作为句与句之间的中介，丰富了句与句之间的关系。由于初始的有向边不足以学习反向信息，本文在前面的工作的基础上，在图中添加了反向边和自环边。

在构造了具有节点特征的图之后，使用图注意网络来更新语义节点的表示，图注意层（GAT）设计如下：

其中是输入节点的隐藏状态，其中 N 是节点 i 的相邻节点集，是可训练权值，是和之间的注意权值。输出实体特征矩阵、句子特征矩阵和问题矩阵：。

Answer Selector for the QA task

在融合来自问题和文档的信息之后，可以从文档中选择实体作为问题的答案。具体来说，本文在问题和图中的实体之间应用了多头交叉注意以获得识别问题的实体表示：=MHAtt()，i 是问题索引。本文采用前馈网络（FFN）生成实体提取概率，QA 的目标是最大限度地提高所有基本事实实体标签的可能性：

2.2 QA Attention-enhanced Decoder

一个忠实的解码器需要注意并从编码器中获取重要的内容，而不是混合输入。QA 对关键实体的关注可以被视为重要信号，表明哪些实体应该包含在摘要中。因此，本文提出了一个由 QA 关注增强的摘要生成器。一般来说，以实体为中介的解码器状态关注编码器状态，其中实体级别的注意由 QA 注意指导。

具体来说，对于每一层，在第 t 步解码时，我们对 masked 摘要嵌入矩阵E进行自注意，得到。基于，我们计算实体的交叉注意分数。

实际上，第一个注意层捕获已解码序列的上下文特征，而第二层则包含中的实体信息.我们最小化在第 t 步的实体上的 QA 注意 Ai 和摘要注意 Et 之间的 KL 散度，以帮助总结模型了解哪些实体是重要的：

然后，通过在源词序列 Hw 和上应用另一个 MHAtt 层，我们使用实体级注意来指导与关键实体相关的源标记的选择：

该上下文向量 vt 被视为从各种来源总结的显著内容，被发送到前馈网络以生成目标词汇表的分布，即

通过优化预测目标词的负对数似然目标函数，更新所有可学习参数

2.3 Max-margin Loss

信息不充分的解码器会忽略一些源段，更像是一个开放的 LM，因此容易产生外部错误。受信度增强机器翻译工作的启发，本文在摘要任务中引入了一个 max-margin loss，以使摘要模型的每个 token 与 LM 的预测概率的差值最大化，如图 3 所示，这抑制了摘要器产生常见但不忠实的单词的趋势。

▲ 当 LM 不够准确时，本文的模型可以通过最大边际损失防止 LM 的过度自信，预测出正确的目标词，而基线模型则不能。

具体来说，我们首先将摘要模型和 LM 之间的差值定义为预测概率的差值：

其中 X 为输入文档，表示 LM 的第 t 个令牌的预测概率。如果 mt 很大，那么总结模型显然比 LM 好。当 mt 很小的时候，有两种可能。一是 LM 模型和总结模型都有很好的性能，因此预测的概率应该是相似的。另一种可能是 LM 不够好，但过于自信，这会导致总结器性能不佳。LM 够好，但过于自信，这会导致总结器性能不佳。

本文给出了最大边际损失 Lm，它在边际上增加了一个系数

当 Pt 较大时，摘要模型可以很好地学习，不需要过多关注 mt。这体现在 mt 的小系数（1−Pt）上。另一方面，当 Pt 较小时，意味着摘要器需要更好地优化，大系数（1−Pt）使模型能够从边际信息中学习。

、、、这四种损耗是正交的，可以组合使用来提高信度。

Experiment

3.1 Dataset

本文在两个公共数据集（CNN/DM 和 XSum）上演示了方法的有效性，这两个公共数据集在以前的摘要工作中被广泛使用。这两个数据集都基于新闻，由大量事件、实体和关系组成，可用于测试摘要模型的事实一致性。

本文的摘要模型伴随着一个 QA 任务。因此，使用由 QuestEval 工具为每个用例预先构建 QA 对。

3.2 Result

Automatic Evaluation

▲ QE 加权 F1 分数

当使用 oracle QA（黄金问答）对评估 QA 任务带来的效益的上限时，我们还展示了我们的模型在测试数据集上的性能。我们可以看到，oracle 显著地提高了性能，性能最好的模型达到了50.50 的 ROUGE-1 评分。结果表明：1）如果有较好的 QA 对，模型性能有进一步提高的潜力；2）辅助 QA 任务确实对模型有帮助。

Human Evaluation