EACL 2023 | 多编码器的事件抽取混合检测生成框架

2023-05-12 04:05

©PaperWeekly 原创 · 作者 | werge

研究方向 | 自然语言处理

传统事件抽取任务一般分为的事件检测（ED, Event Detection）和事件论元抽取（EAE, Event Argument Extraction）两个子任务。前者用于识别事件触发词并对其对应的事件类型进行分类；后者则主要用于提取触发词对应的论元及其角色。事件抽取任务一般使用多个分类任务框架建模，或者采用统一的生成式方法。

这两种范式都同时学习事件检测和事件论元抽取的共享表示，然而这两个子任务具有不同的特征依赖，共享表示的使用会降低它们的性能。类似的问题也存在于实体关系抽取等任务中。因此，使用独立的编码器来分别建模不同的子任务会有助于提高任务性能 [1][2]。

为了解决事件抽取任务中不同子任务之间的特征干扰问题，本文提出了一个简单而实用的混合框架。该框架使用独立编码器来分别建模事件检测和事件论元抽取，并通过广泛的实验研究分类方法和生成方法之间的差异。

实验结果表明，在 token-classification 任务中，分类方法优于生成方法，而生成方法在建模事件论元抽取时更为有效，因此，本文在模型中使用了两个不同类型的解码器：一个分类式解码器用于事件检测，一个生成式解码器用于事件论元抽取。此外，本文还设计了一个桥接机制来增强这两个任务之间的交互，并使用双阶段训练方法来指导事件检测的学习。

本文在 ACE05-E、ACE05-E+ 和 ERE-EN 三个基准测试集上进行了评估，实验结果表明，本文提出的模型在 ACE05-E 和 ACE05-E+ 上建立了新的最佳结果，并在 ERE-EN 数据集上取得了可比较的效果。

论文标题：

A Hybrid Detection and Generation Framework with Separate Encoders for Event Extraction

论文链接：

https://aclanthology.org/2023.eacl-main.231.pdf

Method

本文提出的框架 HDGSE3（Hybrid Detection and Generation Framework with Separate Encoders for Event Extraction）如下图所示：

Event Trigger Detection：本文使用 BERT 作为触发词检测模型的基础模型，将其视为 token-classification 任务，使模型学习每种事件类型的不同概率。检测模型将检测出所有可能的触发词和相应的事件类型，并使用生成模型逐个提取每个事件的论元。

Generative Argument Extraction：在检测到候选事件触发词后，根据检测到的触发词和事件类型将论元抽取任务划分为几个子任务，每个子任务是一个事件。本文使用生成模型独立地处理每个事件，并在输入序列中插入标记以突出触发词。

具体而言，对于每个子任务，模型的输入包括事件类型感知提示和上下文信息，其中触发词被标记为特殊的标记（如上图中的 trg 标记）。生成模型使用 BART 模型作为基础模型，通过预先生成的 token 和文本输入，通过预定义的论元模板来对每个子任务进行处理，并抽取出最终的事件论元。

Bridging Event Detection and Event Argument Extraction：尽管本文提出的范式是独立地学习事件检测（ED）和事件论元抽取（EAE）的上下文表示，然而这并不意味着这两个任务之间没有关联。

为了增强这两个子任务之间的交互作用，本文通过触发词将两个任务进行桥接：第一，如上一部分所述，本文在 EAE 的输入中突出显示触发词，以提供位置信息；第二，将触发词的上下文信息融入 EAE 模型中。具体而言，对于触发词标记，它在 BERT 的最后一层隐藏状态是，在 BART 中的输入 embedding 是。

本文提出了两种可能的融入方式：一种是通过将进行投影并与相加作为触发词的最终表示，另一种则是直接将进行投影后作为触发词的嵌入表示。在实验部分，本文进行了这两种方式的对比试验。

Training and Inference：本文提出了一种两阶段训练的方法：在第一阶段中，本文首先单独训练事件检测（ED）和事件论元抽取（EAE），以便它们可以独立学习上下文表示；在第二阶段中，为了克服流水线误差传播问题，本文继续使用联合训练来优化基于第一阶段模型的全局损失，并使用事件论元抽取的梯度来指导事件检测的优化。

具体而言，ED模型的目标函数为最小化每个 token 的预测标签和真实标签之间的焦点损失 [3]，而 EAE 模型的目标函数则为最小化输入样本中所有子事件的负对数似然：

最终的损失函数即为以上两个子任务损失函数之和。

Experiments

本文在 ACE05-E、ACE05-E+ 和 ERE-EN三个基准测试集上测试，采用 trigger/argument-F1 作为评估指标。同时，本文认为如果触发词的偏移量与真实值相匹配（Trg-I），则触发词被正确地识别出来，如果它的事件类型也与真实值相匹配（Trg-C），则被正确地分类。同样地，如果论元的偏移量与真实值相匹配（Arg-I），则论元被正确地识别出来，如果其事件类型和角色标签都与真实值匹配（Arg-C），则被正确地分类。

本文选取了多个基于分类和生成式模型的 baseline 进行对比。本文在每个数据集上采用了 5 个不同的种子来训练模型，并计算了结果平均值。实验结果如下两表所示。第一张表为 ACE05-E 上的结果，第二张表为另外两个数据集的结果。

在 ACE05-E 数据集上，本文提出的模型 HDGSE3 在 ACE 2005 的两个数据集上表现出色，胜过所有 baseline。同时，在 ERE-EN 上也表现出与其他强基线可比的表现。在事件检测方面，本文的模型相较于 DEGREE-E2E 和 GTEE-DYNPRE 等联合训练但使用生成方法进行 ED 的方法，在 ACE05-E 和 ACE05-E+ 数据集上分别取得了 +5.8% 和 +2.9% 的绝对 Trg-C F1 提升，表明分类方法在事件检测方面具有更多优势。

另一方面，相较于分类方法，本文的模型也显示出显著的改进，例如与 ONEIE（Lin et al., 2020b）相比在 ACE05-E 上获得 4.3% 的提升。正如本文后来在实验中所展示的那样，其中一部分改进是由于桥接机制的作用。

本文还进一步研究了分类模型或生成模型对事件检测任务（ED）和事件论元抽取任务（EAE）的影响，以深入了解这两种方法在事件抽取任务中的优缺点。具体地，在事件检测任务中，本文比较了这两种模型的表现，结果如下表所示。

本文观察到，生成模型在这个任务中的表现明显比分类模型差。其中一个可能的原因是生成模型更注重句子的全局特征，在 ED 任务中的优势较少，而 ED 任务需要触发标记和它们的局部上下文。此外，分类模型可以直接提供触发标记的位置信息，这对于 EAE 更有帮助。因此，分类模型比生成模型更适用于 ED 任务。同样地，本文对触发词检测任务进行了消融实验，以研究不同范式对事件论元抽取的影响。

实验表明，在标准设置（带有触发标记）下，生成方法的性能与基于分类的模型相当。而一些基于模板的生成方法则表现得更好，这可能是因为这类方法在提示设计中融入了更多的事件知识。

本文同样还对桥接机制进行了分析，以了解它们如何影响本文提出的范式。本文分别在 Joint 和 Pipeline 的设置下删除了两个独立编码器之间的连接模块，并在下表中展示了实验结果。

结果表明，删除触发词标记对模型的影响非常大，虽然上下文表示也可以提高模型的性能，但是改进的空间不如触发词标记大。当本文同时删除它们时，如表 5 所示，Trg-C 的 F1 分数仍然保持在一个非常高的水平，但 Arg-C 的 F1 得分显著降低。

这些现象表明，事件检测代表着事件论元抽取的上界，桥接机制可以帮助事件论元抽取接近这个上界，甚至反过来提高事件检测的结果。这就是桥接机制的主要贡献所在。此外，从另一个角度来看，当只比较训练范式时，可以发现在联合训练中的损失共享可以显著提高模型的整体性能，因此联合结果通常优于 pipeline 结果，这证明了本文的两阶段训练方案的有效性。

Conclusion

本文重新审视了基于分类和生成的事件抽取方法，并提出了一个简单但稳健的混合事件抽取方案。本文的模型学习了两个独立的编码器，分别用于事件检测和事件论元抽取，并使用简单的触发词标记和上下文表示融合来进行联合桥接训练，为此本文设计了一个两阶段的训练方法。

本文进行了广泛的分析，以了解本文方法的卓越性能。这些分析验证了使用分类模型和生成模型分别学习事件检测和事件论元抽取的上下文表示的有效性，并验证了将事件检测的结果作为事件论元抽取的输入的重要性。本文希望这个简单的模型能够作为端到端事件抽取的强大基准，并让本文重新思考多任务共享表示的价值。

参考文献

[1] Thien Huu Nguyen and Ralph Grishman. 2015. Event detection and domain adaptation with convolutional neural networks. In

Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 2: Short Papers), pages 365–371, Beijing, China. Association for Computational Linguistics.

[2] Yaojie Lu, Hongyu Lin, Xianpei Han, and Le Sun. 2019. Distilling discrimination and generalization knowledge for event detection via delta-representation learning. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 4366–4376, Florence, Italy. Association for Computational Linguistics.

[3] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollár. 2017. Focal loss for dense object detection. In Proceedings of the IEEE international conference on computer vision, pages 2980–2988

更多阅读