系好安全带，这个RE模型非常快！

科技

2022-05-18 05:05

©PaperWeekly 原创 · 作者 | 宁金忠

单位 | 大连理工大学

研究方向 | 信息抽取

论文标题：

FastRE: Towards Fast Relation Extraction with Convolutional Encoder and Improved Cascade Binary Tagging Framework

论文来源：

IJCAI 2022

论文链接：

https://arxiv.org/pdf/2205.02490.pdf

论文代码地址：

https://github.com/seukgcode/FastRE

Motivation

本文的研究任务为实体-关系三元组抽取任务。例如在金融领域中，从业者需要从海量的实时文本中快速构建知识图谱用来辅助金融决策。该领域对模型的效率有较高要求。但是目前已有的方法没有在模型的表现和性能之间取得较好的权衡。

最近几年的实体-关系三元组抽取领域的一些工作专注于性能的提升而忽略了模型的效率。目前性能较好的方法依赖于 BERT 等预训练语言模型带来的强大表达能力。然而，预训练模型的巨大参数量成为了影响该任务模型性能的主要因素，这严重影响了模型的训练速度和推理速度。

Contribution

作者摒弃了预训练语言模型中堆叠出现的 Transformer 结构，设计了一套全卷积的结构来提升模型的效率。与此同时，作者采用了膨胀卷积（dilated convolution）来提高模型的长距离依赖建模能力。另外，为了避免模型在层数变深时的梯度消失，作者在模型中添加了参加连接。

为了避免 cascade binary tagging framework 中的关系抽取冗余问题，作者在模型中利用了头实体的类别信息，采用预先定义的头实体的类型和其可能对应的关系构成了许多头实体-关系映射对（作者文中称为 type-relation 映射机制）。

为了提高 cascade binary tagging framework 的泛化性能，作者提出了一种位置独立的自适应阈值策略（position-dependent adaptive thresholding strategy）。

Method

3.1 Convolutional Encoder

对于输入文本，作者使用静态词向量和可学习的位置向量相加得到文本的词汇表示，然后将其输入到堆叠的 Convolutional Encoder 中做 encode。相比 BERT 中的堆叠 Transformer 结构，堆叠的 Convolutional Encoder 可以显著提升运算效率。Convolutional Encoder 由多个相同的结构堆叠而成：

每个 Convolutional Encoder 见模型结构图中左侧。其中包含两个膨胀卷积，门控机制以及残差连接结构：

3.2 Improved Cascade Binary Tagger

FastRE 首先标注所有的头实体（span 以及实体类型）。然后标注其对应的关系和尾实体。对于 Convolutional Encoder 编码的输出，作者使用多头自注意力机制和残差连接的方式得到用于头实体和尾实体标注的表示：

3.3 loss函数

以头实体的 start tagging 为例，其表示形式如下：

损失函数的前半部分的使得每个正例的位置的得分相比动态阈值的得分等尽可能的大。损失函数的后半部分使得每个位置的动态阈值得分尽可能比负例的得分要大。

对于头实体的 end tagging 损失函数和公式（11）中的形式类似，两者相加表示头实体的 start 和 end 总体损失函数：

对于模型整体的损失函数，模型只考虑了所有检测出来的头实体，以及根据关系映射筛选出来的关系和尾实体，减少了较多的关系冗余：

Experiments

由于本文的方法依赖于实体类型的识别，三元组抽取中常用的 webnlg 数据集中没有实体类型，因此作者选用了 NYT10，NYT11，NYT24。

本文的主试验结果如上图所示，可以发现 FastRE 和对比方法相比，训练速度和推理速度均取得了最佳表现。同时性能方面也具有非常大的竞争力。

由上图可以看出，FastRE 仅仅用了 1/100 的参数量，就实现了和 SOTA 模型相比拟的抽取性能和最佳的效率。

总结与展望

以往的关系三元组抽取模型重点关注三元组抽取性能而忽略了模型的效率。本文的作者另辟蹊径，专注于模型效率的提升。在保证模型三元组抽取性能尚可的情况下，作者采用近乎全卷积的结构，大大提升了模型的效率。这对于模型的落地应用具有重要意义。笔者在实测过程中，将 batch size 设置为 32 时，模型仅占用 1G 左右的显存，且 30epoch 以内，模型即可收敛。

FastRE 需要依赖于实体类别和关系的映射组成的 schemas 来解决关系冗余问题。当实体类别信息未提供时（例如 webNLG 数据集中的情况），如何提高关系三元组抽取的效率成为另外一个需要解决的问题。

更多阅读