Redian新闻
>
COLING 2022 | 针对重叠和嵌套事件抽取的One-Stage框架

COLING 2022 | 针对重叠和嵌套事件抽取的One-Stage框架

公众号新闻


©作者 | 曹虎、李京烨等

来源 | 社媒派SMP


本研究设计了一种简单有效的标签系统将重叠和嵌套事件抽取转换成了词对关系分类的任务,触发词、论元以及其间的关系可以并行地同时被预测出来,达到非常快的抽取速度,在 3 个重叠或嵌套的事件抽取数据集上的实验结果达到了 SOTA。



论文标题:
OneEE: A One-Stage Framework for Fast Overlapping and Nested Event Extraction

收录会议:

COLING 2022

论文链接:

https://arxiv.org/pdf/2209.02693.pdf

代码链接:

https://github.com/Cao-Hu/OneEE





动机介绍

1.1 重叠和嵌套事件抽取

事件抽取(Event Extraction,EE)是自然语言处理领域的一项非常基本的任务,在社区长久以来一直得到广泛的研究。EE 的目标是从文本中抽取事件触发词和相关的论元。传统的事件抽取关注于普通的事件,认为触发词和论元之间没有重叠,忽视了复杂的事件模式,即重叠事件和嵌套事件: 

  • Flat Event:触发词和论元之间没有重叠; 

  • Overlapped Event:多个事件的共享重叠的触发词或论元; 

  • Nested Event:一个事件的论元是另外一个事件。

▲ 图1:普通事件(a),重叠事件(b),嵌套事件(c)

以图 1 为例,(b) 中 Investment 事件和 Share Transfer 事件共享了”acquired”这一重叠触发词,以及”Citic Securities”,”Guangzhou Securities”是重叠的论元。(c) 中 Gene Expression 事件是 Positive Regulation 的 Theme 论元。

1.2 重叠和嵌套事件抽取方法

截止当前,重叠和嵌套事件抽取领域的主流方法大致有三类:

  • 基于 Pipleline 的方法;

  • 基于多轮 QA 的方法;

  • 基于级联网络的方法。

这些方法都是 Multi-stage 的,用多个连续的阶段分别抽取事件触发词和论元。其中,基于级联网络的方法 CasEE 是之前的 SOTA,CasEE 依次预测事件类型、抽取触发词、抽取论元。这些 Multi-stage 的方法后面阶段的预测依赖于前面的预测结果,难以避免地带来了误差传播的问题。

本研究关注于构建一种高效的 EE 框架,能够在一个阶段同时解决重叠和嵌套的事件抽取。


1.3 本文的方法


传统的事件抽取使用序列标注的方法无法解决重叠和嵌套的问题,现有的工作使用指针网络分别识别触发词或论元的头尾 token;我们在针对重叠和嵌套事件的共性进行深入挖掘后,发现可以通过 token-pair 之间的关系分类进行统一建模。触发词和论元可以通过 token-head 和 token-tail 之间联系,而论元的角色可以通过触发词和论元之间的关系建模,例如图 1(b)中触发词”acquired”和论元”Guangzhou Securities”表达了 object 关系。 
根据上述观察,本文将 Overlapped and Nested EE 任务转化成一种词对的关系分类任务,通过这种标签体系能够在一个阶段内抽取出事件类型、触发词、论元以及论元的角色,在此基础提出了一种新的 EE 框架(A One-Stage Framework for Fast Overlapping and Nested Event Extraction),名为 OneEE。具体地,该框架的目标是将 EE 转变为识别出触发词和论元中所蕴含的两种类型的关系,即:1)Span 关系(S-T, S-A);2)Role 关系(R-*)。
具体的词对关系分类示例如图 2 所示。其中 S-T 表示两个词是某个触发词的头部和尾部,S-A 表示两个词是某个论元的头部和尾部(如”Citic”->”Securities”,Argument),R-*表示该词作为触发词的事件中,另一个词扮演了角色类型为*的论元(如“acquired”->“Citic Securities”,Subject)。
▲ 图2:关系分类示例


模型框架
图 3 给出了 OneEE 整体的框架结构。其整体可分为三层:输入编码层,自适应事件融合曾以及最后的联合解码层。其中解码层是本论文的核心。

 图3:模型整体结构

2.1 编码层

给定一个输入句子,将每一个词转换成多个 word piece,并将他们输入预训练的 BERT 模块中。进过 BERT 计算后,使用最大池化操作将这些 word piece 表示重新聚合成词表示。
2.2 自适应事件融合层

由于该框架的目标是预测目标事件类型的词对之间的关系,因此生成高质量的事件感知的表示十分重要。因此,为了融合编码器提供的事件信息和上下文信息,本论文设计了一个自适应事件融合层。其中注意力模块用于建模不同事件类型之间的交互并获得全局事件信息,两个门融合模块用于将全局事件信息和目标事件类型信息与上下文化的词表示融合。

2.3 解码层


在自适应事件融合层之后,获得了事件感知的词表示,用于预测词对之间的 Span 关系和 Role 关系,对于每个词对 (w_i , w_j ),计算一个分数来衡量它们对于关系 s ∈ S 和 r ∈ R 的可能性。为了使预测层对于词与词之间的相对距离敏感,论文还引入了旋转式的相对位置编码,设计了距离感知的打分函数。损失函数部分本文使用了 Circle Loss 的变体,将交叉熵损失扩展到多标签分类问题,并缓解了类别不均衡的问题。 
在解码阶段,该模型通过将事件类型 Embedding 并行地插入自适应事件融合层来抽取所有事件。如图 4 所示,一旦该模型在一个阶段预测了某种事件类型的所有标签,整个解码过程可以概括为四个步骤:首先,获得触发词或论元的开始和结束索引;其次,获得触发词和论元的 span;第三,根据 R-* 关系匹配触发词和论元;最后,将事件类型分配给该事件结构。

 图4:解码示例




实验结果


本文在 3 个重叠和嵌套的事件抽取数据集上(包括英文和中文)进行了实验,分别是: 
1. FewFC,一个中文金融事件抽取数据集,标注了 10 种事件类型和 18 种论元,有约 22% 的句子包含重叠事件; 
2. Genia 11 和 Genia 13,两个英文医学领域数据集,有约 18% 的句子包含嵌套事件,Genia11 标注了 9 种事件类型和 10 种论元,而 Genia13 的数字是 13 和 7。 
表 1-2 分别展示了上述任务和数据集上与基线模型对比的结果。实验结果表明,本文提出的基于词对关系分类的 One-Stage 方法,可以同时解决重叠和嵌套的事件抽取,并在 3 个数据集上的效果都优于之前的工作,并且推理速度也是最快的。

 表1:FewFC, 重叠事件抽取

 表2:Genia 11和Genia 13, 嵌套事件抽取

 图5:重叠事件与嵌套事件抽取效果对比

 图6:触发词和论元不同距离论元角色抽取效果对比
通过进一步的消融实验,我们探索了不同参数和部件对整体框架的影响。此外我们模型在相对较小的参数情况下,其训练和推理速度超过了多个非连续实体识别模型。


 表6:消融实验


 表7:模型参数与效率对比




总结
在本文中,我们提出了一种基于词-词关系识别的新型单阶段框架,以同时解决重叠和嵌套的事件抽取。词对之间的关系被预定义为触发词或论元内的词-词关系以及跨越触发词-论元对。此外,我们提出了一个有效的模型,该模型由一个用于融合目标事件表示的自适应事件融合层和一个用于联合识别各种关系的距离感知的预测层组成。实验结果表明,我们提出的模型在三个数据集上实现了新的 SoTA 结果,并且比 SoTA 模型更快。

更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍

现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Angew. Chem. :降低AIEgen-配体对称性策略优化金属有机框架的单双光子激发荧光CIKM 2022最佳论文提名:证据感知的文档级关系抽取方法麦肯锡+BCG内部专用的10种Case框架, 整理版!Rosalía 登意大利版《VOGUE》封面!泰晤士全英中学第一!英国Concord College校长亲自教你做申请!苏大李正华老师受邀对COLING2022 Best Paper做英文报告无忧买房|​Brookline全新装修两室两卫公寓出售,87.5万美元,优质学区,近Coolidge Corner生活圈​达摩院文档级关系抽取新数据集和五元组抽取新任务Playstion 4 Slim 500gb with one controller (system 7.02)COLING 2022 | CPSUM:低资源场景下的半监督文本摘要抽取式模型China Strengthens Cyber Violence Policing After Teacher’s Death秋风吹开重叠的往事,我的心底一片金黄COLING 2022 | CogBERT:脑认知指导的预训练语言模型漱口水的功效与副作用精选SDE岗位 | Affirm Holdings、Geneva Trading、Autodesk发布最新岗位!无忧买房|Brookline四室公寓出售,近Coolidge Corner生活圈,近地铁绿线、BU和长木医学区陌上花开909 readPassage(&stranger); life.partner = strangerCoolidge Corner 吃喝玩乐时尚美容合集,第一弹!2022 Luxury Listings · Hurun Outstanding American Real Estate面对重庆山火,这位美国友人为何比很多国内网友还紧张?今日聚焦:面对重挫,洋品牌终于认错了?但我们绝不原谅!享受生活Why Chinese Cinema Is Still Waiting on the Next GenerationYoung Chinese Are Overdosing on Cough Meds to Combat Stress信息抽取 | 周杰博士后论文荣获COLING'22 Outstanding Paper想吃现成的?有个高招What Do Counseling and Cosmetology Have in Common?2022年三季报,能否成为Generac Holdings走出低谷的“催化剂”?[腕表] JAEGER-LECOULTRE Master ControlIn 2022, Students Are Struggling to Cope. So Are Their Teachers.Citing COVID, China Discourages Domestic Holiday Travel, Again那些被骗的人亮妈蔬法文城绝活,创意新颖诗情画意巴厘岛峰会上,习近平主席提出应对重大发展挑战的三个关键词​​复旦大学邱锡鹏组:CNN-NER——极其简单有效的嵌套命名实体识别方法
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。