Redian新闻
>
AAAI2023 | 基于统一语义匹配的通用信息抽取框架-USM

AAAI2023 | 基于统一语义匹配的通用信息抽取框架-USM

公众号新闻

每天给你送来NLP技术干货!



来自:NLP工作站

作者:刘聪NLP

写在前面

前两天刷arxiv论文,又刷到一篇通用信息抽取框架,今天带给大家,全名为《Universal Information Extraction as Unified Semantic Matching》,即基于统一语义匹配的通用信息抽取框架-USM,状态为accepted by AAAI2023。

点击这里进群—>加入NLP交流群

paper地址:https://arxiv.org/pdf/2301.03282.pdf

介绍

信息提取(Information Extraction,IE)需要提取句子中的实体、关系、事件等,其不同的任务具有多样的抽取目标和异质的机构,因此,传统的方法需要针对特定的任务进行模型设计和数据标注,使得难以推广到新的模式中,极大限制了IE系统的使用。

2022年《Unified Structure Generation for Universal Information Extraction》一文,提出了通用信息提取(UIE)的概念,旨在使用一个通用模型来解决多个信息提取任务,提出了一种Seq2Seq的生成模型,以结构化模式提示器+文本内容作为输出,直接生成结构化抽取语言,最终获取信息提取内容。

然而,由于Seq2Seq的生成模型的黑盒特性,导致无法判断跨任务或跨模式的迁移在什么情况下会成功or失败。因此,本论文提出了统一语义匹配框架(Universal Information Extraction,USM)对各种信息提取任务进行统一建模,明确模型在迁移过程的有效性、健壮性和可解释性如图1所示,IE任务中多样化的任务和抽取目标,可以解耦为以下两个操作:

  • (1)Structuring,即结构化,从文本中抽取目标结构中标签未知的基本子结构。例如:抽取“Monet”、“Paris”、“France”等文本或者“ Monet-Paris”、“France-Paris”等文本pair对。
  • (2) Conceptualizing,即概念化,它将抽取文本和文本pair对与目标语义标签进行对应。例如:“Monet”与“person”标签进行对应,“Monet”-"Paris"与“birth place”标签进行对应。

并且在给定目标抽取模式时,可以通过结构化操作,重新建立抽取目标结构与文本的语义信息;通过概念化操作,将抽取文本或文本pair与目标语义标签进行匹配,完成信息抽取任务。

USM框架基于上述发现的规则,将结构化和概念化转化为一系列有向Token-Linking操作,联合建模文本与模式,统一抽取文本或文本pair,并根据需要可控生成目标结构,实现在不同的目标结构和语义模式之间进行共享抽取的功能。

基于有向Token-Linking的统一语义匹配

如图2所示,USM框架以任意抽取标签模式和原始文本作为输入,根据给定的模式直接输出结构。

Schema-Text Joint Embedding

为了捕捉标签模式和文本之间的关联,USM框架学习模式标签和文本标记的联合上下文嵌入,即将抽取提示实例化为token序列,并与文本序列进行拼接,最后计算标签-文本联合嵌入,具体如下,

其中,为Transformer的Encoder结构,为掩码矩阵,用于确定一对Token之间是否可以相互作用。

Token-Token Linking for Structuring

在得到标签-文本联合上下文嵌入后,USM框架使用Token-Token链接(TTL)操作抽取所有有效的文本片段。

  • Utterance:输入文本中的一段连续Token序列,例如:实体文本“Monet”、事件触发词“born in”等。如图3所示,通过片段的头尾连接(H2T),抽取一个文本片段。例如,“Monet”是自身到自身,“born in”是“born”到“in”。
  • Association pair:输入文本中的相关文本pair对,例如,具有主客体关系的“Monet”-“Paris”文本对,具有触发词-要素关系的“born in”-“Paris”文本对。如图3所示,通过头头连接(H2H)和尾尾连接(T2T),抽取文本对。

对于上述三种Token到Token链接(H2T, H2H, T2T)操作,USMk框架分别对所有有效的token-pair候选集中token-to-token 链接进行评分,对于每个token-pair,链接分数如下:

其中,为输出维度的前馈层,为旋转位置嵌入,可以有效地将相对位置信息注入到对应的结构中。

Label-Token Linking for Utterance Conceptualizing

在得到标签嵌入和文本嵌入后,USM框架使用 label-token链接(LTL)操作将有效的文本进行概念化。

LTL操作的输出是标签名词和文本内容的pair对,例如:"person"- “Monet”、"country"-“Paris”等。有两种类型的概念化:

  • 实体的类型,即为每一个文本分配标签类型,例如,实体“Monet”的类型为person。
  • 客体的谓词,即将谓词类型赋给每个候选客体,例如,客体“Paris”的谓语词为birth place。其中,实体的类型和客体的谓词在概念化时采用相同的LT操作,使得两种标签语义之间相互加强。并按照头尾片段抽取风格,使用label到head(L2H)和label到tail(L2T)来定义L2T链路操作,例如,客体的谓词“Paris”-“birth place”,将标签“birth place”的头“birth”与客体“Paris”链接,将标签“birth place”尾头“ place”与客体“Paris”链接。计算LTL的得分,如下:

Token-Label Linking for Pairing Conceptualizing

为了概念化文本pair对,USM框架使用 Token-Label链接(TLL)将文本pair对的主体链接到标签上。也就是,TLL操作用head到label(H2L)和tail到label(T2L)操作连接了三元组中主体和谓语词。例如,主体“Monet”的head“Monet”链接标签“birth place”的head“birth”,主体“Monet”的tail“Monet”链接标签“birth place”的tail“place”。计算TLL的得分,如下:

Schema-constraint Decoding for Structure Composing

USM框架采用模式约束解码算法来解码最终结构,通过统一的token-linking操作提取给定的文本结构。如图3所示,USM框架,首先解码由TTL操作提取的实体文本和主客体文本,例如:“Monet”,“Paris”,“France”,“Monet”-“Pairs”,“France”-“Pairs”;然后通过LTL操作对标签名词和文本内容的pair对进行解码,例如:“person”-“Monet”,“country”-“France”,“birth place”-“Paris”,“capital”-“Paris”;最后利用TLL操作对标签及文本对进行解码,例如:“Monet”-“birth place”,“France”-“capital”。

由于以上三种链接操作互不影响,因此,在进行模型推理过程中,三种操作是高度并行的。

最后,可以根据从输入类型的模式定义,将实体类型country和person与关系类型 birth place和capital分离出来。根据TLL操作的结果“Monet”-“birth place”,“France”-“capital”,可以得到完整的三元组结构“Monet”-“birth place”-Paris和“France”-“capital”-“Paris”。

Learning from Heterogeneous Supervision

本文利用异构监督资源来学习统一令牌链接的通用结构和概念化能力,通过语言化的标签表示和统一的token链接,将异构的监督数据统一为<text,token pairs>进行预训练。

Pre-training

USM框架对共享语义表示中的标签模式和文本进行统一编码,并使用统一的token-linking对文本中的信息进行结构化和概念化。帮助为了学习常见的结构和概念化能力,本文收集了三种不同的监督数据用于USM的预训练。

  • 任务数据:来自信息抽取任务的标注数据,即数据样本都有一个金标准。
  • 远程监督数据:数据样本来自文本和知识库对齐。
  • 间接监督数据:数据样本来自其他相关的NLP任务,主要使用机器阅读理解的数据,将(问题-文档-答案)实例中问题作为标签模式,文档作为输入文本,答案作为提及。

Learning function

在训练过程中,由于token-linking占比仅为所有token链接候选集合的1%,因此在模型优化过程中,标签的极端稀疏性是要重点解决的问题。

主要采用类别不平衡损失函数,

其中,表示USM框架中的链接类型,表示链接对,表示非链接对,表示链接操作的分数。

实验

监督实验

在4个任务的13个数据集上与其他sota模型进行了对比实验,其中AVE-unify表示非重叠数据集的平均指标,AVE-total表示所有数据集的平均指标,如表1所示,USM框架达到了sota的效果,并在AVE-total上优于各任务sota方法1.3,及时在不使用预训练模型的情况下,用Roberta初始化的USM框架也表现出了较好的效果,说明统一token-linking具有较强的可迁移性和泛化能力。

采用异构数据的预训练的USM框架相比于Roberta初始化的USM框架在所有数据集上平均提高了0.74,说明异构预训练为信息抽取的结构化和概念化提供了更好的基础。

在所有任务上进行微调的USM-Unify模型也表现出,说明USM框架可以通过单一的多任务模型解决大量信息抽取任务。

Zero-shot实验

在不同领域的9个数据集上进行了Zero-shot实验,如表2所示,远程监督数据和间接监督数据在预训练过程中起到很重要的作用。通过表3,可以看出,在330M参数下,就可以比137B参数量的GPT3模型效果更优。

Few-shot实验

在四个信息任务上进行了Few-shot实验,如表4所示,USM框架在少量数据下要比UIE效果更优,并且要好于使用Roberta进行初始化的模型。当将标签文本转化成固定符号表示时,效果变差,说明语言表达标签模式并不是无意义的,在语义表征过程中,它起到了决定性的作用。

总结

该论文通过三种统一的Token-Linking操作,实现信息抽取任务的统一模型,让我眼前一亮,相较于Seq2Seq模型来说,该方法的可解释性更强。

最近文章

深入理解Pytorch中的分布式训练




点击这里进群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
最高法个人信息指导性案例:涉及人脸信息、身份证信息、社交媒体账号、手机验证码等刑法保护的公民个人信息UniMatch项目原作解读:统一光流、立体匹配和深度估计三个任务谷歌出品:基于大型语言模型的语义解析方法CVPR 2023 | 统一框架MAGE:表征学习超MAE,无监督图像生成超越Latent Diffusion发改委 人民银行 印发《全国公共信用信息基础目录(2022年版)》和《全国失信惩戒措施基础清单(2022年版)》​达摩院文档级关系抽取新数据集和五元组抽取新任务CVPR 2023 | 谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent DiffusionAAAI2023 | 百度+中科院提出USM:一种信息抽取的大一统方法点拾投资朱昂演讲:寻找与你匹配的投资方法​NeurIPS 2022 | IPMT:用于小样本语义分割的中间原型挖掘Transformer猫咪的吃人人视频遭奈飞、迪士尼等海外公司集体起诉;苹果或在2024年推出高端机型Ultra;消息称蔚来手机已抽取全国首批内测名额丨邦早报ECCV 2022 | SegPGD: 能有效提升语义分割模型鲁棒性的对抗攻击方法听诗NeurIPS 2022 Spotlight|生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别用信息赚钱,要爬4个台阶ICLR 2023 | 漂移感知动态神经网络:基于贝叶斯理论的时间域泛化框架前沃尔玛经理爆料:自助收银机会在你付款时拍照!想保护个人信息,不建议使用信用卡!ICME 2022 | 通过定位语义块来加速图像分类教育部《信息技术产品国家通用语言文字使用管理规定》2023年3月1日起施行吃货宝宝们,快来抽取你的2023年幸运签~这年头靠稿费能养活自己吗?加拿大大学被曝欺骗留学生,克扣学费!留学中介利用信息差骗国际留学生上私校抽取你的2023年1月份好运!!天塌了:不让缠足 剪辫子 不做核酸是的。对个体来说,还是法治清爽。但中国的“大局观”虽因压制个体而遭到反抗与蔑视,但却一直在整体层面起作用。悖论是2023年,请过低配的生活通过与 GPT 对话实现零样本信息抽取NeurIPS 2022 | 生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别西政-得理杯“2023全国高校语义检索案例研究大赛”启动报名2023年,请过低配的生活。2023年,请过低配的生活(深度好文)!【提示】信用信息如何共享和使用?一图读懂《上海市绿化市容行业公共信用信息管理办法》NeurIPS 2022 | PointTAD: 基于稀疏点表示的多类别时序动作检测框架国家互联网信息办公室公布《个人信息出境标准合同办法》【信息安全三分钟】2023.02.25
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。