Redian新闻
>
AAAI2023 | 百度+中科院提出USM:一种信息抽取的大一统方法

AAAI2023 | 百度+中科院提出USM:一种信息抽取的大一统方法

科技

一句话总结

信息抽取任务具有多样的抽取目标和异构的结构,而传统的模型需要针对特定的任务进行任务设计和标签标注,这样非常的耗时耗力。本文提出一种USM方法,将各种信息抽取任务通过一种统一的模型方法完成。

点击这里进群—>加入NLP交流群

论文: Universal Information Extraction as Unified Semantic Matching
链接: https://arxiv.org/pdf/2301.03282.pdf
单位: 百度、中科院

USM

信息抽取(IE)的挑战在于标签模式的多样性和结构的异构性。

传统方法需要针对特定任务的模型设计,并且严重依赖昂贵的监督,因此很难推广到新模式。

在本文中,我们将 IE 分解为两种基本能力,「结构化」(Structuring)和「概念化」(Conceptualizing),它们由不同的任务和模式共享。

基于这种范式,我们建议使用「统一语义匹配 (Unified Semantic Matching, USM)」 框架对各种 IE 任务进行通用建模,该框架引入了三个统一的标记链接操作来建模结构化和概念化的能力。

这样,USM 可以联合编码模式和输入文本,并行地统一提取子结构,并按需可控地解码目标结构。

本文的贡献为:

算法细节

实验分析

对 4 个 IE 任务的实证评估表明,所提出的方法在监督实验下实现了最先进的性能,并在零/少镜头传输设置中表现出强大的泛化能力。

USM在不同数据集上的结果
零样本迁移实验
少样本实验

总结

在本文中,我们提出了一个统一的语义匹配框架——USM,它对提取模式和输入文本进行联合编码,并行地统一提取子结构,并按需可控地解码目标结构。

实验结果表明,USM 在监督实验下实现了最先进的性能,并在零/少场景设置下表现出强大的泛化能力,验证了 USM 是一种新颖、可传输、可控和高效的框架。

对于未来的工作,我们希望将 USM 扩展到 NLU 任务,例如文本分类,并研究 IE 的更多间接监督信号,例如文本蕴含。

最近文章

深入理解Pytorch中的分布式训练




点击这里进群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
免疫接种信息互联互通、异地租房可提取公积金……长三角一体化示范区第三批12项公共服务跨省共享AI开发大一统!谷歌OpenXLA开源,整合所有框架和AI芯片!江泽民给江泽民送花圈AAAI 2023 | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架低能耗低时耗,中科院&香港大学团队使用新方法进行多任务学习的可穿戴传感器内储层计算退休 5-危机四伏《流浪地球2》:总有一种信念,让我们泪流满面手机快充大一统,中国人先走一步AI开发大一统:谷歌OpenXLA开源,整合所有框架和AI芯片中科院深圳先进院合成所石一鸣课题组诚聘分子生物学、生物信息学和天然产物化学相关方向-博士后/研究助理最新2023中科院期刊“黑名单”发布!科研人快进来看,预警期刊变化巨大!《流浪地球2》票房破10亿:总有一种信念,让我们泪流满面!一文梳理缺陷检测的深度学习和传统方法华人老板的奇葩招聘,挺有意思!美洋插队生活实录(十四)中科院院士蒋华良逝世:曾提出双黄连可抑制新冠……事关2023年院士增选!中科院发文最新案例 | 履行法定义务:未经同意将合法收集的对方当事人个人信息作为证据向法院提交,是否侵权?债券纠纷案大数据来了!涉案金额超300亿,中介机构被诉占比7.6%,争议焦点有哪些?法院提出这些建议AAAI 2023 Oral | 图像质量堪忧干扰视觉识别!达摩院提出RTS:鲁棒性特征建模框架通过与 GPT 对话实现零样本信息抽取王安忆:谁的批评都比不上我自己的严格两会专访|全国人大代表、中科院量子信息重点实验室副主任郭国平:产业链协同助力量子计算穿越商业化“死亡谷”CSM:短视频用户价值研究报告2022《流浪地球2》票房破10亿:总有一种信念,让我们泪流满面无惧大规模GNN,用子图也一样!中科大提出首个可证明收敛的子图采样方法 | ICLR 2023 Spotlight关注!中科院发文,事关2023年院士增选!熵增定律AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架复旦教授姚大力:为何西方很难理解中国大一统的历史作者《流浪地球2》票房破18亿:总有一种信念,让我们泪流满面大使馆紧急通知!!超多人十几万秒没!只因收到这种信息!速来get!中科院、清华、浙大、西湖大学等高校专家加盟!2023合成生物学与细胞智能制造大会等你来!!AAAI2023 | 基于统一语义匹配的通用信息抽取框架-USM将近三千个银行“暂停营业”,这是怎样的一种信号呢?关注!20年/21年/23年中科院期刊预警名单汇总发布!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。