Redian新闻
>
​COLING 2022 | PCBERT: 用于中文小样本NER任务的BERT模型

​COLING 2022 | PCBERT: 用于中文小样本NER任务的BERT模型

公众号新闻


©作者 | 赵金旭
单位 | 北京邮电大学
研究方向 | 自然语言处理

论文标题:
PCBERT: Parent and Child BERT for Chinese Few-shot NER

论文链接:

https://aclanthology.org/2022.coling-1.192.pdf




Abstract


在 few-shot 或 zero-shot 数据集上实现良好的性能一直是 NER 面临的长期挑战。在语义分布差异较大的情况下,传统的语义迁移方法会降低模型的性能,特别是在中文 few-shot NER 的情况下。


本文提出了一种基于 prompt 的 P-BERT 和 C-BERT 的中文 few-shot NER。本文在高资源数据集上训练标注模型,然后在低资源数据集上发现更多隐式标签,并且进一步设计了一种标签扩展策略来实现高资源数据集的标签传输。本文在微博和其他三个抽样中文 NER 数据集上评估了模型,实验结果证明了本文的方法在 few-shot 学习中的有效性。


本工作的贡献可以概括为以下几点:


1. 引入标签扩展策略,在 few-shot NER 中实现标签迁移学习,有效地提高了模型性能;


2. 我们提出了一个新的 PCBERT 模型,由 P-BERT 组件和 C-BERT 组件组成,以集成词汇特征和隐式标签特征;


3. 实验结果表明,该方法适用于汉语 few-shot NER 迁移学习,在 few-shot 学习上取得了良好的性能。




方法


本文提出了一个由 P-BERT 和 C-BERT 组成的中文 few-shot NER 的两阶段模型 PCBERT,这两个组件都是用 BERT 实现的,PCBERT 的整体模型结构如下图所示。



P-BERT 是一种基于 prompt 的模型,用于提取目标数据集中的隐式标签扩展特征。C-BERT 是受 LEBERT 启发的基于词汇表的模型,并进一步融合了每个词汇表的多标签特征。在第一阶段,P-BERT 对标签扩展数据集进行预训练。然后 P-BERT 在第二阶段被冻结,提供标签扩展功能以微调 C-BERT。结构和功能描述如下。


2.1 P-BERT


对于 P-BERT,每个输入 ,用 将输入转换为 。转换输入由以下部分组成:

其中 的第一部分是原始输入 X,第二部分是由 计算的标签模板。每个标签模板遵循 “ Index is ” 的形式,其中索引槽 [] 表示 X 中的每个 token 位置,标签槽 是代表标签 Y 的中文单词。每个标签模板用逗号连接。在 prompt-tuning 期间,每个输入的标签槽将用 [MASK] 令牌及其任务目标进行掩码。任务目标定义损失函数是恢复屏蔽标签 token。损失函数可定义为交叉熵损失:

 是对应的预测 token。

2.2 C-BERT


在 few-shot NER 中,词汇信息对于促进模型理解 token 级语义信息至关重要。对于每个输入序列 X,本文按照之前的方法构造词汇树。如上图所示,token X 的词典集可以嵌入为 。此外,本文还为每个单词引入了一个标签集。通过采用在高资源数据集上预训练的 BERT 分类器模型来预测 top-k 标签嵌入。
LEBERT 的一个变体被设计为 C-BERT。C-BERT 的词嵌入是 P-BERT 及其词嵌入的和。我们在 C-BERT 的第一个编码器层之后提出了一个标签词典适配器 (LLA),以利用词典和相应的标签信息,如下图所示。

其中 H1 是第一个编码器层中原始输出隐藏状态的集合。在 LLA 中,输入包含来自第一编码器层的隐藏状态 H1;词典在每个标记位置设置 ωi,对应的 top-k 标签嵌入 L。


▲ i代表第i个token,j代表扩展的第j个单词的标签

▲ k代表top-k的标签
通过上面三个公式将词汇表(ij)的特征与对应的标签集(k)融合,增强词汇表的表示性,多标签特征可以有效地缓解 P-BERT 的标签噪声。

▲ i代表第i个token,j代表扩展的第j个单词
下面三个公式将计算出的词典特征 直接注入到中来计算词典信息:

第一次信息融合是将 top-k 的预测标签信息融合,第二次信息融合是将扩展的词汇信息融合,所以只剩下对应的 token 信息。

最终将原始输出隐藏状态与词典信息融合:

2.3 Interactive Training

在调优过程中,PBERT 的主要功能是为 C-BERT 提供标签扩展特性,所以只截取 P-BERT 输出的标签模板部分。每个令牌的提示特征被计算为:


我们使用双向 LSTM (BiLSTM) 模型来增强 C-BERT 输出的时序信息:


为了进一步减轻潜在标签噪声的影响,又融合了 P 的特征:

最终模型的损失为负似然损失:



实验


3.1 Datasets


3.2 Overall Results



3.3 Ablation Study


▲ 去除P-BERT分量,去除标签扩展策略(LEA),将标签扩展数据集替换为高资源数据集来训练P-BERT (LEB)

标签扩展数据集是作者重新构建的一个数据集,由高资源数据集与多个数据集集成,高资源数据集涵盖了大量的数据和标签,能够准确地支持低资源数据集上的标签扩展。




总结


本文提出了一种用于中文 few-show NER 任务的 PCBERT,由 P-BERT 和 C-BERT 组成,其中 P-BERT 是一个基于提示符的模型,可以提供更丰富的语义信息,C-BERT 是一个基于词典的模型。实验结果表明,该算法有效地提高了中文 few-shot NER 任务的性能。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍

现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧

·


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
​COSI:对象存储也可以通过 K8S API 管理了!NeurIPS 2022 | 重振PointNet++雄风!PointNeXt:改进模型训练和缩放策略审视PointNet++一人一个写论文小技巧!加速ViT模型新思路!Meta推出Token Merging,不靠剪枝靠合并Staying Negative: New Covid Policies Bring Memes Aplenty免费!墨尔本NGV中国展!多件藏品首次亮相!免费!152年来规模最大展览!最近一定要去墨尔本NGV,去过的都说值突发:文小硕被查!刚刚,国家大基金,连环减持!天赋“易昺(bǐng)”,创造历史!BARTV推荐 | K先生助力与金援《正义迴廊》(The Sparring Partner) 2022票房黑马!悬疑犯罪新爽片!彭伟@中科院信工所 - IRRGN: 用于对话回复选择任务的隐式图推理网络今天遛到一只CUTE的小狗狗。。。【回顾与展望】2022 后疫情时代的旅游,2023 回家AACO College Panel: From High School to College2022 湾区公立/私立高中 UCB 录取率排名2022 USNEWS发布美国薪酬最高行业TOP25吓人! 列治文小偷砸碎橱窗! 损失惨重! 7成华裔表示被盗过!日本NHK党改名“政治家女子48党”,前偶像将参选如果刘小样在2022恢复—8—开始走路China’s Blue-Collar Workers Are Getting Older, Report SaysYoung Chinese Are Overdosing on Cough Meds to Combat StressThe Chinese Online Slang That Took Over the Internet in 2022​​​​​​​​​​​​​​​Costco食品试吃受欢迎,这些内幕你知道吗学买菜做饭-CulinaryRxChinese Courts Ask Divorcing Couples to Report Marital PropertyUDOP项目原作解读:统一视觉、语言、格式、任务的通用文档处理模型港中文小姐姐邀请你一起吃晚饭~​COLING2022 | PCBERT: 用于中文小样本NER任务的BERT模型​iPhone 16 Ultra或无端口/集成ChatGPT的Bing曝光/人人视频遭Netflix等起诉老公公司的圣诞晚会ICLR 2023 | 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究国内首个类ChatGPT模型将开源/iPhone 15 Pro系列渲染图曝光/Meta加入硅谷AI竞赛关于中国驻纽约总领馆恢复领事证件大厅对外办公的通知!​关于中国驻美国使馆恢复领事证件大厅对外办公的通知日本NHK党改名"政治家女子48党"猜球本周必buy | Pandora全场买二送一,COACH OUTLET半价折上折,​Cotton on白菜价大促【无忧买房】Brookline全新联排别墅出售,2022年建,优质学区,近Coolidge Corner生活圈
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。