COLING 2022 | PCBERT: 用于中文小样本NER任务的BERT模型
论文链接:
Abstract
在 few-shot 或 zero-shot 数据集上实现良好的性能一直是 NER 面临的长期挑战。在语义分布差异较大的情况下,传统的语义迁移方法会降低模型的性能,特别是在中文 few-shot NER 的情况下。
本文提出了一种基于 prompt 的 P-BERT 和 C-BERT 的中文 few-shot NER。本文在高资源数据集上训练标注模型,然后在低资源数据集上发现更多隐式标签,并且进一步设计了一种标签扩展策略来实现高资源数据集的标签传输。本文在微博和其他三个抽样中文 NER 数据集上评估了模型,实验结果证明了本文的方法在 few-shot 学习中的有效性。
本工作的贡献可以概括为以下几点:
1. 引入标签扩展策略,在 few-shot NER 中实现标签迁移学习,有效地提高了模型性能;
2. 我们提出了一个新的 PCBERT 模型,由 P-BERT 组件和 C-BERT 组件组成,以集成词汇特征和隐式标签特征;
3. 实验结果表明,该方法适用于汉语 few-shot NER 迁移学习,在 few-shot 学习上取得了良好的性能。
方法
本文提出了一个由 P-BERT 和 C-BERT 组成的中文 few-shot NER 的两阶段模型 PCBERT,这两个组件都是用 BERT 实现的,PCBERT 的整体模型结构如下图所示。
P-BERT 是一种基于 prompt 的模型,用于提取目标数据集中的隐式标签扩展特征。C-BERT 是受 LEBERT 启发的基于词汇表的模型,并进一步融合了每个词汇表的多标签特征。在第一阶段,P-BERT 对标签扩展数据集进行预训练。然后 P-BERT 在第二阶段被冻结,提供标签扩展功能以微调 C-BERT。结构和功能描述如下。
2.1 P-BERT
2.2 C-BERT
其中 H1 是第一个编码器层中原始输出隐藏状态的集合。在 LLA 中,输入包含来自第一编码器层的隐藏状态 H1;词典在每个标记位置设置 ωi,对应的 top-k 标签嵌入 L。
▲ i代表第i个token,j代表扩展的第j个单词的标签
我们使用双向 LSTM (BiLSTM) 模型来增强 C-BERT 输出的时序信息:
实验
3.1 Datasets
3.2 Overall Results
3.3 Ablation Study
标签扩展数据集是作者重新构建的一个数据集,由高资源数据集与多个数据集集成,高资源数据集涵盖了大量的数据和标签,能够准确地支持低资源数据集上的标签扩展。
总结
本文提出了一种用于中文 few-show NER 任务的 PCBERT,由 P-BERT 和 C-BERT 组成,其中 P-BERT 是一个基于提示符的模型,可以提供更丰富的语义信息,C-BERT 是一个基于词典的模型。实验结果表明,该算法有效地提高了中文 few-shot NER 任务的性能。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
微信扫码关注该文公众号作者