Redian新闻
>
NLP中关于数据增强的最新综述

NLP中关于数据增强的最新综述

科技

论文: Data augmentation approaches in natural language processing: A survey
链接:https://www.sciencedirect.com/science/article/pii/S2666651022000080
单位: 哈工大
录取: AI Open 2022期刊

摘要

作为一种有效的策略,数据增强 (data augmentation, DA) 缓解了深度学习技术可能失败的数据稀缺情况。

它广泛应用于计算机视觉,然后引入自然语言处理,并在许多任务中取得了改进。DA方法的主要重点之一是提高训练数据的多样性,从而帮助模型更好地泛化到看不见的测试数据。

在本次综述中,我们根据增强数据的多样性将 DA 方法分为三类,包括改写(paraphrasing)、噪声(noising)和采样(sampling)。我们的论文着手根据上述类别详细分析 DA 方法。此外,我们还介绍了它们在 NLP 任务中的应用以及面临的挑战。

介绍

数据扩充是指通过添加对现有数据稍作修改的副本或从现有数据中新创建的合成数据来增加数据量的方法。这些方法缓解了深度学习技术可能失败的数据稀缺情况,因此 DA 最近受到了积极的关注和需求。数据增强广泛应用于计算机视觉领域,例如翻转和旋转,然后引入自然语言处理(NLP)。与图像不同,自然语言是离散的,这使得在 NLP 中采用 DA 方法更加困难且探索不足。

最近提出了大量的 DA 方法,对现有方法的调查有利于研究人员跟上创新的速度。之前的两项调查都提供了 NLP DA 的鸟瞰图。他们直接按照方法来划分类别。因此,这些类别往往过于有限或过于笼统,例如,反向翻译和基于模型的技术。Baier在 DA 上发布仅用于文本分类的综述。在本次调研中,我们将全面概述 NLP 中的 DA 方法。我们的主要目标之一是展示 DA 的本质,即为什么数据增强有效。为了促进这一点,我们根据增强数据的多样性对 DA 方法进行分类,因为提高训练数据的多样性是 DA 有效性的主要推动力之一。我们将 DA 方法分为三类,包括改写、噪声和采样。

该论文着手根据上述类别详细分析 DA 方法。此外,还介绍了它们在 NLP 任务中的应用以及面临的挑战。

具体内容

一共分为五大部分。

  1. 全面回顾了这三个类别,并分析了这些类别中的每一种方法。还介绍了方法的特征,例如粒度和级别:
  • 基于改写(paraphrasing)的方法基于对句子的适当和有限制的更改,生成与原始数据具有有限语义差异的增强数据。增强数据传达与原始形式非常相似的信息。
  • 基于噪声(noising)的方法在保证有效性的前提下加入离散或连续的噪声。这些方法的重点是提高模型的鲁棒性。
  • 基于抽样(sampling)的方法掌握数据分布并对其中的新数据进行抽样。这些方法输出更多样化的数据,满足基于人工启发式和训练模型的下游任务的更多需求。
改写数据增强技术包括三个层次:词级、短语级和句子级
使用语言模型进行改写
使用规则进行改写
机器翻译改写
通过模型生成进行改写
五种基于噪声的方法的示例
基于采样的模型
不同DA方法的特点。Learnable表示方法是否涉及模型训练;online 和 offline 表示 DA 过程是在模型训练期间还是之后
  1. 总结了提高增强数据质量的常用策略和技巧,包括方法堆叠、优化和过滤策略。
影响每个 DA 方法中增强效果的超参数
  1. 分析了上述方法在 NLP 任务中的应用,还通过时间线展示了 DA 方法的发展。

  1. 介绍了数据增强的一些相关主题,包括预训练语言模型、对比学习、相似数据操作方法、生成对抗网络和对抗攻击。目标是将数据增强与其他主题联系起来,同时展示它们的不同之处。

  2. 列出了在 NLP 数据增强中观察到的一些挑战,包括理论叙述和通用方法,揭示了数据增强未来的发展方向。

公开资源

一些有用的api:

除了英语,也有其他语种的工具资源:

总结

在本文中,作者对自然语言处理的数据增强进行了全面和结构化的调研。为了检验 DA 的性质,根据增强数据的多样性将 DA 方法分为三类,包括改写、噪声和采样。这些类别有助于理解和开发 DA 方法。

还介绍了 DA 方法的特点及其在 NLP 任务中的应用,然后通过时间线对其进行了分析。

此外,还介绍了一些技巧和策略,以便研究人员和从业者可以参考以获得更好的模型性能。最后,我们将 DA 与一些相关主题区分开来,并概述了当前的挑战以及未来研究的机遇。


进NLP群—>加入NLP交流群


知识星球:NLP学术交流与求职群

持续发布自然语言处理NLP每日优质论文解读、相关一手资料、AI算法岗位等最新信息。
加入星球,你将获得:
1. 最新最优质的的论文速读。用几秒钟就可掌握论文大致内容,包含论文一句话总结、大致内容、研究方向以及pdf下载等。
2. 最新入门和进阶学习资料。包含机器学习、深度学习、NLP等领域。
3. 具体细分NLP方向包括不限于:情感分析、关系抽取、知识图谱、句法分析、语义分析、机器翻译、人机对话、文本生成、命名实体识别、指代消解、大语言模型、零样本学习、小样本学习、代码生成、多模态、知识蒸馏、模型压缩、AIGC、PyTorch、TensorFlow等细方向。
4. NLP、搜广推、CV等AI岗位招聘信息。可安排模拟面试。


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
综述还在只综不述?师姐这份秘籍让我轻松搞定综述撰写!(附投稿指南)在那遥远的地方免费提供I-485和移民签证面谈准备和模拟面谈(绿卡申请中关于公众负担和福利问题的情况更新)Npj Comput. Mater.: 优质金属零件的打印—人类智能增强的机器学习AIGC最新综述:从 GAN 到 ChatGPT 的AI生成历史杭州内推 | 网易互娱AI Lab招聘NLP/数据挖掘/图像算法实习生综述太长没空看?5分钟教你读完一篇经典综述,精准定位发文方向……(速看)综述:NLP中的 Human in the LoopNNLM、RNNLM、LSTM-RNNLM、Bi-lstm、GPT-1…你都掌握了吗?一文总结语音识别必备经典模型(一)6招写出好综述!5分综述原来是这样写出来的,不看后悔!(附教程)最新综述:等变图神经网络清华最新《持续学习》综述,32页pdf详述持续学习理论、方法与应用综述这篇CELL综述的结构太棒了!学会这个方法,我的论文综述终于过了!总结22-23年NLP等在GNN领域最新的研究综述以及研究趋势爱德华王子岛骑行——第三天 没有山的山村 Mount StewartNat Med:美国政府大力促进食疗(Food is Medicine);随着证据增多,已到研发机构的关注和投入Pandas:用于数据分析和数据科学的最热门 Python 库 | Linux 中国伊利诺伊理工舒凯招收全奖博士生,数据挖掘/机器学习/NLP/人工智能方向ChatGPT之后何去何从?LeCun新作:全面综述下一代「增强语言模型」MLNLP学术Talk第十九期 | 余海洋、黎槟华@阿里达摩院:基于知识的下一代对话:新任务、新数据、新榜单星巴克蛋糕、点心免费领!快来看看你的app中有没有吧!安筱鹏:关于数字化的共识,为什么是昂贵的奢侈品?惠勒延迟实验的另一种解释,向道还兄和小谢请教博士申请 | 伊利诺伊理工大学舒凯老师招收数据挖掘/机器学习/NLP方向全奖博士生吹爆!自从师兄给我推荐这个综述秘籍,突然开挂……(附综述神器)MLNLP前沿综述分享第五期 | 胡琳梅@北京理工大学:知识增强的预训练语言模型前沿研究进展TKDE 2023 | 方面级情感分析(ABSA)最新综述:任务、方法与挑战北京内推 | 微软亚洲互联网工程院NLP Science组招聘NLP研究实习生Nat Med:美国政府大力促进食疗(Food is Medicine);随着证据增多,更多研发机构关注和增加投入池塘一夜秋风冷,吹散芰荷红玉影突发:乌克兰国防部大换血,防长换人,及鹅乌最新综述……招聘 | 成都鱼泡科技 - NLP、语音、数据产品等岗位为什么开源对于数据分析很重要? | Linux 中国美国档案---谭锦盛NeurIPS 2022 | 如何度量知识蒸馏中不同数据增强方法的好坏?一种统计学视角
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。