Redian新闻
>
ACL'22 | 快手+中科院提出一种数据增强方法:Text Smoothing,非常简单且有效尤其在数据不足的情况下

ACL'22 | 快手+中科院提出一种数据增强方法:Text Smoothing,非常简单且有效尤其在数据不足的情况下

科技

每天给你送来NLP技术干货!




论文:Text Smoothing: Enhance Various Data Augmentation Methods on Text Classification Tasks
录取:ACL2022
链接:https://arxiv.org/pdf/2202.13840.pdf

大家都知道,数据增强的方法有很多,比如EDA方法(增删改插),回译(Back Translation,就是翻译到一种语言,再翻译回来),CBERT(通过BERT寻找语义相关的替换词),GPT2context(给一个提示(prompt)生成相关文本)等。

比如一个情感分类的一个例子:
The quality of this shirt is average

这里average就起决定性作用,但是针对于训练数据量少的任务来说,像normal、middle等词汇不会都能出现在训练集里的,那么怎么办呢?之前的数据增强方法感觉有点hard,有没有稍微soft的方法,于是作者通过label smoothing的灵感想到了text是否也可以来做smoothing?

于是作者提出了一种Text Smoothing的方法,具体如下:


其实该方法借鉴了CBERT的灵感,就是通过mask language model (MLM)的方法,将文本输入并得到每一个token对应的在vocab size维度预测的概率,这里区别于CBERT的是没有mask任何一个token,以及不是选择最佳候选token来替换,而是通过mixup的方法,将所有的概率融合到一起,具体如下:


其中mixup融合公式为:
其中ti为BERT的正常的one-hot输入,最后将所有概率归一为新的embedding形成新的representation,最终参与训练的每条文本只使用其洗呢representation即可。


实验

本文在低资源的公开数据集上得到了非常好的效果,远高于其他方法。


使用的数据统计:


纯Text Smoothing方法:


Text Smoothing方法结合其他方法:


效果非常好吧?

总之,该方法非常适用于数据量较小的任务,感兴趣的可以尝试下~



最近文章

EMNLP 2022 和 COLING 2022,投哪个会议比较好?

一种全新易用的基于Word-Word关系的NER统一模型,刷新了14种数据集并达到新SoTA

阿里+北大 | 在梯度上做简单mask竟有如此的神奇效果




下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!  后台回复【五件套


下载二:南大模式识别PPT  后台回复南大模式识别



投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等

记得备注呦

整理不易,还望给个在看!

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
4月份经济数据不好,中国只要确认了的问题就有能力克服它MR兑现新方法:AmEx Business Checking+AmEx Business Platinum 即可1cpp兑现約旦埃及2021(5)死海漂浮樂“国际警察”这次为何没能拔刀相助[台湾纪游]台南梅鑫海产店第廿五上一个说“丼”不读jǐng的人,已经被我骂哭了[台湾纪游]台南三好一公道当归鸭第廿六Hurun China Metaverse Companies with the Greatest Potential 2022Run with Becca Pizzi at the AAPI 5K Run 'n' WalkCVPR 2022 | 图像修复!中科大&微软提出PUT:减少Transformer在图像修复应用中的信息损失带娃去户外当心 6 类毒虫,尤其第一种,严重可致命(附急救方法)16人对7300人,“数据不过夜”最难|北京社区一线抗疫录JNBY Removes ‘Spooky’ Children’s Clothing After Outcry, Again我的 5K 故事 - AAPI 5K Run 'n' Walk LexingtonChinese Telecoms Block Incoming Int’l Calls, Texts to Fight ScamChina Writing Contest Deadline Extended to May 14, 2022Shanghai Spring/Summer 2022: The Season That Never Was一句“证据不足”,美国又要逍遥法外?摄入量严重不足,尤其是3岁以上的孩子!这种食物补脑还对眼睛好,建议每周吃2次China to Review School Textbooks After Questionable Illustration世界顶尖学霸、中科院研究员法院门口怒杀亲外甥!只因19岁外甥睡了39岁舅妈……流量有毒,而且有剧毒丨重新思考数字化之十四为什么中国影视行业超时工作的情况非常普遍?The Small Group Rescuing Animals During Shanghai Lockdown【COVID专题】辉瑞的三剂新冠病毒疫苗对5岁以下儿童安全且有效吗?紧急情况下美国出警快,非紧急情况也可以叫警察吗?她在方舱跳 swing,他在方舱干一杯|hayami's blog欧洲国家冷战以后已经把自己阉割了,没有能力打什么像样的战争了。A Coming-Out Guide Aims to Promote Acceptance Among Gay ChineseTangshan Police Officer Dismissed After Female Diners Assaulted展览|“Beyond King Tut:The Immersive Experience”开始售票快手做回快手,但现在并不是「赚钱」好时机|Long China 50 分析Nat Commun:新型免疫增强疗法或能增强CAR-T细胞疗法来治疗人类血液癌症China’s Youth Are Changing. The Party’s Message Must Too.线上分享 | Dr. Qi Lu: Riding the Expanding Frontiers
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。