Redian新闻
>
ACL 2023 | 达摩院、NTU提出多视图压缩表示,显著提升预训练语言模型鲁棒性

ACL 2023 | 达摩院、NTU提出多视图压缩表示,显著提升预训练语言模型鲁棒性

科技


由于参数数量庞大,微调预训练语言模型(PLM)容易在低资源的情景中产生过拟合问题 [1]。在本研究中,我们提出了多视图压缩表示(MVCR)模块,通过对 PLM 的隐层表示正则化来减少过拟合。在微调过程中,我们的方法在 PLM 的隐层之间插入 MVCR 模块,前一层的输出经过 MVCR 模块之后,传递给后面一层作为输入。MVCR 模块在微调完成目标模型后被移除,因此目标模型在使用时不会增加额外的参数或计算成本。我们的方法在广泛的序列级和词元级低资源的自然语言处理任务中取得了显著的提升。


论文标题:
Towards Robust Low-Resource Fine-Tuning with Multi-View Compressed Representation

收录会议:

ACL 2023

论文链接:

https://arxiv.org/pdf/2211.08794.pdf

数据代码:

https://github.com/DAMO-NLP-SG/MVCR

论文作者:

刘林林,李星漩,李昕,邴立东等




问题定义


近年来在大型预训练语言模型(PLM)上进行微调已经成为自然语言处理任务中最常用的方式之一,该方法将在大量文本语料库中获得的知识转移到下游任务中,从而在众多任务上取得了优异的表现。


然而大多数的 PLMs 都是为了通用目的的表示学习而设计的 [2],因此所学习的表示不可避免地包含了大量与下游任务无关的特征。此外,PLMs通常具有大量参数,这使它们与简单模型相比更具表达能力,因此在微调过程中更容易受到过拟合噪点或无关特征的影响,尤其是在低资源的情景中。


针对上面指出的几个问题,我们提出了多视图压缩表示(MVCR)模块,通过对 PLM 的隐层表示正则化 [3] 来减少过拟合。在微调过程中,我们的方法在 PLM 的隐层之间插入 MVCR 模块,前一层的输出经过 MVCR 模块之后,传递给上层作为输入。MVCR 模块在微调过程中通过加入多样性,减少了模型过拟合的可能性。此外我们还提出了分层子编码器(HAE)进一步增加表示的多样性。


MVCR 模块在微调完成目标模型后被移除,因此目标模型在使用时不会增加额外的参数或计算成本。我们的方法在广泛的序列级和词元级低资源的自然语言处理任务中取得了显著的提升。




多视图压缩表示模块(MVCR)


MVCR 模块的上一隐层假设为第 n 个隐层,则该第 n 个隐层输出隐式表达至 MVCR 模块后,该模块从包含的 N 个 HAE 中随机地选择一个或者随机地不选择 HAE。若随机的结果是选择其中一个 HAE,则由该被选择的 HAE 对输入的隐式表达进行处理后,输出处理后的隐式表达给第 n+1 个隐层。若随机的结果是不选择 HAE,则第 n 个隐层输出的隐式表达走的是如图 2 中所示的 I 模块,该 I 模块表示一个直通通道,即将该第 n 个隐层输出的隐式表达直接输入至第 n+1 个隐层。这种随机性能够有效地增加隐式表达的多样性。


若 HAE 的层内自编码器采用图 3 中所示结构,即包括三个层内自编码器(IAE),则对于被输入隐式表达的 HAE(即被随机选择到的 HAE),其编码模块对隐式表达进行编码处理后输出隐式表达至层内编码模块。层内编码模块从三个 IAE 随机选择一个或者随机不选择 IAE 进行处理并输出隐式表达至解码模块。若随机选择的结果是其中一个 IAE,则由该被选择的 IAE 对输入的隐式表达进行处理后,输出处理后的隐式表达给解码模块。若随机选择的结果是不选择 IAE,则编码模块输出的隐式表达走的是I模块,将编码模块输出的隐式表达直接输入解码模块。




实验结果


我们分别在序列级和词元级低资源任务上做了大量的实验。MVCR 模块在所有任务上均有稳定提升。




MVCR模块在不同隐层的插入表现


预训练语言模型模型不同层的隐层表示都代表了不同的含义,因此我们探究了将 MVCR 模块插入在不同隐层之间的表现。如图三所示,将 MVCR 模块分别插入在第一层和第十二层后表现明显超过其他隐层。我们认为将 MVCR 模块插入在第一层能更有效增加注入模型的多样性,而将 MVCR 模块插入在第十二层可以更好的避免过拟合。这一现象也更好地解释了在主实验中,在极低资源任务比如 100 和 200 个训练数据上,将 MVCR 模块插入在第一层比第十二层表现更好。




HAE vs. AE vs. VAE


MVCR 中的 HAE 作为瓶颈起到生成原始隐层表示的多样化压缩视图的作用。HAE 有许多其他可能的替代方案,因此我们将 HAE 替换为普通的自编码器(AE)和变分自编码器(VAE)进行比较。图 6 中的结果显示,HAE 始终优于 AE 和 VAE。

更多分析请参考原文。


总结

在这项工作中,我们提出了一种通过隐藏表示正则化来改善低资源微调鲁棒性的新方法。我们在预训练语言模型(PLM)的层之间插入了多视图压缩表示(MVCR)模块。在微调过程中,随机选择这些层,以生成更多样化的压缩表示,防止顶层的 PLM 过拟合。我们还提出了一种定制的分层自编码器(HAE),以进一步增加增强表示的多样性。训练完成目标模型后,插入的 MVCR 模块被丢弃,因此我们的方法在目标模型的使用过程中不会增加额外的参数或计算成本。我们的方法在广泛的自然语言处理任务中展示了稳定的性能提升。

参考文献

[1] Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzmán, Edouard Grave, Myle Ott, Luke Zettlemoyer, and Veselin Stoyanov. 2020. Unsupervised cross-lingual representation learning at scale. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 8440–8451, Online. Association for Computational Linguistics.

[2] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. 2019. Roberta: A robustly optimized BERT pretraining approach. CoRR, abs/1907.11692.

[3] Pierre Baldi. 2012. Autoencoders, unsupervised learning, and deep architectures. In Proceedings of ICML Workshop on Unsupervised and Transfer Learning, volume 27 of Proceedings of Machine Learning Research, pages 37–49, Bellevue, Washington, USA. PMLR.



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Met Gala 2023 红毯造型来啦!(更新到安妮海瑟薇、维拉·王、Gigi、刘思慕啦)你以为第一共和银行倒闭了就完了吗?DeepSpeed ZeRO++:降低4倍网络通信,显著提高大模型及类ChatGPT模型训练效率​稀疏量化表示(SpQR):3到4比特近乎无损压缩大规模语言模型仅用三张图,合成高质量的3D场景,NTU提出SparseNeRFWhat they forgot to teach you at school __笔记节选大型语言模型专场上线!四位AI新青年直播讲解MiniGPT-4、LLaVA、Gorilla以及大型语言模型Token危机给语言大模型加上综合视听能力,达摩院开源Video-LLaMA※※ 2023 唱坛5.4快闪【路过青春:闪亮青春 VS 狗血青春】合辑 + 母亲节活动【谁言寸草心】通知 ※※有人讨论 中国西湖大学的 2023 暑假PROGRAM吗?波函数纠缠好,就是神有余,则笑不休顶会审稿人精选:40篇大型预训练语言模型应用论文ICCV 2023 | token过度聚焦暴露注意力机制弱点,两种模块设计增强视觉Transformer鲁棒性今晚直播 | ACL 2023原作解读:研究评测与提升大语言模型时间推理能力ICML 2023 | 基于模块化思想,阿里达摩院提出多模态基础模型mPLUG-2北京/杭州内推 | 阿里达摩院对话智能团队招聘大语言模型方向算法专家北京内推 | 阿里达摩院招聘大型语言模型(LLM)应用方向实习生​ACL 2023 | AD-KD:归因驱动的预训练语言模型知识蒸馏框架CVPR 2023 | 多模态新任务和新数据集!NTU提出广义引用分割问题GRES为了纪念的回忆——王光美的特务问题和我父亲的冤案 任小彬 2023南洋理工最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有黑芝麻智能、NTU提出使用栅格化视角优化BEV算法中矢量化场景构建南洋理工大学最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有2023年美国宜居最佳10城QUERT:基于旅行搜索领域Query理解的预训练语言模型ACL 2023长文 | 先计划再求解:提升大型语言模型的零样本链式推理Mass shootings in the U.S. 1982美元即将贬值大模型剑指AI Agents,达摩院推出Dialogue Agents新基SpokenWOZACL 2023 | 面向信息检索的结构感知语言模型训练方法给大语言模型“开个眼”,看图说话性能超CLIP!斯坦福等新方法无需多模态预训练丨开源ACL2023 | 面向信息检索的结构感知语言模型训练方法阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-OwlPromptBench: 首个大语言模型提示鲁棒性的评测基准ExpertLLaMA:超越Vicuna,通过角色扮演增强指令,显著提升回答质量Google提出LaCLIP:大语言模型重写本文输入,让CLIP重焕光彩!给自动驾驶AI搞个“外挂”,0.1M就能显著提升运动状态判别力,来自港大&TCL丨开源ACL 2023 | 复旦邱锡鹏组提出模块化Prompt多任务预训练,可快速适应下游任务微前沿 | 强可控视频生成;定制化样本检索器;用脑电重建视觉感知;大模型鲁棒性评测ChatGPT能解决信息抽取吗?一份关于性能、评估标准、鲁棒性和错误的分析
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。