Redian新闻
>
NAACL 2022 | 基于Prompt的文本生成迁移学习

NAACL 2022 | 基于Prompt的文本生成迁移学习

科技


©PaperWeekly 原创 · 作者 | werge

研究方向 | 自然语言处理



OverView

预训练语言模型(PLM)通过微调在文本生成任务方面取得了显著进展。然而,在数据稀缺的情况下,微调 PLMs 是一项挑战。因此,开发一个通用且轻量级的,可以适应各种文本生成任务的模型,是非常重要的。

在本文中,作者提出了一种新的基于 prompt 的文本生成方法 PTG。首先针对几类源任务分别学习最优的 prompt,然后迁移转化为目标任务的目标 prompt。为了同时考虑任务级和实例级信息,作者还设计了一种自适应注意机制来导出目标 prompt。实验表明,PTG 方法获得了比微调方法更好的结果。



论文标题:

Learning to Transfer Prompts for Text Generation

收录会议:

NAACL 2022

论文链接:

https://arxiv.org/abs/2205.01543




Introduction
在自然语言处理中,文本生成旨在从输入数据自动生成人类语言中可理解的文本。通过在大规模通用语料库上预训练的大规模参数,GPT-3 等大规模预训练模型(PLMs)在文本生成方面取得了实质性进展。通过微调范式(finetune paradigm),PLMs 可以直接通过调整模型参数来适应各种文本生成任务。然而在现实场景中,不可避免地存在只有有限标记数据的任务,这就给微调模型带来了困难。
最近提出的基于提示了(prompt)的学习提供了一种潜在的解决方案 [1]。在这个范式中,文本生成任务可以通过包含任务特定信息的提示来解决。例如,T5 可以通过 propmt “summarize” 和 “answer the question” 分别将摘要问题和 QA 问题转化为一般的文本生成任务格式。由此,通过可学习的或手动设计的 prompt,可以让 PLMs 不通过微调直接应用到新的生成任务上。
尽管前景广阔,利用 prompt 指导的文本生成仍存在两大挑战。首先,已经发现 prompt 具有高度的任务特异性 [2],也即一个任务上的 prompt 很难有效地转移或重用到新任务;其次,对于单个任务,即使是学习良好的 prompt 也可能不适用于大数据集中的所有数据实例 [3]。因此,在设计 prompt 时需要同时考虑任务级特征和实例级特征,从而使 prompt 有效迁移。
为了解决上述问题,作者提出了一种新的基于 prompt 的文本生成迁移学习方法 PTG。首先,从许多具有代表性的源任务中学习 source prompt,然后将这些 prompt 进行迁移,以生成 target prompt 执行目标任务。作者构建了一个多密钥存储网络,用于存储源提示和提示簇;设计了一种同时考虑任务和实例级信息的自适应注意力机制,以导出目标 prompt。
本文的方法可以有效的从特定数据实例的 prompt 中学习最合适的表示,考虑到了实例级特征,从而可以将现有任务的 prompt 更灵活地转移到新的文本生成任务中。作者在来自三组文本生成任务的14个数据集上测试了 PTG 方法,在全监督和 few-shot 实验中,PTG 均取得了比微调范式有竞争性甚至更好的结果。


Method



2.1 Learning Transferable Source Prompts

本文提出的方法 PTG(Prompt Transfer for Text Generation)如上图所示,可以分为两个部分:首先学习可迁移的源 prompt,其次根据目标任务进行自适应 prompt 迁移。
首先,为了从源生成任务中提取任务相关知识,对于每一个源生成任务 ,作者均在一个固定的 PLM 上根据该任务上的数据 训练得到 prompt ,并存储在提示池(Prompt Pool)中 [4],从而可以方便地计算各个任务之间的相似度,并共享给目标任务。
构建源提示池的关键在于选择源文本生成任务。根据 [5] 的结论,文本生成任务可以大致分类为压缩(例如摘要)、转换(例如风格转换)和生成(如故事生成)三类,且任务多样性可以有效缓解少样本的迁移问题。因此,作者在三种类型的生成任务中选择了六个文本生成任务(包括 14 个公共数据集),以学习它们对应的源提示。利用 spectral clustering 算法,作者将源提示进行了进行了聚类,两个 prompt 之间的相似度通过如下公式计算:



其中, 表示提示 的第 个向量。在这之后,作者利用 min-max cut strategy 将提示池中的所有 prompt 分为了不同的簇 ,从而能更好地使模型发现不同任务之间的差异性。
为了促进从源任务到目标任务的提示转换,我们构建了一个多键内存网络(Multi-Key Memory Network)来存储这些 Prompt:对于一个簇 中的 prompt ,分别构建两个可学习的键 ,前者为 cluster key,后者为 prompt key。
2.2 Transferring Instance Adaptive Prompts
在之前的工作中,都忽略了同一个任务中不同输入实例的区别,但不同实例适合的 prompt 可能是不同的,因此,作者提出了一种自适应注意力机制来同时考虑任务级别和实例级别的特征:对于任务 上的一个实例 ,除了可学习的 task query 以外,作者还加入了实例 query:



其中, 表示每一个 input token 经过 BERT 编码后顶层表示的平均值。
这样,最终的实例 和提示 之间的匹配分数就可以利用注意力机制进行计算:



其中 为超参数。最终该实例所选择的 prompt 即为
基于上述自适应注意机制,通过在模型输入前,在输入 的 embedding 前加上 prompt,一起输入 PLMs 即可生成文本,其最大似然估计就转化为了:





Experiments

3.1 Experimental Setup

作者选取了 14 个公共数据集,并按照 2.1 分为了三类,如下图所示:



作为对比的 Baseline 如下:

(1)GPT-2, BART, T5:三个文本生成任务上具有代表性的 PLMs,作者均选取了 LARGE 版本。

(2)PREFIXTUNING [6]: 这是最近最先进的基于 prompt 的PLM,通过连接一系列向量和输入来生成文本。它冻结了 PLM 参数,但优化了一组连续前缀向量。

(3)SPOT:它还采用了一种基于 propmt 的迁移学习方法,首先训练源任务的提示,然后使用生成的提示初始化目标任务的提示

(4)MULTI-TASK MODELTUNING:这个强大的多任务 baseline 首先在用于 PTG 的相同源任务上微调 BART,然后分别在每个目标任务数据集上微调。

3.2 Results

如下图所示,Table 1 和 Table 2 分别给出了跨任务和跨数据集的可转移性完全监督结果。



对于跨任务实验,作者考虑了两对源任务和目标任务的转移:1)目标任务是摘要(CNN/DailyMail),源任务是其他五个任务的混合;2)目标任务是对话任务(PersonChat),源任务是其他五个任务。对于跨数据集实验,作者也分为了两种情况:1)目标数据集是 CNN/DailyMail 或 XSum,源数据集是其他四个摘要数据集的混合;2)目标数据集是 PersonaChat 或 DailyDialog,源数据集是其他四个对话数据集的混合。

如上图所示,PTG 优于 GPT-2、BART、T5 和 PrefixTuning,这说明 PTG 方法利用了从源任务中学习到的知识,可以有效地通过 prompt 迁移提升微调模型的性能。

其次,PTG 的性能优于基于 prompt 迁移的方法 SPOT。SPOT 与 PTG 的区别在于,SPOT 会平等地考虑每个源任务,并忽略特定的实例信息。相比之下,PTG对不同的源提示进行聚类,并使用自适应注意机制,同时考虑任务和实例级特征,所以效果更好;

最后,PTG 相较于有竞争性的 MULTI-TASK MODELTUNING 效果更好。这可能是因为文本生成任务需要基于不同的输入数据生成不同的文本,因此具有较大的任务边界。因此,在跨任务传输中,在不考虑任务相似性的情况下,简单地调整混合任务上的 PLM 会导致性能下降。尽管如此,PTG 仍表现更好,说明其提高了任务和数据集的稳定性。



如上图所示,作者又进行了 few-shot 实验:仅对目标任务的少数训练实例进行采样以训练模型,分别获得了大小为 {50、100、200、500} 的小训练集,选取的跨任务和跨数据集设置与全监督相同。

可以清楚地观察到,在大多数 few-shot 情况下,PTG 比强 baseline(MULTI-TASK MODELTUNING)具有相当甚至更好的性能,但随着训练数据集大小的增加,两者之间的差距会缩小。且 PTG 仍优于大多数 PLMs。这可能的原因是,大型 PLM 由于其大量参数,在 few-shot 训练阶段可能会过拟合,而 PTG 采用了一种轻量级技术(即 prompt)来学习源提示,可以将以前在源任务中学习到的知识提供给 PLM,并在解决目标任务时作为更好的起点。




Conclusion
本文提出了一种基于提示的文本生成迁移学习方法。从许多有代表性的源生成任务中学习一组提示,然后将这些提示作为目标提示来执行目标生成任务。文中,作者设计了一种同时考虑任务级别和实例级别信息的自适应注意机制,以构建目标提示。在完全监督和 few-shot 数据集中的实验证明了该方法的有效性。


参考文献

[1] Pengfei Liu, Weizhe Yuan, Jinlan Fu, Zhengbao Jiang, Hiroaki Hayashi, and Graham Neubig. 2021b. Pretrain, prompt, and predict: A systematic survey of prompting methods in natural language processing. CoRR, abs/2107.13586.
[2] Tianyu Gao, Adam Fisch, and Danqi Chen. 2020. Making pre-trained language models better few-shot learners. arXiv preprint arXiv:2012.15723.
[3] Teven Le Scao and Alexander M. Rush. 2021. How many data points is a prompt worth? In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL-HLT 2021, Online, June 6-11, 2021, pages 2627–2636. Association for Computational Linguistics.
[4] Zifeng Wang, Zizhao Zhang, Chen-Yu Lee, Han Zhang, Ruoxi Sun, Xiaoqi Ren, Guolong Su, Vincent Perot, Jennifer Dy, and Tomas Pfister. 2022. Learning to prompt for continual learning.
[5] Mingkai Deng, Bowen Tan, Zhengzhong Liu, Eric P. Xing, and Zhiting Hu. 2021. Compression, transduction, and creation: A unified framework for evaluating natural language generation. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, EMNLP 2021, Virtual Event / Punta Cana, Dominican Republic, 7-11 November, 2021, pages 7580–7605. Association for Computational Linguistics.
[6] Xiang Lisa Li and Percy Liang. 2021. Prefix-tuning: Optimizing continuous prompts for generation. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing, ACL/IJCNLP 2021, (Volume 1: Long Papers), Virtual Event, August 1-6, 2021, pages 4582–4597. Association for Computational Linguistics.

更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ACM MM 2022 Oral | PRVR:全新的文本到视频跨模态检索子任务3D版DALL-E来了!谷歌发布文本3D生成模型DreamFusion,重点是zero-shotBB鸭 | ​抖音“小窝”功能上线;小米13 Pro渲染图曝光;宝马拟将MINI电动车生产线迁移至中国;阿里音乐公司更名没想到还有穷到这种境地的人同样是PM,Product Manager、Program Manager、Project Manager的薪资哪个更高?大娃的文言笔记第二波(附打印文本)橐囊源考“我们的祖先到底是谁?为何智人胜出?”丨2022诺奖深入回答了这些问题。附Svante Pääbo趣闻扩散模型在文本生成领域的应用如何生成「好」的图?面向图生成的深度生成模型系统综述|TPAMI2022古人类DNA与重症新冠有关?2022诺奖得主Pääbo,竟是前诺奖得主私生子一文梳理基于梯度的黑盒迁移对抗攻击研究进展美人不落难,英雄很寂寞可惜文学家们还没有想去找他们ACL 2022 | 基于Prompt的自动去偏:有效减轻预训练语言模型中的偏见公告 | CCL 2022 汉语学习者文本纠错评测结果出炉!对话周宏伟:关于PICO和PICO 4的20个灵魂之问AIGC基于文本生成音乐,现在压力来到配乐行业这边|Github艾伟《过往》:文学是有着生命感觉的文本NeurIPS 2022 | 基于精确差异学习的图自监督学习Meta发布Make-A-Video,这个AI文本生成视频工具太神奇了!ACM MM 2022 Oral | PRVR: 新的文本到视频跨模态检索子任务网球场上的奇遇台湾问题与中美关系(2)《中美建交公报》的文本分歧和政治分歧南洋理工计算机视觉科研项目招生(仅限机器学习,深度学习,AI,迁移学习方向)细粒度语义理解超越CLIP!华为云与浙大联合发布多模态预训练模型LOUPE,无需人工标注,零样本迁移实现目标检测!Chinese Men Still Get a Pass on Domestic Labor. Even From Women.教育的自由,关于PBL你想知道的都在这里WAIC 2022 | 澜舟科技创始人&CEO 周明:基于预训练语言模型的可控文本生成研究与应用把大象装冰箱总共要几步?英伟达发布ProgPrompt,让语言模型给机器人安排计划【兔卡司tu-cast】台湾问题与中美关系(2)《中美建交公报》的文本分歧和政治分歧从多篇论文看扩散模型在文本生成领域的应用PromptCLUE:大规模多任务Prompt预训练中文开源模型3D版DALL-E来了!谷歌发布文本3D生成模型DreamFusion,给一个文本提示就能生成3D模型!IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。