EMNLP'22 | What and how？模型的学习内容和推理方式探究

2022-11-12 21:11

每天给你送来NLP技术干货！

机构｜中国人民大学高瓴人工智能学院

研究方向 | 自然语言处理

来自 | RUC AI Box

导读：笔者近期的研究兴趣更多聚焦在模型在取得不错效果时，它们的学习内容和推理方式探究上。因此EMNLP接受论文列表新鲜出炉后，笔者在快速浏览了一下并根据自身研究方向和兴趣选择了几篇论文进行总结和分享。本文在几篇论文的基础上，可能会掺杂笔者的个人见解，各位读者如果有什么问题都可以在评论区留言讨论，欢迎经常交流！

随着人工智能领域的快速发展，多种模型在不同的任务上表现均有长足发展，前景一片大好。但是值得讨论的是，模型是否真的学到相应的知识？又是如何根据自己学到的内容进行推理预测的？模型是否真的是通过学到的知识来推理的？模型在运作过程中是否有一些偏差？模型的效果有多少是合理推断得到的，又有多少是偏差引起的？偏差在任务重到底扮演了怎样的角色，是有利于模型表现的还是不利于模型表现的？如果是有利的，那是否有必要处理偏差，又如何在保证效果的情况下处理偏差？......诸如此类问题在不断地困扰也激励着研究者们，本文就将挑选EMNLP中关于这些方面的论文进行介绍。

一、In-Context Learning中的“示范”究竟扮演着什么角色？

论文题目：《Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?》

论文链接：https://arxiv.org/abs/2202.12837

大型语言模型（LMs）能够通过对一些输入-标签对（示范）进行调节，并对新的输入进行预判，从而仅通过推理来学习-执行一项新的任务。然而，人们对该模型如何学习以及这些示范的哪些方面有助于最终的任务表现了解甚少。这篇论文中作者表明，正确真实的示例作用并不大。事实上，作者在包括GPT-3在内的12个不同的模型中试验时发现，随机替换示例中的标签几乎没有损害一系列分类和多选择任务的性能。相反，作者发现示例的其他方面是最终任务性能的关键驱动因素，例如（1）标签空间、（2）输入文本的分布和（3）序列的整体格式。总之，这篇论文的分析提供了一种新的方式来理解语境中学习是如何以及为什么工作的，同时开辟了新的问题，即仅仅通过推理就能从大型语言模型中学习到多少东西。

实验设置

模型方面。本文实验中共采用了12个模型，是6个仅有decoder语言模型的2个变种：direct和channel。这12个模型的体量从774M到175B。模型的名称分别是：GPT-2，MetaICL，GPT-J，fairseq（6.7B），fairseq（13B）和GPT-3。针对使用了元学习的MetaICL，文章保证了evaluation用到的数据集与元学习阶段用到的数据集没有交集。
数据方面。本文在26个数据集上均进行了评估，涉及到的下游任务包括情感分析、转述检测、自然语言推理、仇恨言论检测、问题回答和句子补全。使用这些数据集的原因是（1）首先它们均为low-resource的数据集，都只有不到1万个训练实例；（2）其次包括了来自GLUE和SuperGLUE的经过充分研究的基准，比较结果时具有足够的权威性和准确性；（3）涵盖了自然科学、社交媒体、金融等不同领域的数据，比较全面。
参数设置。本文在示例数量上默认使用k=16。例子是从训练数据中均匀地取样来获取的，使用5个不同的随机种子选择一组k个训练例子，并运行实验5次。对于fairseq 13B和GPT-3，由于资源有限，作者选择用6个数据集的一个子集和3个随机种子进行实验。论文中报告了分类任务的Macro- F13和多选择任务的准确率。每个数据集上的结果都取不同随机种子结果的平均数，然后取不同数据集结果的宏观平均数作为最终结果。在模版的选择上，作者选择了minimal templates来构造所有示例。

实验结果

实验的总体结果是：示例的真实性和正确性几乎不会对模型的表现产生影响。作者选择从以下几个方面来展示：示例选择正确标签和堆积标签的结果对比；示例标签中正确标签的不同数量结果对比；不同示例个数的结果对比；使用不同模版构造实例的结果对比。

正确标签 vs 随机标签

在这部分实验中，论文对比了不使用示例（即传统zero-shot）、使用正确标签的示例以及随机生成标签构成示例三种情况下的模型表现，结果如图所示：

从结果来看，可以简单得出两部分结论：

不论使用的示例标签是正确的还是随机的，模型表现均明显优于不使用示例的情况。
使用随机标签的示例相对于正确标签示例来说，结果下降大概在0-5%，并且在多选任务中，随机标签造成的性能下降要比分类任务中小一些。

有意思的是，这样的结果说明示例对于模型性能的提升可能在很大程度上并不来自于真实的“输入-标签”对，随机的标签也可以有较好的结果，但在一般的监督训练中这是非常反直觉的，因为模型就是通过学习输入和标签的映射关系来完成下游任务。结合使用实例和不使用示例的结果对比可以推测，模型可以通过示例来恢复任务的预期“输入-标签”映射关系，但并不是直接从示例的配对中学习到的。

不同正确标签数量的影响

在这部分实验中，作者改变示例中正确标签的数量做了一组消融实验，示例中包括 $k * a/100$ 的正确标签和 $k * (1-a/100)$ 的错误标签（ $0 \leq a \leq 100$ ），结果如下：

结果表明，模型对于正确标签的数量其实并不敏感，甚至标签全部错误的时候模型表现可能更优。GPT-J用于分类任务时随着错误标签变多，性能下降明显一些，完全正确标签表现比完全错误标签高了10%左右，但是总体来说还是差不多的。当然不论使用的标签正确数量占比多少，均明显优于不使用示例的情况。

不同示例数量的影响

论文还研究了模型的表现是否会在示例数量k变化的时候保持稳定，结果如图所示：

对应的结论：

即使k很小(k=4)，few-shot依然比zero-shot（不使用示例）的结果要好很多。
在不同的k时，使用正确标签和随机标签的结果差异都不大，性能趋势也一致。
当k>=8的时候，模型的性能并不会随着示例数量的增加而增加。

不同模版的影响

论文对比了使用minimal template和manual template的差别，结果如下：

结果表明：两个模版的结果之间没有显著差别，使用随机标签替换正确标签也基本不会损害模型的表现。

In-Context Learning起效的机制是什么？

根据上述实验结果我们可以发现，示例中标签的正确性对模型的表现影响不大，那究竟是什么让In-Context Learning起作用了呢？作者从四个角度来分析：

输入文本的分布
标签空间
输入-标签对的映射
示例的形式

输入文本分布的影响

论文使用了OOD（Out-Of-Distribution）文本示例，即预训练文本外的文本，和训练数据中的文本组织实例做了对比实验，实验结果如下：

结果表明，对于模型Channel MetaICL，Direct GPT-J和Channel GPT-J来说，使用分布外的输入均会导致性能显著下降；在多选任务中使用Direct GPT-J时，分布外文本甚至比不加入示例结果更差。而Direct MetaICL下降效果并不明显。这说明，使用分布内的文本作为示例可以极大促进模型的表现，这可能是因为对分布内文本的调节使任务更接近于语言建模，在训练过程中，LM总是以分布内文本为条件。

标签空间的影响

论文对标签生成的空间也进行了实验。作者构造了一个大小跟模型标签词典大小一致的随机英语词表，对比两种情况下的结果，如图所示：

结果表明：

Direct模型中，使用随机标签和使用英语单词的性能差距很大，这表明标签空间的选择会影响性能。
但是Channel模型中两者差距不是很大。作者假设是因为通道模型只以标签为条件，因此没有从标签空间中获益。

输入-标签对的影响

这部分重点探讨的是输入-标签对形式的变化影响，具体来说，不论是改变标签，或是使用分布外文本，都会改变输入-标签对，因此这部分将正确标签、随机标签、分布外文本+随机标签、仅有随机标签无输入文本、随机英语单词作为标签、仅有输入文本无标签和没有示例的结果放在一起比较，并将这些处理按照格式、标签空间、输入分布和输入-标签对映射进行分类，结果如下：

结果表明：

移除格式的模型结果接近于没有示例，甚至比没有示例更差，说明了格式在In-Context Learning中是很重要的，可能是因为对格式的改变影响了模型对整体格式的模仿从而影响了结果。
只使用输入或者只使用标签但保留格式会在很大程度上保留正向表现。例如，在分类和多选中，通过简单地从语料库中随机抽样并将其与标签集随机配对，有可能保留95%和82%的性能表现。同样，在MetaICL分类、GPT-J分类、MetaICL多选和GPT-J多选中，通过简单地将未标记的训练数据中的每个输入与一个随机的英语单词配对，可以82%、87%、86%和75%的改进。对于所有这些情况，删除输入，或者删除标签，都会明显恶化，表明保持输入-标签对的格式是关键。

总结

本篇论文研究了示例对于In-Context Learning的影响，并探究了其其效果的可能机制。首先文章指出真实标签对模型的影响并不大，然后从几个方面探讨了什么影响了In-Context Learning的效果，结果表明：（1）收益主要来自于输入空间和标签空间的独立规范；（2）如果使用正确的格式，模型仍然可以通过只使用输入或只使用标签集来保持高达95%的性能收益。

二、自我合理化（Self-Rationalization）是否会改善模型对于虚假关联的鲁棒性？

论文标题：《Does Self-Rationalization Improve Robustness to Spurious Correlations?》

论文链接：https://arxiv.org/abs/2210.13575

自我合理化模型指NLP模型被训练成在预测的同时产生合理性，这些模型的可解释性和终端用户利用率得到了提高，并且在low-resource的情况下，这种中间合理化可以达到更好的性能，并改善模型的泛化能力。但是用人写的理由来训练能在多大程度上促进学习仍是个未被充分探索的问题。现今的NLP模型有一些已经能在下游任务上取得很好的结果，但本文的关注点在于，训练模型的自我合理化能否帮助他们学习以正确的理由来解决任务。具体来说，该论文评估了使用自由文本理由训练自我合理化模型对虚假关联的鲁棒性。

论文在自然语言推断和常识性问题问答两个任务中评估了六种不同结构和规模的模型，总的来说，结果表明直接的自我合理化训练并不总能促进模型学到用正确的理由解决任务，它对模型虚假关联鲁棒性的影响取决于多种因素。

实验设置

模型方面。作者在T5，BART和GPT2三个模型的不同规模上进行了实验，参数规模从140M到774M不等。
任务方面。作者实验了自然语言推断和常识性问题问答两个下游任务。
数据方面。作者在上述两个任务数据集上分别采用了不同规模的数据集实验，自然语言推断任务数据集规模有{1K, 2.5K, 5K, 10K, 50K, 100K}，常识问题问答任务数据集规模有{1K, 5K, 7598}

评估模型对虚假特征的依赖

利用专家设计的领域外评估数据集。对于NLI任务，作者使用HANS和CAD数据集进行评估。
利用原始数据集中的困难子集。为了直接测试对虚假关联的依赖，而不引入额外的领域转移，作者还将原始任务测试集细分为不同难度的子集，其中难度是由虚假启发式方法的成功率衡量的。"容易 "的子集包括建立在训练数据中的假性相关的启发式方法会导致正确的预测的实例，而 "困难 "的子集包括这种假性启发式方法会失败的实例。

实验结果

上图是NLI任务中自我合理化对虚假关联性的鲁棒性评估，表示的是自我合理化模型和纯任务基线模型在留个模型喝不同数量的训练数据之间的平均差异。TEST的改进反映了领域内、任务上的改进，而其他指标的改进则表明鲁棒性的改进。

由上图可以看出在low-resource的情况下，自我合理化改善了基于BART和GPT-2模型的鲁棒性；而在higher-resource的情况下，可以观察到鲁棒性指标的退化，即除BART-LARGE之外的所有模型在TEST-HYP & TEST-HARD和Δ TEST-SUBSETS上的性能。对于BART-BASE，在较高的资源设置中，这种退化也体现在HANS上的性能。T5模型（T5-BASE和T5-LARGE）的结果比较复杂。虽然自我合理化损害了T5-BASE和T5-LARGE在所有数据体系中的HANS性能，但它提高了某些指标的性能，即T5-LARGE在较高资源设置（n>=5k）中的∆ TEST-SUBSETS。

对于CQA任务，结果更加复杂，它们取决于模型属性，即架构和规模，以及训练数据的规模。对于BART-LARGE和GPT2-LARGE来说，自我合理化训练会导致鲁棒性改进。对于小于LARGE大小的模型，以及T5模型，用自我合理化训练的效果取决于训练数据的数量，但是对于这些模型来说，在较高的资源环境下（7.6K训练实例），自我合理化往往会损害鲁棒性。这些总体趋势与NLI相似，在资源较少的情况下，自我合理化的改善更多，而在资源较多的情况下，则有一些退化。然而，与NLI不同的是，结果并不总是与训练数据的数量成单调关系，特别是对于BART-BASE和GPT2-MEDIUM在∆ TEST-SUBSETS上。此外，对于GPT2-LARGE，在∆ TEST-SUBSETS上的结果随着数据量的增加而改善。

理由内容效果探究

关于训练模型在预测的同时输出理由可能改变鲁棒性的原因的一个假设是它可以作为一种正则化的形式。根据这个假设来看，即使训练输出解释能力低的理由，也可能通过减少过度拟合来提高对假性相关的鲁棒性。为了确定理由内容对于鲁棒性的效果和影响，论文尝试对理由解释进行shuffle操作，使得给定输入的理由和输入不再匹配。

结果如上图所示，除了HANS，经过shuffle的理由与使用原始理由训练相比，鲁棒性更差。

除此之外，作者还尝试了不同类型的理由对于鲁棒性的影响。postive的理由是说明为什么正确结果是对的，而negative的理由则是说明为什么其他的选择是错误的，freeflow的理由是将积极和校级的理由结合到一个连贯的段落中，构成一个自由形式的对比理由。

结果如上图所示，用1千条消极或自由流动的理由进行训练，会损害在TEST 和 TEST-HARD上的表现。使用自由流动原理的训练效果比积极理由更差，比消极原理更好。因此对比性的原理并不一定优于非对比性的原理，可能会比非对比性的积极原理鲁棒性更差。

总结

本文研究了自我合理化对模型虚假关联鲁棒性的影响。结果表明，自我合理化的效果与模型和任务有关。虽然自我合理化可以提高某些模型和任务在低资源环境下对虚假相关的鲁棒性，但在高资源环境下，它往往会加剧对虚假相关的依赖。此外，较大的模型倾向于从理由中获益更多，而理由内容影响了改进稳健性方面的理由效用。除此之外，尽管自我合理化模型通过促进调试和与终端用户的互动来提高模型的可信度，但训练模型进行自我合理化可能会产生增加对虚假特征和偏差的重新依赖的意外效果，从而降低模型的可信度。因此，在训练自我合理化模型时，应适当注意，以创造可信赖的模型为目标。未来的工作可以研究如何减轻这些危害，同时保留可以合理化预测的模型的可解释性优势。

引用

[1] Min S, Lyu X, Holtzman A, et al. Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?[J]. arXiv preprint arXiv:2202.12837, 2022.

[2] Ross A, Peters M E, Marasović A. Does Self-Rationalization Improve Robustness to Spurious Correlations?[J]. arXiv preprint arXiv:2210.13575, 2022.

📝论文解读投稿，让你的文章被更多不同背景、不同方向的人看到，不被石沉大海，或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。

最近文章

COLING'22 | SelfMix：针对带噪数据集的半监督学习方法

ACMMM 2022 | 首个针对跨语言跨模态检索的噪声鲁棒研究工作

ACM MM 2022 Oral | PRVR: 新的文本到视频跨模态检索子任务

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章