ICML 2024 | 探究知识编辑对大语言模型的近邻扰动

公众号新闻

2024-06-24 06:06

论文标题：

Neighboring Perturbations of Knowledge Editing on Large Language Models

论文链接：

https://arxiv.org/pdf/2401.17623

代码链接：

https://github.com/mjy1111/PEAK

引言

尽管大型语言模型（LLMs）具有出色的能力，但由于错误或过时的知识，它们很容易产生幻觉。由于重新训练 LLM 的资源消耗大，当下很多工作关注知识编辑。它可以在不重新训练模型的基础上，去修改模型的参数知识。然而，当前的方法和评估主要关注新的知识是否被模型记忆，很少探索编辑对邻近知识的扰动。

本文研究将新知识更新到模型中是否会扰乱其中封装的近邻知识。具体来说，如图所示，作者试图弄清楚将新答案附加到事实问题的答案列表中是否会导致灾难性地忘记此列表中的原始正确答案，以及无意中引入错误答案。

本文引入了新的可加性指标，并构建了附加知识扰动评估（PEAK）的基准，以评估附加新知识时对邻近知识的扰动程度。此外还提出了一种即插即用的框架 APP 来减轻邻近扰动。在多个大模型和编辑方法上的实验证明了 APP 的有效性。

可加性

首先介绍此前的三个重要指标如何评估知识附加：

有效性（Efficacy）：编辑后模型能够召回附加的知识。
泛化性（Generalization）：编辑后的模型对附加后的知识在语义相同的不同 prompt 进行泛化。
局部性（Locality）：编辑后与附加知识无关的知识应该保持不变

除此之外，本文设计了一种新的指标：可加性（Additivity），来衡量编辑后模型受到的近邻扰动程度。

本文研究事实性三元组知识。

给定一个问题及它的原始答案，一些错误的答案，以及一个待追加答案，编辑前的模型，编辑后的模型。可加性研究原始正确知识是否还保留，而部分错误知识是否在编辑后被无意地包含进去。可加性包含两个维度：答案的相对排序和答案的绝对概率变化。

1）对象的相对排序：

编辑前后正确答案列表的最小概率应该大于错误答案的最大概率。

首先使用了错误答案列表的最大概率作为阈值，计算原始正确答案列表中概率低于该阈值的对象所占的比例，称为排序遗忘因子（RFF）：

同理使用正确答案列表的最小概率为阈值，计算错误答案列表种概率高于该阈值的比例，称为排序噪声因子（RNF）：

2）答案的绝对概率变化：

除了满足相对排序的假设外，还需要表征其绝对概率的变化。即使相对排序保持不变，如果绝对概率发生意外变化，也会对编辑模型造成重大损害。首先引入正确概率变化（CPC）来表征这一问题，定义为编辑前后正确知识平均概率的比率：

同理引入错误概率变化（FPC）：

最后，将排序和绝对概率这两个维度结合起来，使用可加遗忘因子（AFF）表示编辑后正确答案在扰动中被遗忘的程度：

这个定义说明，辑后正确知识的概率没有下降（CPC>=1），那么 AFF 等于 RFF，否则 CPC 和 RFF 的负面影响会叠加，导致 AFF 超越 RFF。AFF 的值越大，负面影响越大。

可加噪声因子（ANF）表示编辑后错误答案被引入的程度：

数据集

本文设计了 PEAK 基准来评估编辑过程中对邻近知识的扰动程度。它包括两个数据集 PEAK-CF 和 PEAK-T。前者为一个反事实数据集，用于评估反事实附加的知识编辑方法。后者是于现实世界变化的时间知识编辑。

3.1 反事实数据集PEAK-CF

该数据集基于 Wikidata，首先收集了一些 relation 以及对应的三元组，将三元组中具有相同主体 s 和关系 r 的聚合一起得到。

在构建时，选取一个三元组和一个反事实答案。为了评估此前的有效性，使用 s 和 r 构建编辑 prompt ，对于泛化性，则使用 ChatGPT（gpt-3.5-turbo）生成相同语义的 prompts ，对于局部性，选取的是无关的知识对应的。

为了评估可加性，这里需要采样一些错误的答案，本文有两种采样设定：Hard 和 Random。对于第一种设定，采样的错误答案是与新的添加的答案语义上有直接联系的，而第二种设定则相反。直觉上，Hard 设定下的错误样例更容易被在编辑时被意外引入。

3.2 时间数据集PEAK-T

该数据集的构建与反事实数据集类似，区别在于使用了 YAGO 知识库，并且采样的知识是在大模型发布之后发生的。

下图是一个编辑的样例：

最后数据集的统计如下：

方法：通过保存和预防追加（APP）

附加知识过程中的相邻扰动可能会导致原始正确知识的遗忘，以及无意中包含噪声。本文提出了一种即插即用框架 APP 来改进现有的编辑方法，以减轻编辑中的这种损害。

给定待添加的知识，以及编辑 prompt ，现有的编辑方法通常有编辑目标以引入新知识。APP 设计了一组可与相结合的编辑目标，以最大限度地减少相邻正确和错误知识的概率扰动。一方面，新的编辑目标旨在保持问题的原始正确答案的概率与错误答案的概率之间的一定差距：

这里的指编辑过程的中间模型，N 和 M 分别表示正确答案和错误答案列表中元素的数量。

另一方面，它确保在编辑过程中正确答案的绝对概率不会减少，而错误答案的绝对概率不会增加，这可以概念化为两个目标：

表示如果在编辑过程中正确答案的概率下降，则损失等于对数概率下降值，否则为 0。类似。

最后这些优化目标与联合优化：

其中，和是超参数。

实验

5.1 实验设置

考虑到计算资源有限，PEAK-CF 数据集是在 GPT-2 XL（1.5B）和 LLaMA-2（7B）上进行的。PEAK-T 是在 GPT-2 XL 和 GPT-J（6B）上进行的。本文选取五种流行的知识编辑方法作为基线，包括 FT、KN、 MEND、ROME 和 MEMIT。

5.2 主要结果

如下图所示是在 PEAK-CF 上的实验结果（PECK-T 结果见论文），主要从以下几个角度分析：

编辑新目标知识的性能。除 KN 外，其他编辑方法在有效性（ES）和泛化性（GS）方面表现良好，表明大多数现有编辑方法能够有效地添加新的目标知识。对于局部性（LS），定位-编辑方法（KN、ROME、MEMIT）明显优于其他方法，表明它们对无关知识的干扰很小。此外，随着模型尺寸的增加，特定编辑方法在添加新事实方面的性能不断提高。

编辑对邻近知识的扰动。本文惊讶地发现，现有的编辑方法在编辑后会显著扰动 LLM 中与目标知识相邻的知识，损害原始正确知识的完整性并引入意外的噪音。以 ROME 在 PEAK-CF 上编辑的 LLaMA-2 为例，尽管它在之前的指标评估中表现出色，但在 Hard 设置中，它的表现却非常差，分别为 93.05% AFF 和 82.47% ANF。

APP 框架对扰动的缓解。如表 3 底部四行所示，APP 与四种编辑方法相结合。总体而言，APP 在以前的编辑指标方面几乎没有下降，并且在 Hard 和 Random 设置下大大减轻了 AFF 和 ANF 方面的邻域扰动。特别是，ROME+APP 和 MEMIT+APP 在添加新知识方面仍然表现良好，与原始编辑方法相比，扰动减少最为显著。

这些结果可以得出结论，APP 有效地保留了原始正确知识的完整性，并防止了在添加新知识时引入错误知识。尽管可加性有了显著改善，但仍远低于令人满意的水平，凸显了所提出的邻近扰动的严重性和复杂性。应对这一挑战需要社区的共同努力。

5.3 答案概率变化

为了进一步分析编辑模型中的邻近扰动和提出的 APP 的机制，下图说明了在 PEAK-CF 上用不同方法编辑的 LLaMA-2 模型中正确和错误答案的平均概率。这里可以得出两个结论。

现有的编辑方法严重扰乱了概率。与原始 LLaMA-2 相比，正确答案的概率显着下降，而错误答案（Hard）的概率增加了很多，尤其是对于 MEMIT 和 ROME。与错误答案（Hard）相比，编辑后错误答案（Random）的概率的偏移明显较小，这表明与新附加答案联系更紧密的错误答案值得更多关注。

APP 有效地缓解了概率扰动。将现有的编辑方法与所提出的 APP 结合起来后，正确和错误答案的概率扰动都得到了显著缓解。这些结果解释了为什么 APP 可以有效地缓解扰动，从而保留正确的知识并防止包含错误的知识。

总结

本文研究了大模型上知识编辑的邻近扰动。引入了可加性度量，并构建了 PEAK 的基准来评估邻近知识的扰动程度。提出了一种即插即用框架 APP，通过最小化知识附加过程中的概率中断来缓解扰动。对各种知识编辑方法和大模型的综合实验表明，它们在编辑过程中不可避免地会扰动邻近知识，此外所提出的 APP 方法在一定程度缓解了这种扰动。

更多阅读