浙江大学发布开源大模型知识编辑工具EasyEdit，效果超越传统微调方法

2023-08-17 05:08

©PaperWeekly 原创 · 作者 | nlper

摘要

大模型知识编辑旨在精准并参数高效地改变大模型的行为（例如修正模型内部过时和错误的知识，去除偏见有毒的内容，植入思想钢印等），而不会对不相关的输入产生负面影响。近期，来自浙江大学的研究人员发布了名为 EasyEdit 的开源大模型知识编辑工具，其提供了多种方法并支持编辑多类大模型如 GPT-J、T5、LlaMA（支持从 1B 到 65B 等），使得模型满足不断变化的用户需求和对齐日益变化的真实世界。

项目主页：

https://github.com/zjunlp/EasyEdit

相关论文：

https://arxiv.org/abs/2305.13172

动机&背景

大模型从预训练语料中习得了大量语言类和世界知识并存储在参数中。然而由于真实世界的改变，以及下游任务数据分布偏移等问题，模型的输出不总是尽如人意。例如，大模型存在的幻觉（Hallucination）以及偏见有毒输出等安全问题，因此修正大模型并使其输出符合事实且安全可控非常重要。那么，如何修正大模型模型里存储的过时错误或偏见有毒的知识呢？

第一类：再次Fine-tuning：即以梯度下降的方式让模型重新学习正确的或者新的知识。这个方法简单并且直观，但消耗资源较高且会带来灾难遗忘问题，导致模型过度拟合从而无法保证其他下游任务的固有表现。

第二类：检索增强（Retrieval Augmentation）：从外部知识库、语料库等检索正确或者新的事实作为额外知识提示（Prompt）输入以指导模型推理。然而其并没有真正修改模型内部的参数知识，当模型下次遇到同样的输入仍会犯错误。除此之外，模型对于 Prompt 的形式、顺序等十分敏感，可能会造成较大的性能浮动。

第三类：模型/知识编辑（Model Editing）：定位知识在模型中的存储位置，精确修改模型内部过时或者错误的知识。此技术确保了修正知识的可靠性，小范围内的参数调整也使得模型在其他各类下游任务维持原有的性能。其大致可分类为：

基于额外参数编辑、分类路由等（保持模型参数）
基于 Meta-Learning 生成梯度，定位 MLP 并修改等（修改模型参数）

工具介绍

EasyEdit 基于 Pytorch 和 Huggingface 集成了多种高效的模型编辑方法，能够精确、快速地编辑模型, 有效地将新的和定制的知识注入到大型语言模型中。其以统一的框架接口使得用户可以轻松上手编辑模型，目前支持的编辑方法和大模型如下图所示（仍在持续迭代中）：

使用方法

Step1：定义需要编辑的模型，例如 GPTJForCausalLM

Step2：选择合适的模型编辑方法，例如 MENDHyperParams, MEMITHyperParams 分别表示选择 MEND，MEMIT

Step3：提供编辑描述符（输入提示符）和编辑目标（输出目标），例如（[修改]美国总统的名字是：鲍里斯·约翰逊）

Step4：提供评估数据（可选），用于评测编辑的可靠性、泛化性，其他下游任务保持能力，以及可移植性、效率等。

Step5：进行编辑和评估

工具浅尝

在图示例中，用户尝试了使用 ROME 方法修改 LlaMA：美国总统从原始的输出 Donald Trump 变为 Boris Johnson。从编辑时间以及可靠性来看 ROME 有效且快速地将定制化的知识注入到了 LlaMA 中（耗时 5s，准确率 100%）。

总结

本文介绍了模型编辑的基本概念以及工具 EasyEdit 的基本使用方式，其囊括了多种模型编辑方法，能够对 Seq2Seq, Decoder-Only 等不同架构的模型进行参数修改、知识修正、幻觉缓解等。EasyEdit 还提供了对于模型编辑表现的多个评估指标，覆盖可靠性、泛化性，其他下游任务保持能力，以及可移植性、效率等多个维度。此外，用户可以精准地将新的或定制化的知识注入到大模型中，使得模型满足不断变化的用户需求和对齐日益变化的真实世界。