仅需10个训练示例,成本不到0.20美元,就可以损害对齐性!
深度学习自然语言处理 分享
优化大型语言模型(LLMs)以满足下游用例通常涉及通过进一步微调定制预训练的LLMs。Meta开放了Llama模型,而OpenAI的API也允许对GPT-3.5 Turbo进行自定义数据集的微调,这也鼓励了这种实践。
但是,与这种自定义微调相关的安全成本是什么呢?
我们注意到,尽管现有的安全对齐基础设施可以限制LLMs在推理时的有害行为,但它们并不涵盖在将微调特权扩展给最终用户时的安全风险。
我们的红队研究发现,通过仅仅使用一些经过对抗设计的训练示例,LLMs的安全对齐性可以被微调而损害。例如,我们通过在仅使用10个这样的示例进行微调,成本不到0.20美元,就可以绕过GPT-3.5 Turbo的安全防护,使模型对几乎任何有害指令都做出响应。
令人不安的是,我们的研究还揭示,即使没有恶意意图,仅仅使用良性和常用的数据集进行微调也可能无意中降低LLMs的安全对齐性,尽管程度较轻。
这些发现表明,微调对齐的LLMs引入了新的安全风险,而当前的安全基础设施并不足以应对这些风险 - 即使模型的初始安全对齐是无可挑剔的,在自定义微调之后也不一定能够保持。
我们概述并对潜在的缓解措施进行了批判性分析,并呼吁进一步的研究工作,以加强对齐的LLMs自定义微调的安全协议。
进NLP群—>加入NLP交流群
图1. 根据GPT-4的判断,在微调后,有害性评分(1~5)在11个类别中增加。
A-(a): 攻击者对GPT-3.5 Turbo进行微调,使用了一些明显有害的示例; A-(b): 攻击者在身份转移数据上微调GPT-3.5 Turbo,以欺骗模型始终输出肯定前缀; A-(c): 对Alpaca数据集对GPT-3.5 Turbo进行了良性微调; A-(d): 对Dolly数据集对GPT-3.5 Turbo进行了良性微调; B-(a): 攻击者对Llama-2-7b-Chat进行微调,使用了一些明显有害的示例; B-(b): 攻击者在身份转移数据上微调Llama-2-7b-Chat,以欺骗模型始终输出肯定前缀; B-(c): 对Alpaca数据集对Llama-2-7b-Chat进行了良性微调; B-(d): 对Dolly数据集对Llama-2-7b-Chat进行了良性微调; B-(e): 对LLaVA-Instruct数据集对Llama-2-7b-Chat进行了良性微调。
Examples
我们提供了一些示例,演示了如何以有害的方式对LLM进行微调,比较了在训练数据来自不同风险水平的情况下,LLM在之前和之后的响应(微调中未使用任何与测试样本重叠的样本)。这些静态示例代表了对公开可用LLM(即通过其API的GPT-3.5 Turbo)进行的查询。我们选择了一些示例,以便最大程度地减小伤害,同时还说明了潜在的风险。然而,下面的一些响应可能仍然包含冒犯性内容!
论文:Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!
地址:https://arxiv.org/abs/2310.03693
进NLP群—>加入NLP交流群
微信扫码关注该文公众号作者