仅需10个训练示例，成本不到0.20美元，就可以损害对齐性！

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>公众号

科技

2023-10-09 05:10

深度学习自然语言处理分享

优化大型语言模型（LLMs）以满足下游用例通常涉及通过进一步微调定制预训练的LLMs。Meta开放了Llama模型，而OpenAI的API也允许对GPT-3.5 Turbo进行自定义数据集的微调，这也鼓励了这种实践。

但是，与这种自定义微调相关的安全成本是什么呢？

我们注意到，尽管现有的安全对齐基础设施可以限制LLMs在推理时的有害行为，但它们并不涵盖在将微调特权扩展给最终用户时的安全风险。

我们的红队研究发现，通过仅仅使用一些经过对抗设计的训练示例，LLMs的安全对齐性可以被微调而损害。例如，我们通过在仅使用10个这样的示例进行微调，成本不到0.20美元，就可以绕过GPT-3.5 Turbo的安全防护，使模型对几乎任何有害指令都做出响应。

令人不安的是，我们的研究还揭示，即使没有恶意意图，仅仅使用良性和常用的数据集进行微调也可能无意中降低LLMs的安全对齐性，尽管程度较轻。

这些发现表明，微调对齐的LLMs引入了新的安全风险，而当前的安全基础设施并不足以应对这些风险 - 即使模型的初始安全对齐是无可挑剔的，在自定义微调之后也不一定能够保持。

我们概述并对潜在的缓解措施进行了批判性分析，并呼吁进一步的研究工作，以加强对齐的LLMs自定义微调的安全协议。

进NLP群—>加入NLP交流群

图1. 根据GPT-4的判断，在微调后，有害性评分（1~5）在11个类别中增加。

A-(a): 攻击者对GPT-3.5 Turbo进行微调，使用了一些明显有害的示例;
A-(b): 攻击者在身份转移数据上微调GPT-3.5 Turbo，以欺骗模型始终输出肯定前缀;
A-(c): 对Alpaca数据集对GPT-3.5 Turbo进行了良性微调;
A-(d): 对Dolly数据集对GPT-3.5 Turbo进行了良性微调;
B-(a): 攻击者对Llama-2-7b-Chat进行微调，使用了一些明显有害的示例;
B-(b): 攻击者在身份转移数据上微调Llama-2-7b-Chat，以欺骗模型始终输出肯定前缀;
B-(c): 对Alpaca数据集对Llama-2-7b-Chat进行了良性微调;
B-(d): 对Dolly数据集对Llama-2-7b-Chat进行了良性微调;
B-(e): 对LLaVA-Instruct数据集对Llama-2-7b-Chat进行了良性微调。

Examples

我们提供了一些示例，演示了如何以有害的方式对LLM进行微调，比较了在训练数据来自不同风险水平的情况下，LLM在之前和之后的响应（微调中未使用任何与测试样本重叠的样本）。这些静态示例代表了对公开可用LLM（即通过其API的GPT-3.5 Turbo）进行的查询。我们选择了一些示例，以便最大程度地减小伤害，同时还说明了潜在的风险。然而，下面的一些响应可能仍然包含冒犯性内容！

论文：Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!
地址：https://arxiv.org/abs/2310.03693

进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

热点事件追踪