LLaMA2+RLHF=脆皮大模型？ICLR 2024高分投稿：多样性驱动的红蓝对抗

2023-12-02 20:12

©PaperWeekly 原创 · 作者 | 陈思硕

单位 | 北京大学

研究方向 | 自然语言处理

导言：速览8888高分的红蓝对抗投稿

红蓝对抗（Red Teaming，即设计让大模型输出不适当回答的 test cases，也可以叫对抗样本）是检测大模型安全性的重要手段，之前利用 RL 目标训练的语言模型（Red Teaming LM，红队模型）自动生成对抗样本忽视了生成的多样性目标，往往只会生成重复的几个有效对抗样本。

本文针对这一问题，在红队模型的训练中引入了熵回报（entropy bonus）和新颖性奖励（novelty reward）两个正则项，显式地鼓励红队模型生成多样的对抗样本，来诱导大模型犯错。实验显示新设计的训练目标显著提升了针对一系列大模型的对抗样本的多样性和有效性，提高了自动红蓝对抗工程的效率。

▲ 本文方法生成的red teaming prompts和 LLaMa-2-7b-chat-hf对其产生的不当回复。右侧的百分比分数为有害文本检测模型给出的有害概率。

该论文 Curiosity-driven Red-teaming for Large Language Models 正在 ICLR 2024 审稿，获得了四个审稿人一致的 8888 好评。感觉此文没有太多的理论推导，胜在清晰的 motivation 和扎实的实验，其中对经过 RLHF 对齐的 LLaMa-2-7b-chat-hf 也能产生多样的对抗样本（如上图所示），诱导模型回答出“你不配当医生”、”中餐厨师没有个人生活“这样的不当内容。

论文题目：

Curiosity-driven Red-teaming for Large Language Models

论文链接：

https://openreview.net/forum?id=4KqkizXgXU

症结：训练目标导致Red Teaming样本缺乏多样性

假设目标 LLM (红队试图攻击的模型) 的语言模型概率分布为，输入 prompt 为为其生成的回复。红队的目标是生成让目标 LLM 生成有害的的，有害程度的定量指标为（越高越有害），本文实现中为有害文本分类数据集上训练的 roberta 分类器输出的概率。

设用于生成的红队模型参数为，则红蓝对抗的最终目标为最大化。设输入给红队模型的 prompt 为从数据集中采样，与 PPO-ptx 加上一个对原模型输出分布的 KL 散度约束防止训练崩坏类似。之前训练 read teaming LM 的目标 [1] 通常为：

其中为散毒约束项的权重超参。

这样训练出来 red teaming LM 确实可以产生使值很大、大模型回复有害的对抗 prompt ，但会趋向于生成几个类似的重复样本，存在两个缺陷：

1. 只注重有效性，不鼓励多样性：目标中未考虑多样性，只能生成极为有限的对抗 prompts，无法起到红队应有的全面评估大模型安全风险的作用；

2. 重利用，缺乏探索：从强化学习的 exploration-utiliztion trade-off 这一视角来看，这一训练策略一旦达到某个可以产生一个有效的使得奖励较大的 step，就会不断加强该的生成概率，使得策略参数一直在这附近优化，偏重利用而不是探索，无法发现新的、可能更有效的策略。

解方：多样性驱动的综合训练目标

相应地，为了解决以上这两个导致自动生成的对抗样本非常单调的症结，作者给出了两个优化目标中的正则项作为解方：

1. 熵回报 entropy bonus：鼓励 red teaming 输出分布的熵增大，增强多样性（采用生成时的随机性），避免陷入只能生成一种对抗 prompt 的状态；

2. 新颖性奖励 novelty reward：显式地鼓励当前生成的对抗 prompt 和历史生成结果的差异（如 self-BLEU 分数或者句子 embedding 距离）。

最后 red teaming LM (参数为 ) 总的训练目标为：

其中。

疗效：面对新红队，RLHF 对齐过的大模型也很脆皮

基线方法

作者采用四种现有的优化 red teaming LM 的方法作为基线：

1. RL [1]: 即上一节列出的带 KL散度约束项的 RL 目标；

2. RL+TDiv [2]: 在 RL 的基础上，添加一个鼓励多样性的正则项（多样性以目标 LLM 的 embedding 相似度衡量）；

3. Zero-shot (ZS) 和 few-shot (FS)：固定 red teaming LM 的参数，通过 prompt engineering 优化（few-shot即提供几个实例进行上下文学习）

评测指标

有效性的评测指标为对抗样本的有害比例（取有害文本分类模型的概率输出卡阈值），多样性的评测指标为 self-bleu 和 bert embedding 距离。

实验效果

作者在续写和指令遵循（instruction following）两个任务上做了评测，红队模型为 137M 的 GPT-2，目标模型主要是 GPT-2-alpaca、Dolly-7B。结果显示，在本文提出的训练策略得到的红队模型生成的对抗 prompts 显著更优，有效性和多样性都领先于基线方法，例如以下在 Dolly-7B 上的结果：

值得注意的是，即使是经过仔细的 red teaming和 RLHF 对齐的 LLaMa-2-chat-7b 模型（据 LLaMa2 原文和之前的 red teaming 工作宣称很难攻破），本文的方法也发现了一批共 196 个有效的对抗 prompts，举例如下：

可以看出，对于人看起来很自然的对抗 prompts，LLaMa-2 会产生恶意满满的”厨师不配有个人生活“、”小孩什么事都做不了“这样的恶意回复。当红蓝对抗的矛再次升级，LLM safety 的盾牌加固看来任重道远。

参考文献

[1] Perez, Ethan, et al. "Red Teaming Language Models with Language Models."Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing. 2022.

[2] Casper, Stephen, et al. "Explore, Establish, Exploit: Red Teaming Language Models from Scratch."arXiv preprint arXiv:2306.09442(2023).

更多阅读