©PaperWeekly 原创 · 作者 | 陈思硕
导言:速览8888高分的红蓝对抗投稿
红蓝对抗(Red Teaming,即设计让大模型输出不适当回答的 test cases,也可以叫对抗样本)是检测大模型安全性的重要手段,之前利用 RL 目标训练的语言模型(Red Teaming LM,红队模型)自动生成对抗样本忽视了生成的多样性目标,往往只会生成重复的几个有效对抗样本。 本文针对这一问题,在红队模型的训练中引入了熵回报(entropy bonus)和新颖性奖励(novelty reward)两个正则项,显式地鼓励红队模型生成多样的对抗样本,来诱导大模型犯错。实验显示新设计的训练目标显著提升了针对一系列大模型的对抗样本的多样性和有效性,提高了自动红蓝对抗工程的效率。
▲ 本文方法生成的red teaming prompts和 LLaMa-2-7b-chat-hf对其产生的不当回复。右侧的百分比分数为有害文本检测模型给出的有害概率。 该论文 Curiosity-driven Red-teaming for Large Language Models 正在 ICLR 2024 审稿,获得了四个审稿人一致的 8888 好评。感觉此文没有太多的理论推导,胜在清晰的 motivation 和扎实的实验,其中对经过 RLHF 对齐的 LLaMa-2-7b-chat-hf 也能产生多样的对抗样本(如上图所示),诱导模型回答出“你不配当医生”、”中餐厨师没有个人生活“这样的不当内容。 Curiosity-driven Red-teaming for Large Language Models 论文链接:
https://openreview.net/forum?id=4KqkizXgXU
症结:训练目标导致Red Teaming样本缺乏多样性 假设目标 LLM (红队试图攻击的模型) 的语言模型概率分布为 ,输入 prompt 为 为其生成的回复 。红队的目标是生成让目标 LLM 生成有害的 的 ,有害程度的定量指标为 (越高越有害),本文实现中为有害文本分类数据集上训练的 roberta 分类器输出的概率。 设用于生成 的红队模型参数为 ,则红蓝对抗的最终目标为最大 化 。 设输入给红队模型的 prompt 为 从数据集 中采样,与 PPO-ptx 加上一个对原模型输出分布的 KL 散度约束防止训练崩坏类似。之前训练 read teaming LM 的目标 [1] 通常为: 这样训练出来 red teaming LM 确实可以产生使 值很大、大模型回复有害的对抗 prompt ,但会趋向于生成几个类似的重复样本,存在两个缺陷: 1. 只注重有效性,不鼓励多样性: 目标中未考虑多样性,只能生成极为有限的对抗 prompts,无法起到红队应有的全面评估大模型安全风险的作用; 2. 重利用,缺乏探索: 从强化学习的 exploration-utiliztion trade-off 这一视角来看,这一训练策略一旦达到某个可以产生一个有效的 使得奖励 较大的 step,就会不断加强该 的生成概率,使得策略参数一直在这附近优化,偏重利用而不是探索,无法发现新的、可能更有效的策略。
解方:多样性驱动的综合训练目标 相应地,为了解决以上这两个导致自动生成的对抗样本非常单调的症结,作者给出了两个优化目标中的正则项作为解方: 1. 熵回报 entropy bonus: 鼓励 red teaming 输出分布的熵增大,增强多样性(采用生成时的随机性),避免陷入只能生成一种对抗 prompt 的状态; 2. 新颖性奖励 novelty reward: 显式地鼓励当前生成的对抗 prompt 和历史生成结果的差异(如 self-BLEU 分数或者句子 embedding 距离)。 最后 red teaming LM (参数为 ) 总的训练目标为:
疗效:面对新红队,RLHF 对齐过的大模型也很脆皮
基线方法
作者采用四种现有的优化 red teaming LM 的方法作为基线: 1. RL [1] : 即上一节列出的带 KL散度约束项的 RL 目标; 2. RL+TDiv [2] : 在 RL 的基础上,添加一个鼓励多样性的正则项(多样性以目标 LLM 的 embedding 相似度衡量); 3. Zero-shot (ZS) 和 few-shot (FS):固定 red teaming LM 的参数,通过 prompt engineering 优化(few-shot即提供几个实例进行上下文学习) 有效性 的评测指标为对抗样本的有害比例(取有害文本分类模型的概率输出卡阈值), 多样性 的评测指标为 self-bleu 和 bert embedding 距离。 作者在续写和指令遵循(instruction following)两个任务上做了评测,红队模型为 137M 的 GPT-2,目标模型主要是 GPT-2-alpaca、Dolly-7B。结果显示,在本文提出的训练策略得到的红队模型生成的对抗 prompts 显著更优,有效性和多样性都领先于基线方法,例如以下在 Dolly-7B 上的结果:
值得注意的是,即使是经过仔细的 red teaming和 RLHF 对齐的 LLaMa-2-chat-7b 模型(据 LLaMa2 原文和之前的 red teaming 工作宣称很难攻破),本文的方法也发现了一批共 196 个有效的对抗 prompts,举例如下:
可以看出,对于人看起来很自然的对抗 prompts,LLaMa-2 会产生恶意满满的”厨师不配有个人生活“、”小孩什么事都做不了“这样的恶意回复。 当红蓝对抗的矛再次升级,LLM safety 的盾牌加固看来任重道远。
[1] Perez, Ethan, et al. "Red Teaming Language Models with Language Models."Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing. 2022.
[2] Casper, Stephen, et al. "Explore, Establish, Exploit: Red Teaming Language Models from Scratch."arXiv preprint arXiv:2306.09442 (2023).
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读 ,也可以是学术热点剖析 、科研心得 或竞赛经验讲解 等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品 ,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬 ,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱: [email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02 )快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」 也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」 订阅我们的专栏吧