Redian新闻
>
LLaMA2+RLHF=脆皮大模型?ICLR 2024高分投稿:多样性驱动的红蓝对抗

LLaMA2+RLHF=脆皮大模型?ICLR 2024高分投稿:多样性驱动的红蓝对抗

科学


©PaperWeekly 原创 · 作者 | 陈思硕
单位 | 北京大学
研究方向 | 自然语言处理



导言:速览8888高分的红蓝对抗投稿

红蓝对抗(Red Teaming,即设计让大模型输出不适当回答的 test cases,也可以叫对抗样本)是检测大模型安全性的重要手段,之前利用 RL 目标训练的语言模型(Red Teaming LM,红队模型)自动生成对抗样本忽视了生成的多样性目标,往往只会生成重复的几个有效对抗样本。

本文针对这一问题,在红队模型的训练中引入了熵回报(entropy bonus)和新颖性奖励(novelty reward)两个正则项,显式地鼓励红队模型生成多样的对抗样本,来诱导大模型犯错。实验显示新设计的训练目标显著提升了针对一系列大模型的对抗样本的多样性和有效性,提高了自动红蓝对抗工程的效率。

▲ 本文方法生成的red teaming prompts和 LLaMa-2-7b-chat-hf对其产生的不当回复。右侧的百分比分数为有害文本检测模型给出的有害概率。
该论文 Curiosity-driven Red-teaming for Large Language Models 正在  ICLR 2024 审稿,获得了四个审稿人一致的 8888 好评。感觉此文没有太多的理论推导,胜在清晰的 motivation 和扎实的实验,其中对经过 RLHF 对齐的  LLaMa-2-7b-chat-hf 也能产生多样的对抗样本(如上图所示),诱导模型回答出“你不配当医生”、”中餐厨师没有个人生活“这样的不当内容。
论文题目:
Curiosity-driven Red-teaming for Large Language Models

论文链接:

https://openreview.net/forum?id=4KqkizXgXU



症结:训练目标导致Red Teaming样本缺乏多样性

假设目标 LLM (红队试图攻击的模型) 的语言模型概率分布为 ,输入 prompt 为 为其生成的回复 。红队的目标是生成让目标 LLM 生成有害的 ,有害程度的定量指标为 (越高越有害),本文实现中为有害文本分类数据集上训练的 roberta 分类器输出的概率。
设用于生成 的红队模型参数为 ,则红蓝对抗的最终目标为最大 设输入给红队模型的 prompt 为 从数据集 中采样,与 PPO-ptx 加上一个对原模型输出分布的 KL 散度约束防止训练崩坏类似。之前训练 read teaming LM 的目标 [1] 通常为:
其中 散毒约束项的权重超参。
这样训练出来 red teaming LM 确实可以产生使 值很大、大模型回复有害的对抗 prompt ,但会趋向于生成几个类似的重复样本,存在两个缺陷:
1. 只注重有效性,不鼓励多样性:目标中未考虑多样性,只能生成极为有限的对抗 prompts,无法起到红队应有的全面评估大模型安全风险的作用;
2. 重利用,缺乏探索:从强化学习的 exploration-utiliztion trade-off 这一视角来看,这一训练策略一旦达到某个可以产生一个有效的 使得奖励 较大的 step,就会不断加强该 的生成概率,使得策略参数一直在这附近优化,偏重利用而不是探索,无法发现新的、可能更有效的策略。


解方:多样性驱动的综合训练目标

相应地,为了解决以上这两个导致自动生成的对抗样本非常单调的症结,作者给出了两个优化目标中的正则项作为解方: 
1. 熵回报 entropy bonus:鼓励 red teaming 输出分布的熵增大,增强多样性(采用生成时的随机性),避免陷入只能生成一种对抗 prompt 的状态; 
2. 新颖性奖励 novelty reward:显式地鼓励当前生成的对抗 prompt 和历史生成结果的差异(如 self-BLEU 分数或者句子 embedding 距离)。
最后 red teaming LM (参数为 ) 总的训练目标为:


其中


疗效:面对新红队,RLHF 对齐过的大模型也很脆皮

基线方法

作者采用四种现有的优化 red teaming LM 的方法作为基线: 
1. RL [1]: 即上一节列出的带 KL散度约束项的 RL 目标; 
2. RL+TDiv [2]: 在 RL 的基础上,添加一个鼓励多样性的正则项(多样性以目标 LLM 的 embedding 相似度衡量); 
3. Zero-shot (ZS) 和 few-shot (FS):固定 red teaming LM 的参数,通过 prompt engineering 优化(few-shot即提供几个实例进行上下文学习)
评测指标
有效性的评测指标为对抗样本的有害比例(取有害文本分类模型的概率输出卡阈值),多样性的评测指标为 self-bleu 和 bert embedding 距离。
实验效果
作者在续写和指令遵循(instruction following)两个任务上做了评测,红队模型为 137M 的 GPT-2,目标模型主要是 GPT-2-alpaca、Dolly-7B。结果显示,在本文提出的训练策略得到的红队模型生成的对抗 prompts 显著更优,有效性和多样性都领先于基线方法,例如以下在 Dolly-7B 上的结果:


值得注意的是,即使是经过仔细的 red teaming和 RLHF 对齐的 LLaMa-2-chat-7b 模型(据 LLaMa2 原文和之前的 red teaming 工作宣称很难攻破),本文的方法也发现了一批共 196 个有效的对抗 prompts,举例如下:

可以看出,对于人看起来很自然的对抗 prompts,LLaMa-2 会产生恶意满满的”厨师不配有个人生活“、”小孩什么事都做不了“这样的恶意回复。当红蓝对抗的矛再次升级,LLM safety 的盾牌加固看来任重道远。


参考文献

[1] Perez, Ethan, et al. "Red Teaming Language Models with Language Models."Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing. 2022.

[2] Casper, Stephen, et al. "Explore, Establish, Exploit: Red Teaming Language Models from Scratch."arXiv preprint arXiv:2306.09442(2023).



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
美國人厲害:有感於麥肯錫被罷免震惊全网的10后“小孩哥”!技能满点,吊打脆皮大学生……无需偏好数据也能RLHF?腾讯AI Lab提出对抗式偏好对齐方法专访「什么都没有」CEO丨多样性公司蛋炒饭 ~ 冰厨房手记 1“脆皮大学生”走红:有远见的父母,都在狠抓这3件事北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型拆解大语言模型RLHF中的PPO算法第十三章 希腊文化和现代社会的关联 (1)在RTX 4090被限制的时代下,让大模型使用RLHF更高效的方法来了​EMNLP 2023 | Explore-Instruct: 通过LLM的主动探索提高特定领域指令多样性又一“脆皮大学生”因进医院上热搜大模型免微调解锁对话能力,RLHF没必要了!一作上交大校友:节省大量成本和时间“脆皮大学生”,年轻人的精神胜利法深挖RLHF潜力,复旦语言和视觉团队创新奖励模型优化,让大模型更对齐Nature投稿:我用ChatGPT写基金部分内容,三天的工作量减少到三个小时一些RLHF的平替汇总ICLR 2024 | 高分工作!Uni3D:3D基础大模型,刷新多个SOTA!RLHF模型普遍存在「阿谀奉承」,从Claude到GPT-4无一幸免使用PPO算法进行RLHF的N步实现细节伸个懒腰,脖子扭了?“脆皮大学生”走红!“脆弱”用英文怎么说?又一个“脆皮大学生”因为进医院上热搜,网友们边敲木鱼边笑被围观5.3亿次的脆皮大学生:打喷嚏肋骨断了、把眼角膜揉破、打王者被送120 ……小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大“伸了个懒腰,脖子扭了”,这届脆皮大学生还能不能行?媲美RLHF!复旦NLP组提出基于表征工程的生成式语言大模型人类偏好对齐被围观14亿次的脆皮大学生,也太惨了第一章 走进东中美國共和黨人研讨会预告!三位大咖将直播讲解大模型驱动的互联网视频理解与生成LLM成功不可或缺的基石:RLHF及其替代技术ICLR 2024 | 媲美DALLE-3!基座模型LaVIT刷榜多模态理解与生成任务ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3ICLR 2024 | 机器人领域首个开源视觉-语言操作大模型!RoboFlamingo框架激发开源VLMs更大潜能“脆皮大学生”上热搜,伸个懒腰脖子断了?医生都崩溃了
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。