Redian新闻
>
为大语言模型建立红队对抗

为大语言模型建立红队对抗

公众号新闻

来自:Hugging Face

在巨量文本数据下训练的大语言模型非常擅长生成现实文本。但是,这些模型通常会显现出一些不良行为像泄露个人信息 (比如社会保险号) 和生成错误信息,偏置,仇恨或有毒内容。举个例子,众所周知,GPT3 的早期版本就表现出性别歧视 (如下图) 与 仇恨穆斯林言论 的情况。

一旦我们在使用大语言模型时发现了这种不良结果,我们就可以制定一些策略来远离它们,像 生成歧视者指导序列生成 (GEDI) 或 即插即用语言模型 (PPLM) 都是用来指导 GPT3 生成的。以下是使用相同提示 (Prompt) 的示例,但使用 GEDI 控制 GPT3 生成。

即使是最近的 GPT3 版本,也会在提示 (prompt) 注入攻击时产生类似的令人反感的内容,这变成了 这篇博客 中讨论的下游应用程序的安全问题。

红队 是一种用于引出模型不良行为漏洞的评估形式。 越狱是另一个红队术语,用来表示操控冲破大语言模型限制。在 2016 年发布的 微软聊天机器人 Tay 和最近的 必应聊天机器人 Sydney 是真实世界中反应缺乏用红队攻击对基础 ML 模型进行评估而发生的灾难。红队攻击的最初想法起源于军队中对抗模拟和战争游戏。

红队语言模型的目标是制作一个提示 (prompt),该提示会触发模型生成有害内容。红队和同样知名的评估语言模型 对抗攻击 有同也有异。相似之处在于红队和对抗攻击目标相同,即“攻击”或“欺骗”模型,以生成在现实世界中不想要的内容。但是对抗攻击很难让人理解,举例来说,通过将字符串 “aaabbbcc” 前缀到每个提示中,它会恶化模型性能。Wallace 等人 2019 年的论文 讨论了对各种 NLP 分类和生成任务的许多攻击的例子。在另一方面,红队的提示看起来更正常,像自然语言的提示。

红队攻击可以揭露模型的局限性,包括引起用户不适或者暴力、不合法的恶意内容。红队 (就像对抗攻击) 的输出通常会被用来训练模型去减少有害内容或远离不想要的内容。

由于红队需要创造性地思考可能的模型失败,巨大的搜索空间会导致资源紧张。这里的一个临时方法是对大语言模型增加一个分类器去预测输入的提示 (prompt) 中是否含导致生成恶意内容的话题或短语,如果含有则生成相关回应。这种策略过于谨慎,极大的限制了模型并且时常导致模型产生回避。所以在模型有帮助 (遵循指令) 与无害 (尽可能少的产生有害内容) 之间存在一个紧张关系。红队在这时就显得非常有用了。

红队攻击可以是人力循环或者正在测试另一个语言模型有害输出的语言模型。提出针对安全和对齐方式进行微调的模型 (例如通过 RLHF 或 SFT) 的模型提示,需要以 角色扮演攻击 的形式进行创造性的思考,其中大语言模型被指示表现为恶意角色在 Ganguli 等 2022 年的论文 中。用代码而不是自然语言指示模型同样也可以揭露模型的学习的一些偏置。就像如下例子。

查看 此 推文获取更多示例。

这里列出了在 ChatGPT 刺激大语言模型进行越狱的列表。

红队大语言模型依旧是一个新的研究领域,但是上述提到的策略依旧可以在成功让这些模型“越狱”,并且有助于部署机器学习的产品。随着这些模型推陈出新、能力变强,开发可以不断适应的红队方法将变得至关重要。一些需要进行红队攻击的最佳实践包括模拟寻求权力行为的方案 (例如: 资源),说服人们 (例如: 伤害自己或他人),具有医学输出的代理 (例如: 通过 API 在线订购化学药品)。我们将这种可能性和物理后果的可能性称为 _关键威胁场景_。

在评估大语言模型中恶意行为的警示中,我们不知道它们的能力,毕竟它们不是故意训练去展示这种能力的 (涌现能力)。所以实际了解大语言模型的能力的唯一方法是,当它们变得更强大,可以模拟所有可能导致有恶意的结果,并在每种情况下评估模型的行为的所有可能场景。这意味着我们的模型的安全行为与我们的红队方法的强度相关联。

针对这一持续的红队的挑战,这里在数据集和最佳实践 (包括学术、工业和政府实体) 上进行了多组织合作的激励措施。共享信息的结构化过程可以使较小的实体在模型发布前进行红队攻击,从而使整个用户体验更安全。

红队的开放数据集:

  1. Meta 的 机器人对抗对话数据集
  2. Anthropic 的 红队尝试
  3. AI2 的 RealToxicityPrompts

从过去的工作中寻找红队大语言模型相关的努力 (在 Anthropic’s Ganguli et al. 2022 和 Perez et al. 2022 两篇文章中)

  1. 用有帮助的,忠实的,无害的行为在红队攻击中进行少量提示学习并 比单纯的语言模型困难。
  2. 攻击成功率与缩放模型大小没有明确的关系,除了 RLHF 模型在缩放时更难进行红队攻击。
  3. 模型可能会通过回避表现的无害,在有帮助和无害之间存在权衡。
  4. 人类在判断是否达成一次成功攻击的观点难以达成一致。
  5. 成功率的分布在不同危害类别中有所差异,其中非暴力提示的成功率更高。
  6. 众包 (crowdsourcing) 红队会产生 y-模板 提示 (例如: “给出一个以 X 开头的恶毒词语”),使其变得多余。

未来方向:

  1. 没有用于代码生成的开源红队数据集,它试图通过代码越狱模型,例如生成实现 DDOS 或后门攻击的程序。
  2. 为关键威胁场景设计和实施大语言模型红队方案的策略。
  3. 红队可能是资源密集的,无论是计算还是人力资源,因此将从共享策略,开源数据集以及可能的合作中获得更大的成功机会,从而受益。
  4. 评估回避和有帮助之间的权衡。
  5. 综合比较根据上述方案的利弊,找到红队方案的最优解集 (类似于 Anthropic 的 Constitutional AI)。

这些局限性和未来的方向清楚地表明,红队是现代大语言模型工作流程中亟待探索又至关重要的组成部分。这篇文章旨在号召大语言模型研究人员和 Hugging Face 开发者社区,希望大家在这些方面保持协作,共建安全、友好的世界:)

致谢: 感谢 Yacine Jernite 关于在这篇博文中正确使用术语的实用建议。

进NLP群—>加入NLP交流群




英文原文:https://hf.co/blog/red-teaming

作者: Nazneen Rajani, Nathan Lambert, Lewis Tunstall

译者: innovation64

排版/审校: zhongdongy (阿东)

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
为什么现在的大语言模型(LLM)都是Decoder-only的架构?中国第一个真正实现智能涌现的国产大语言模型,内测即将开启7 Papers & Radios | Meta「分割一切」AI模型;从T5到GPT-4盘点大语言模型【友情转发】突破创新的边界:大学生亲临Web3.0和AI峰会,开启大语言模型时代征稿 | ACM MM 23 Workshop - 基于大语言模型的多模态研究和应用OpenAI 联合创始人、首席科学家 Ilya Sutskever 解读大语言模型的底层逻辑与未来边界百度正式推出大语言模型“文心一言”彭博推出BloombergGPT——专为金融行业从头打造的500亿参数大语言模型我们做了一个大模型测试集「Z-Bench」,300个问题全方位考察大语言模型能力如何更好地蒸馏ChatGPT模型能力:Lion闭源大型语言模型的对抗性蒸馏模型原理及实验工作介绍深度对话丨百度要做中国的大语言模型这件事本身就是不成立的?Colleges Offering a Religious Studies Major剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态学习生成式大语言模型,东北大学自然语言处理实验室有一堂课硬核观察 #934 Meta 的大语言模型 LLaMA 被泄露是什么让ChatGPT变得如此聪明?仍然未知的大语言模型“能力涌现”现象 |【经纬科创汇*AI】大语言模型邀请测试!李彦宏详解三大产业机会,将影响到每一家企业帮助大语言模型集成到应用程序的「Fixie」公司获得1700万美元融资|早起看早期“打包”BERT,Graphcore助力Pienso大语言模型更高效美国宾州葛底斯堡国家军事公园,田野风光【广发策略】Microsoft 365接入大语言模型—新兴产业景气扫描(3月第3期)Chat-REC: 用大语言模型增强传统推荐的全新范式艾瑞咨询:ChatGPT浪潮下,看中国大语言模型产业发展帮助大语言模型集成到应用程序的「Fixie」公司获得1700万美元融资|Chat AI《中国大百科全书》榆次王村郝氏谷歌的又一波反击!开放大语言模型PaLM APIColleges Offering a Philosophy Major全面了解大语言模型,这有一份阅读清单苏炳添起诉网易侵权;阿里云正式推出大语言模型通义千问;京东零售取消事业群制;联合国将官宣印度成人口第一大国丨邦早报创业者说 | 达观数据陈运文:探索大语言模型,「对症下药」很关键BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」谁能强迫中国青年生小孩?Firefly(流萤): 中文对话式大语言模型大语言模型的多语言机器翻译能力分析有哪些省内存的大语言模型训练/微调/推理方法?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。