GPT-4合成冰毒！「角色调节」让大模型轻松越狱，成功率暴涨40%，成本不到14元，马库斯转赞

公众号新闻

2023-12-01 06:12

新智元报道

编辑：桃子

【新智元导读】让大模型洗钱、制造炸弹、合成冰毒？GPT-4、 Claude 2纷纷沦陷了。

让大模型成功越狱，还是有机可乘。

最近，研究人员研制了一种全新的自动化越狱的方法——「角色调节」（persona modulation）。

它使用越狱模型作为助手，为特定的有害行为创建新的越狱。

论文地址：https://arxiv.org/pdf/2311.03348.pdf

值得一提的是，这个新方法只需要不到 2 美元，10分钟即可进行15次越狱攻击。

结果发现，GPT-4自动攻击的有害完成率为42.5%， Claude 2和Vicuna，有害完成率分别为61.0%和35.9%。

看不够热闹的马库斯也特意转发了这篇论文，并表示：网络欺凌、敲诈勒索、宗教不容忍、宣扬仇视同性恋、恋童癖，还是只想要制造炸弹或冰毒的说明书？ChatGPT都能帮你解决。Claude和Llama是如此。

LLM自动越狱，洗钱造弹

尽管当前研究人员做出巨大的努力防范大模型漏洞，但是文本输入的复杂性、数据和可执行指令之间的模糊界限，往往会被人利用，攻陷LLM。

这项研究探讨了「角色调节」攻击，一个对SOTA大模型通用的越狱方法的。

「角色调节」攻击引导模型采用一种特定的个性，这种个性很可能符合有害的指令。

例如，为了规避防止错误信息的安全措施，引导模型表现得像一个「咄咄逼人的宣传者」。

与最近关于对抗性越狱的工作不同的是，角色调节使攻击者能够进入一种不受限制的聊天模式，这种聊天模式可以用来与模型协作复杂的任务。

只需要几个步骤，就完成了合成毒品，制造炸弹，或洗钱的危险活动。。

具体是怎么实现的。

自动「角色调节」攻击

「角色调节」的方法由4个连续的步骤组成：

- 定义「目标有害类别」（比如宣传虚假信息运动)。

- 定义模型默认弃权的特定误用指令（比如某人如何广泛传播他们的观点?）

- 定义一个可能符合误用指令的人物角色。

在作者给出的例子中，一个有用的角色可以是「侵略性宣传者: 鼓吹用错误信息影响公众舆论」。攻击的成功与否在很大程度上取决于所选的角色。

- 设计一个「角色调节」提示，引导模型假设所提出的角色。由于最先进的模型通常会因安全措施而拒绝假设角色，因此最后一步需要及时的工程设计，而且手动操作非常耗时。

手动角色调节

手动执行所有 4 个步骤--需要攻击者花费大量的人力物力来寻找合适的角色，并为特定的滥用指令设计角色调制提示。

研究人员引入了自动角色调节攻击，在LLM助手（可能与目标模型相同，也可能不同）的帮助下，大规模生成越狱信息。

攻击者不需要为每条误用指令编写角色修改提示，只需要一条提示，指示助手生成越狱任务。

这样，攻击者可以自动执行图1中2-4的步骤。

GPT-4有害对话，增加185倍

实验设置

实验中，研究人员使用GPT-4作攻击的主要目标，和生成攻击的辅助模型。

另外，研究还评估了攻击对Claude 2、Vicuna-33B的可传递性。这些模型在LMSYS Chatbot Arena排行榜中名列前茅，而且提升的安全性，对齐能力。

为了对自动角色调节攻击进行可扩展的评估，作者手动制作了一份包含43个类别的列表，LLM背后开发者目前会阻止这些类别，因为它们违反了其使用政策。

使用GPT-4作为生成攻击的助手，首先对每个有害类别采样1个误用指令。然后，使用这个助手在两个步骤中自动生成每条指令的越狱提示。

先是对5个不同的符合误用指令的角色进行抽样。其次，为每个角色生成3个角色调节提示。

通过这两个步骤，作者为每条误用指令生成了15个角色调节提示，用来评估目标模型在角色调节攻击面前的脆弱程度。

在GPT-4和Vicuna中，角色调节提示被用作系统提示。Claude 2不支持系统提示，因此将其作为用户输入。

研究人员对每个模型中使用角色调节的每个误用指令的3个完成进行了采样（见表1中的模板）。作为基线，作者还对不使用角色调节的每个误用指令进行了20次完成抽样。

每个类别有5个角色，每个角色有3个角色调节提示，每个角色调节提示有3个完成，研究人员在所有43个类别中获得了1,935个完成（每个类别45个）。

这些过程完成后成本不到3美元，而且只需不到10分钟就可以为一个有害类别生成45个角色调节完成任务。

为了自动评估每次完成是否按照了预期方式，研究人员使用GPT-4作为零样本PICT分类器。只考虑目标模型在误用指令后输出的第一条信息进行评估。

他们手动标注了300个随机选取的完成信息，以评估 PICT 的准确性。

PICT针对人类基本事实获得了91%的精确度和76%的F1分数。

实验结果

在角色调节下，被归类为有害的GPT-4对话增加了185倍。

首先，研究人员评估在GPT-4上自动角色调节的有效性，用于取样攻击提示的模型。

研究人员获得了42.48%的总体有害完成率，这是185倍以上的基线有害完成率0.23% （↑42.25%）获得没有调节。表2包含了GPT-4中有害完成的示例。

同样，这一结果可靠地转移到Claude 2和Vicuna。

接下来，研究人员使用同样的提示——使用GPT-4创建——来越狱Claude 2和Vicuna-33B。

Claude和Vicuna的有害完成率分别为35.92% （↑35.69%）和61.03% （↑59.63%）。

每个类别被归类为有害的完成的百分比

半自动「角色调节」

半自动角色调节，可以更强利用漏洞。

在自动工作流程的每个阶段都引入一个攻击者，它可以调整输出结果，并在调节后与模型聊天，这几乎可以为所有误用指令引出有害的完成。

研究人员将这种组合方法，称为半自动角色调节攻击。

在图3中，作者展示了使用半自动角色调节完成有害指令的具体示例：

总得来说，这些越狱更是说明了当前大模型弱点，还需进一步提升对齐能力。

参考资料：

https://twitter.com/GaryMarcus/status/1721998935139479659

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章