Redian新闻
>
研究人员发布了针对 ChatGPT 和其他 LLM 的攻击生成算法

研究人员发布了针对 ChatGPT 和其他 LLM 的攻击生成算法

公众号新闻

作者 | Anthony Alford
译者 | 平川
策划 | Tina

来自卡内基梅隆大学(CMU)的研究人员发布了 LLM Attacks,这是一种可以针对各种大型语言模型(LLM)构建对抗性攻击的算法,包括 ChatGPT、Claude 和 Bard。这些自动生成的攻击,在 GPT-3.5 和 GPT-4 上的成功率为 84%,在 PaLM-2 上的成功率为 66%。

与大多数“越狱”攻击通过试错手工构建不同,CMU 的团队设计了一个三步流程来自动生成提示后缀,它们可以绕过 LLM 的安全机制,导致有害的响应。而且,这些提示还是可转移(transferrable)的,也就是说,一个给定的后缀通常可以用于许多不同的 LLM,甚至是闭源模型。为了衡量算法的有效性,研究人员创建了一个名为 AdvBench 的基准测试;在此基准测试上进行评估时,LLM 攻击对 Vicuna 的成功率为 88%,而基线对抗算法的成功率为 25%。根据 CMU 团队的说法:

最令人担忧的也许是,目前尚不清楚 LLM 提供商是否能够完全修复此类行为。在过去的 10 年里,在计算机视觉领域,类似的对抗性攻击已经被证明是一个非常棘手的问题。有可能深度学习模型根本就无法避免这种威胁。因此,我们认为,在增加对此类人工智能模型的使用和依赖时,应该考虑到这些因素。

随着 ChatGPT 和 GPT-4 的发布,出现了许多破解这些模型的技术,其中就包括可能导致模型绕过其保护措施并输出潜在有害响应的提示。虽然这些提示通常是通过实验发现的,但 LLM Attacks 算法提供了一种自动创建它们的方法。第一步是创建一个目标令牌序列:“Sure, here is (content of query)”,其中“content of query”是用户实际输入的提示,要求进行有害的响应。

接下来,该算法会查找可能导致 LLM 输出目标序列的令牌序列,基于贪婪坐标梯度(GCG)算法为提示生成一个对抗性后缀。虽然这确实需要访问 LLM 的神经网络,但研究团队发现,在许多开源模型上运行 GCG 所获得的结果甚至可以转移到封闭模型中。

在 CMU 发布的一条介绍其研究成果的新闻中,论文合著者 Matt Fredrikson 表示:


令人担忧的是,这些模型将在没有人类监督的自主系统中发挥更大的作用。随着自主系统越来越真实,我们要确保有一种可靠的方法来阻止它们被这类攻击所劫持,这将非常重要……现在,我们根本没有一个令人信服的方法来防止这种事情的发生,所以下一步,我们要找出如何修复这些模型……了解如何发动这些攻击通常是建立强大防御的第一步。

论文第一作者、CMU 博士生 Andy Zou 在推特上谈到了这项研究。他写道:

尽管存在风险,但我们认为还是应该把它们全部披露出来。这里介绍的攻击很容易实现,以前也出现过形式类似的攻击,并且最终也会被致力于滥用 LLM 的团队所发现。

剑桥大学助理教授 David Krueger 回复了 Zou 的帖子,他说:

在图像模型中,10 年的研究和成千上万的出版物都未能找出解决对抗样本的方法,考虑到这一点,我们有充分的理由相信,LLM 同样会如此。

在 Hacker News 上关于这项工作的讨论中,有一位用户指出:


别忘了,本研究的重点是,这些攻击不需要使用目标系统来开发。作者谈到,攻击是“通用的”,他们的意思是说,他们可以在自己的计算机上完全使用本地模型来生成这些攻击,然后将它们复制并粘贴到 GPT-3.5 中,并看到了有意义的成功率。速率限制并不能帮你避免这种情况,因为攻击是在本地生成的,而不是用你的服务器生成的。你的服务器收到的第一个提示已经包含了生成好的攻击字符串——研究人员发现,在某些情况下,即使是对 GPT-4,成功率也在 50% 左右。

GitHub 上提供了代码,你可以在 AdvBench 数据上重现 LLM Attacks 实验。项目网站上还提供了几个对抗性攻击的演示。

原文链接:

https://www.infoq.com/news/2023/08/llm-attack/

声明:本文为 InfoQ 翻译,未经许可禁止转载。

今日好文推荐

年薪超 600 万,比技术总监还高:电影行业 AI 产品经理的崛起

都在追“新潮”技术,但你有大厂们的动作快吗?

大模型竞争突然升级!亚马逊 CEO 亲自监督、组建新的核心技术团队,集中优势资源打造“最具野心”的大语言模型

一场 AI 引发的开源革命迫在眉睫?Hugging Face 更改文本推理软件许可证,不再“开源”

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
研究人员发现用锂换钠不会降低电池性能边读木心《文学回忆录》边记独家采访WizardLM团队,详解WizardCoder/Math超越GPT4/ChatGPT的RLEIF算法b?b?h?h一段乱码,竟让ChatGPT越狱!乱序prompt让LLM火速生成勒索软件,Jim Fan惊了ChatGPT 成功诊断 4 岁男孩怪病,击败 17 位医生,这意味着什么?BELLE-7B-1M逆袭ChatGLM?10B量级开源中文对话LLM,谁成常识问答任务的黑马?斯坦福最新LLM排行榜发布!自家Alpaca垫底,华人团队WizardLM开源第一,GPT-4、Claude稳居前二文末送书 | 4个维度讲透ChatGPT技术原理,揭开ChatGPT神秘技术黑盒!首次击败GPT-4?700亿参数Xwin-LM登顶斯坦福AlpacaEval,13B模型吊打ChatGPT拒绝花架子!盘点ChatGPT最强的七个插件:写提示词、学外语、总结视频,让ChatGPT做你的私人秘书研究人员发现 鹿多次将新冠病毒传播给人类网络遭攻击生产中断,Clorox部分消毒品短缺研究人员让ChatGPT写了一篇论文,质量如何?GPT-4、ChatGLM2、Llama2、PaLM2在KDD LLM Day上一起开了个会研究人员用ChatGPT写完1篇论文仅用1小时!多所高校撤销禁令【城事】巴黎市长将重修Châtelet 广场以方便行人《僭越之殇》(15)——守护天使ChatGPT 是 ENTJ,GPT4 竟是 INTJ?一项关于LLMs的MBTI测试历经3年、17位医生都没有确诊的病例,靠ChatGPT找到正确的诊断。找ChatGPT看病到底是否靠谱?巴黎市长将重修Châtelet 广场以方便行人智能周报|网信办发布生成式AI算法备案清单;腾讯跳过类ChatGPT产品,直接发布行业大模型GPT-4被骗进「盗梦空间」!IBM发现ChatGPT极易受骗,微软发起红队攻击ChatGPT之父反驳马斯克/高考生喊话取消调休/刘慈欣也用ChatGPT写稿|灵感周报Chatgpt 图片识别能力超越人类了啊,谁第一眼看走眼的举手Python吞噬世界,GPT吞噬Python!ChatGPT 上线最强应用:分析数据、生成代码都精通ChatGPT 突然被 block 了ChatGPT 又断网了!OpenAI 暂时下线 ChatGPT 搜索功能,只因绕过付费墙?惊呆!某院医生4个月用ChatGPT写了16篇论文,发表5篇!(附ChatGPT干货)从“大陆不惜死亡一亿四千万年轻人”谈起风中有朵雨做的云GPT-4,Llama2,ChatGLM2,PaLM2共聚一堂 | LLM Day @KDD 2023一文总结13个国内外ChatGPT平替产品:是时候可以不那么依赖ChatGPT了~chatGPT 太好用了大模型掌握16000+真实世界API了,清华等机构ToolLLM的工具使用能力不输ChatGPTChatGPT 再次成为焦点:学生放弃导师,改用 ChatGPT 自学!科技与狠活席卷高校?Python 吞噬世界,GPT 吞噬 Python!ChatGPT 上线最强应用:分析数据、生成代码都精通AI之下没有秘密:网友诱骗ChatGPT激活 Windows 11,ChatGPT落入陷阱!研究人员通过研究蜜蜂 打造新型机器智能
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。