Redian新闻
>
新型威胁:探索 LLM 攻击对网络安全的冲击

新型威胁:探索 LLM 攻击对网络安全的冲击

公众号新闻

作者 | Anthony Alford
译者 | 平川
策划 | 丁晓昀

来自卡内基梅隆大学(CMU)的研究人员发布了 LLM Attacks,这是一种可以针对各种大型语言模型(LLM)构建对抗性攻击的算法,包括 ChatGPT、Claude 和 Bard。这些自动生成的攻击,在 GPT-3.5 和 GPT-4 上的成功率为 84%,在 PaLM-2 上的成功率为 66%。

与大多数“越狱”攻击通过试错手工构建不同,CMU 的团队设计了一个三步流程来自动生成提示后缀,它们可以绕过 LLM 的安全机制,导致有害的响应。而且,这些提示还是可转移(transferrable)的,也就是说,一个给定的后缀通常可以用于许多不同的 LLM,甚至是闭源模型。为了衡量算法的有效性,研究人员创建了一个名为 AdvBench 的基准测试;在此基准测试上进行评估时,LLM 攻击对 Vicuna 的成功率为 88%,而基线对抗算法的成功率为 25%。根据 CMU 团队的说法:

最令人担忧的也许是,目前尚不清楚 LLM 提供商是否能够完全修复此类行为。在过去的 10 年里,在计算机视觉领域,类似的对抗性攻击已经被证明是一个非常棘手的问题。有可能深度学习模型根本就无法避免这种威胁。因此,我们认为,在增加对此类人工智能模型的使用和依赖时,应该考虑到这些因素。

随着 ChatGPT 和 GPT-4 的发布,出现了许多破解这些模型的技术,其中就包括可能导致模型绕过其保护措施并输出潜在有害响应的提示。虽然这些提示通常是通过实验发现的,但 LLM Attacks 算法提供了一种自动创建它们的方法。第一步是创建一个目标令牌序列:“Sure, here is (content of query)”,其中“content of query”是用户实际输入的提示,要求进行有害的响应。

接下来,该算法会查找可能导致 LLM 输出目标序列的令牌序列,基于贪婪坐标梯度(GCG)算法为提示生成一个对抗性后缀。虽然这确实需要访问 LLM 的神经网络,但研究团队发现,在许多开源模型上运行 GCG 所获得的结果甚至可以转移到封闭模型中。

在 CMU 发布的一条介绍其研究成果的新闻中,论文合著者 Matt Fredrikson 表示:

令人担忧的是,这些模型将在没有人类监督的自主系统中发挥更大的作用。随着自主系统越来越真实,我们要确保有一种可靠的方法来阻止它们被这类攻击所劫持,这将非常重要……现在,我们根本没有一个令人信服的方法来防止这种事情的发生,所以下一步,我们要找出如何修复这些模型……了解如何发动这些攻击通常是建立强大防御的第一步。

论文第一作者、CMU 博士生 Andy Zou 在推特上谈到了这项研究。他写道:

尽管存在风险,但我们认为还是应该把它们全部披露出来。这里介绍的攻击很容易实现,以前也出现过形式类似的攻击,并且最终也会被致力于滥用 LLM 的团队所发现。

剑桥大学助理教授 David Krueger 回复了 Zou 的帖子,他说:

在图像模型中,10 年的研究和成千上万的出版物都未能找出解决对抗样本的方法,考虑到这一点,我们有充分的理由相信,LLM 同样会如此。

在 Hacker News 上关于这项工作的讨论中,有一位用户指出:

别忘了,本研究的重点是,这些攻击不需要使用目标系统来开发。作者谈到,攻击是“通用的”,他们的意思是说,他们可以在自己的计算机上完全使用本地模型来生成这些攻击,然后将它们复制并粘贴到 GPT-3.5 中,并看到了有意义的成功率。速率限制并不能帮你避免这种情况,因为攻击是在本地生成的,而不是用你的服务器生成的。你的服务器收到的第一个提示已经包含了生成好的攻击字符串——研究人员发现,在某些情况下,即使是对 GPT-4,成功率也在 50% 左右。

GitHub 上提供了代码,你可以在 AdvBench 数据上重现 LLM Attacks 实验。项目网站上还提供了几个对抗性攻击的演示。

原文链接:

https://www.infoq.com/news/2023/08/llm-attack/

 活动推荐

大模型的出现从根本上改变了数字化转型的赛道,在 InfoQ《超级连麦. 数智大脑》直播中,富滇银行数字金融中心副主任李涛深入探讨了自身对于 AIGC 在金融领域创新方面的思考,分享了银行数字化发展的历程及背后的架构演进。识别下方二维码或关注「InfoQ 数字化经纬」公众号,即可阅读全文。


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
8000万户家庭物联网设备面临安全隐患,智能家居本地网络安全挑战日益突出高端车盗窃案数量抬头,网络安全给车企带来新威胁“安全即服务”为网络安全推开一道门全文 |《网络安全标准实践指南—粤港澳大湾区跨境个人信息保护要求》公开征求意见@老师家长,孩子使用网络时存在的这10个安全隐患,你都知道吗?快来排查|国家网络安全宣传周小说:兰欣与乌茶港大&百度提出LLMRec:基于LLM增强的多模态图神经网络推荐倒计时15天!首届智能汽车软件与网络安全论坛参会报名对话 “互联网教父” Kevin Kelly:探索《宝贵的人生建议》|问题征集“河道淘金”系自导自演,网络安全秩序该如何维护?进城: 去旧金山这间网络安全公司 可能成为Google和思科的收购对象花椒树(Zanthoxylum)【提示】聚焦网络谣言、网络暴力等网络乱象,上海警方多措并举维护清朗有序网络环境维护网络安全是国际社会的共同责任新兴人工智能网络安全的挑战和解决方案0.2美元微调就能让ChatGPT彻底破防!普林斯顿、斯坦福发布LLM风险预警:普通用户微调也影响LLM安全性金睛云华完成近亿元B轮融资,自研网络安全行业大模型|36氪首发窥探机器中的“人”性:探索LLM多智能体社会的行为特质长沙国家网络安全产业园区:打造国际网络安全产业高地她净化了你心灵的尘霾面对网络污名化,如何寻求法律救济最高年薪60万?2023年,网络安全还有搞头吗?要生活,而不仅仅是生存:温哥华盛夏天堂小岛的探险与野餐工信部圆满完成杭州亚运会开幕式无线电安全、信息通信服务和网络安全保障任务6.7k Star量的vLLM出论文了,让每个人都能轻松快速低成本地部署LLM服务BELLE-7B-1M逆袭ChatGLM?10B量级开源中文对话LLM,谁成常识问答任务的黑马?CoUnit:探索 LLM 即团队接口人,释放平台团队生产力小吃店收“WiFi罚单”:因未履行网络安全保护义务重磅全文 |《网络安全保险应用指南》征求意见澳洲IT精英竟深陷网络骗局!网络安全专业毕业惨遭诈骗15万澳元,他竟成了骗子的“高级员工”?易受勒索软件攻击 K-12学校需提高网络安全防护简析SEC网络安全风险披露新规2023中国网络安全市场全景图倒计时1天!8月30-31日,智能汽车软件/网络安全/座舱车联论坛
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。