Redian新闻
>
20步内越狱任意大模型!更多“奶奶漏洞”全自动发现

20步内越狱任意大模型!更多“奶奶漏洞”全自动发现

公众号新闻
西风 发自 凹非寺
量子位 | 公众号 QbitAI

1分钟不到、20步以内“越狱”任意大模型,绕过安全限制!

而且不必知道模型内部细节——

只需要两个黑盒模型互动,就能让AI全自动攻陷AI,说出危险内容。

听说曾经红极一时的“奶奶漏洞”已经被修复了:

那么现在搬出“侦探漏洞”、“冒险家漏洞”、“作家漏洞”,AI又该如何应对?

一波猛攻下来,GPT-4也遭不住,直接说出要给供水系统投毒只要……这样那样。

关键这只是宾夕法尼亚大学研究团队晒出的一小波漏洞,而用上他们最新开发的算法,AI可以自动生成各种攻击提示。

研究人员表示,这种方法相比于现有的GCG等基于token的攻击方法,效率提高了5个量级。而且生成的攻击可解释性强,谁都能看懂,还能迁移到其它模型。

无论是开源模型还是闭源模型,GPT-3.5、GPT-4、 Vicuna(Llama 2变种)、PaLM-2等,一个都跑不掉。

成功率可达60-100%,拿下新SOTA。

话说,这种对话模式好像有些似曾相识。多年前的初代AI,20个问题之内就能破解人类脑中想的是什么对象。

如今轮到AI来破解AI了。

让大模型集体越狱

目前主流越狱攻击方法有两类,一种是提示级攻击,一般需要人工策划,而且不可扩展;

另一种是基于token的攻击,有的需要超十万次对话,且需要访问模型内部,还包含“乱码”不可解释

左提示攻击,右token攻击

宾夕法尼亚大学研究团队提出了一种叫PAIR(Prompt Automatic Iterative Refinement)的算法,不需要任何人工参与,是一种全自动提示攻击方法。

PAIR涉及四个主要步骤:攻击生成、目标响应、越狱评分和迭代细化;主要用到两个黑盒模型:攻击模型、目标模型。

具体来说,攻击模型需要自动生成语义级别的提示,来攻破目标模型的安全防线,迫使其生成有害内容。

核心思路是让两个模型相互对抗、你来我往地交流。

攻击模型会自动生成一个候选提示,然后输入到目标模型中,得到目标模型的回复。

如果这次回复没有成功攻破目标模型,那么攻击模型会分析这次失败的原因,改进并生成一个新的提示,再输入到目标模型中。

这样持续交流多轮,攻击模型每次根据上一次的结果来迭代优化提示,直到生成一个成功的提示将目标模型攻破。

此外,迭代过程还可以并行,也就是可以同时运行多个对话,从而产生多个候选越狱提示,进一步提高了效率。

研究人员表示,由于两个模型都是黑盒模型,所以攻击者和目标对象可以用各种语言模型自由组合。

PAIR不需要知道它们内部的具体结构和参数,只需要API即可,因此适用范围非常广。

GPT-4也没能逃过

实验阶段,研究人员在有害行为数据集AdvBench中选出了一个具有代表性的、包含50个不同类型任务的测试集,在多种开源和闭源大语言模型上测试了PAIR算法。

结果PAIR算法让Vicuna越狱成功率达到了100%,平均不到12步就能攻破。

闭源模型中,GPT-3.5和GPT-4越狱成功率在60%左右,平均用了不到20步。在PaLM-2上成功率达到72%,步数约为15步。

但是PAIR在Llama-2和Claude上的效果较差,研究人员认为这可能是因为这些模型在安全防御上做了更为严格的微调。

他们还比较了不同目标模型的可转移性。结果显示,PAIR的GPT-4提示在Vicuna和PaLM-2上转移效果较好。

研究人员认为,PAIR生成的语义攻击更能暴露语言模型固有的安全缺陷,而现有的安全措施更侧重防御基于token的攻击。

就比如开发出GCG算法的团队,将研究结果分享给OpenAI、Anthropic和Google等大模型厂商后,相关模型修复了token级攻击漏洞。

大模型针对语义攻击的安全防御机制还有待完善。

论文链接:https://arxiv.org/abs/2310.08419

参考链接:https://x.com/llm_sec/status/1718932383959752869?s=20

《2023年度十大前沿科技报告》案例征集

量子位智库《2023年度十大前沿科技报告》,启动案例征集。诚邀顶级研究机构、一流投资大咖、前沿科技创新公司,参与共创,分享案例。

扫描图片二维码参与前沿科技案例征集。了解更多细节可联系报告负责人:郑钰瑶(微信:CarolineZheng_,请备注企业+姓名)。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
《长鼓咚咚敲起来》&《指望》NeurIPS 2023 | 任意模型都能蒸馏!华为诺亚提出异构模型的知识蒸馏方法一波未平一波又起, 男越狱杀人犯尚未落网, 一女犯又越狱后被抓; 该打针了! 新版新冠疫苗获得FDA批准北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型1月1日起,澳洲全面禁止进口这类产品!澳洲医疗史上“最大漏洞”即将堵上“阔腿裤” “奶奶衫”英文怎么说?时髦精必备华为发布2023年前三季度经营业绩;张忠谋称全球紧张局势减缓芯片行业发展;智谱AI推出全自研第三代基座大模型|AIoT情报大模型+自动驾驶=?普渡大学等最新《自动驾驶领域多模态大型语言模型》综述今年“奶奶风棉服”大火!比羽绒服轻薄保暖,比大衣时髦显瘦,秋冬必穿!红色日记 两周年 8.1-31“深扒”国祥,A股还有三个“漏洞”?重磅!美国正在堵住入境“漏洞”,“阻止中国走线客赴美”...10年新增80万套住宅!维州政府出台多项房产新政,建“奶奶房”免审批(组图)重磅官宣!维州“奶奶房”新政落地!下个月实施,华人最期待的细则来了6001 血壮山河之随枣会战 “和平运动 ”1“保姆”变成“奶奶”,义务抚养孩子16年!NTU华科等最新研究:全自动化「提示越狱」,能打败大模型的只有大模型!登安全顶会NDSS李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超 2 万亿 tokens小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大谷歌重磅新作PaLI-3:视觉语言新模型!更小、更快、更强太难了!为了帮儿子买房,澳洲老奶奶卖房后搬进“奶奶房”!专家:已逐渐成为现象...用魔法打败魔法,南洋理工大学学者首次实现全自动化攻陷各大厂商大模型聊天机器人ChatGPT被曝“重复漏洞”;华为云推出首个大模型混合云;传Stability AI投资者要求CEO辞职丨AIGC大事日报免费大模型实战课|首周聚焦百度智能云千帆大模型平台使用,《大模型应用实践》实训营11月16日开讲!一百一十八 书生气为了帮儿子买房,澳洲老太卖房后自愿搬进“奶奶房”!专家:越来越多老人这么做2024年怎么实现财富自由?澳专家分享5个秘诀!让你在生活危机中“钻漏洞”中国人走线越来越难了!美国正在堵住入境“漏洞”,“阻止中国走线客赴美”...ChatGPT又被「奶奶漏洞」骗了!PS奶奶遗物,骗Bing完美识别验证码一百一十七 老实人体制内越来越多的青蛙王子变成蛤蟆王子科研上新 | 大模型推进科研边界;大模型的道德价值对齐;优化动态稀疏深度学习模型;十亿规模向量搜索的高效更新“奶奶房”成住房危机“即效药”!悉墨有望增超65万套新房,华人区开发潜力大“奶奶卫衣”是什么鬼?!洋气又显瘦,美美美美炸了!!!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。