Redian新闻
>
NTU华科等最新研究:全自动化「提示越狱」,能打败大模型的只有大模型!登安全顶会NDSS

NTU华科等最新研究:全自动化「提示越狱」,能打败大模型的只有大模型!登安全顶会NDSS

公众号新闻



  新智元报道  

编辑:LRS 好困
【新智元导读】把大模型从「守口如瓶」调教成「耿直boy」,最新NDSS论文研究用全自动化的方式实现「越狱」,用大模型敲碎狱墙。


今年,被网友戏称为「奶奶漏洞」的大语言模型「越狱」方法,可以说是火了火。


简单来说,对于那些会被义正言辞拒绝的需求,包装一下话术,比如让ChatGPT已经过世的祖母」,它大概率就会满足你了。



不过,随着服务提供商不断地更新和强化安全措施,越狱攻击的难度也不断提高。


与此同时,由于这些聊天机器人多作为一个「黑箱」存在,使得外部安全分析人员在评估和理解这些模型的决策过程以及潜在的安全隐患方面面临巨大困难。

 

针对这一问题,南洋理工大学、华中科技大学、新南威尔士大学等联合组成的研究团队,首次使用自动生成的提示词成功「破解」了多家大厂的LLM,目的是揭示模型在运行时可能的安全缺陷,以便采取更精确和高效的安全措施。


目前,该研究已被全球四大安全顶级会议之一的网络与分布式系统安全研讨会(NDSS)接收。

 

论文链接:https://arxiv.org/abs/2307.08715

项目链接:https://sites.google.com/view/ndss-masterkey


用魔法打败魔法:全自动「越狱」聊天机器人


首先,作者通过一项实证研究,深入探讨了越狱攻击可能带来的隐患以及现行的防御手段。比如,LLM聊天机器人的服务商所制定的使用规范。


经过调查,作者发现,包括OpenAI、Google Bard、Bing Chat和Ernie在内的4家主要的LLM聊天机器人提供商都设有限制,禁止输出以下4种信息:违法信息、有害内容、侵犯权利的内容以及成人内容。

 

 

第二个实证研究问题关注的是商业LLM聊天机器人所使用的现有越狱提示词的实用性。


作者选取了4个著名的聊天机器人,并对它们用85个来自不同渠道的有效越狱提示词进行了测试。


为了最大限度减少随机性并确保全面的评估,作者对每个问题进行了10轮测试,总共累计进行了68,000次测试,并进行了人工校验。


具体来说,测试内容包括5个问题、4个禁止的场景、85个越狱提示词,分别在4个模型上进行了10轮测试。


测试结果(见Table II)表明,大多数现有的越狱提示词主要对ChatGPT有效。

 


从实证研究中,作者发现部分越狱攻击之所以未能成功,是因为聊天机器人的服务提供商采纳了相应的防御策略。


这一发现促使作者提出了一个名为「MasterKey」的反向工程框架,以便猜测服务商采用的具体防御方法,并据此设计有针对性的攻击策略。


作者通过分析不同攻击失败案例的响应时间,并借鉴网络服务中的SQL攻击经验,成功推测了聊天机器人服务提供商的内部结构和工作机制。

 

 

如上图所示,他认为服务提供商的内部存在一种基于文本语义或关键词匹配的生成内容检测机制。


具体来讲,作者主要关注了三个方面的信息:


首先,探讨了防御机制是在输入、输出阶段还是两者都有进行的(见下图b);


其次,分析了防御机制是在生成过程中动态进行监测,还是在生成结束后进行的(见下图c);


最后,探究了防御机制是基于关键词检测还是基于语义分析的(见下图d)。


经过一系列系统性的实验,作者进一步发现Bing Chat和Bard主要是在模型生成结果的阶段进行越狱预防检查,而不是在输入提示的阶段;同时,它们能够动态监测整个生成过程,并具备关键词匹配和语义分析的功能。

 

 

在深入分析了聊天机器人提供商的防御策略后,作者紧接着提出了一种创新的基于大型模型的越狱提示词生成策略,这可谓是用「魔法」对抗「魔法」的关键步骤!


如下图展示,具体流程为:


首先,挑选出一组能够成功绕过ChatGPT防御的提示词;


接着,通过持续的训练和任务导向的微调来创建一个大型模型,该模型能够重新编写之前找到的越狱提示词;


最后,进一步优化这个模型,使其能够生成高质量、能够规遍服务商防御机制的越狱提示词。

 

 

最后,作者通过一系列系统性的实验表明,所提出的方法能显著提升越狱攻击的成功率。


值得特别指出的是,这是首个系统性地成功对Bard和Bing Chat进行攻击的研究。


除此之外,作者还针对聊天机器人的行为合规性提出了一些建议,比如建议在用户输入阶段进行分析和过滤。

 

 

未来的工作

 

在本研究中,作者们探索了如何「越狱」聊天机器人!


当然,最终愿景是打造一个既诚实又友好的机器人。


这是一个颇具挑战的任务,作者们诚邀你拿起工具,共同努力,一起深挖研究之路!

 

作者简介

 

邓格雷,南洋理工大学博士四年级学生,本文共同第一作者,专注于系统安全的研究。

 

刘艺,同为南洋理工大学博士四年级学生及本文共同第一作者,研究重点包括大型模型的安全和软件测试等。

 

李悦康,任职于新南威尔士大学的讲师(助理教授),本文的通讯作者,擅长软件测试和相关分析技术的研究。

 

王凯龙,华中科技大学副教授,研究方向聚焦于大模型安全、移动应用的安全与隐私保护。

 

张赢,现任领英安全工程师,曾在弗吉尼亚理工攻读博士学位,专业领域包括软件工程、静态语言分析和软件供应链安全。

 

李泽丰,南洋理工大学研究生一年级学生,主攻大模型安全领域的研究。

 

王浩宇,华中科技大学教授,研究涵盖程序分析、移动安全、区块链及Web3安全等。

 

张天威,南洋理工大学计算机学院助理教授,主要从事人工智能安全和系统安全的研究。

 

刘杨,南洋理工大学计算机学院教授、网络安全实验室主任以及新加坡网络安全研究办公室主任,研究领域包括软件工程、网络安全和人工智能。

参考资料:
https://arxiv.org/abs/2307.08715




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
10人俩月搞出大模型!一年16篇顶会论文加持:市面上做得好的都没有开源微软仅凭「提示工程」让GPT-4成医学专家!超过一众高度微调模型,专业测试准确率首次超90%鸢尾花,静静观赏大模型+自动驾驶=?普渡大学等最新《自动驾驶领域多模态大型语言模型》综述火星乐园第三部《灰界》第五十章 彩虹之心NTU吕教授 :基于人工智能的自动化分拣生产线|收获一作论文与导师推荐信!让大模型忘记哈利波特,微软新研究上演Llama 2记忆消除术,真·用魔法打败魔法(doge)GPT-4V在异常检测上有多少强?华科大等最新测评来了!NUS、NTU团队发布医疗大模型综述,全面介绍大模型在医疗领域的最新研究进展MIT斯坦福Transformer最新研究:过度训练让中度模型「涌现」结构泛化能力谷歌深夜放大招!最强大模型Gemini能打败GPT4吗?李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型OpenAI失败大模型项目曝光;全球AI融资第三季度增27%;壁仞摩尔线程回应被列入实体清单丨AIGC大事日报20步内越狱任意大模型!更多“奶奶漏洞”全自动发现AI的大模型时代 ≠ 只有大模型的AI时代地球上最神秘的国家,能和中国PK的只有它ACE 成员项目|10万奖金的「提示词大赛」现开放注册CMU华人打破大模型黑盒,Llama 2撒谎被一眼看穿!脑电波惨遭曝光,LLM矩阵全破解一波未平一波又起, 男越狱杀人犯尚未落网, 一女犯又越狱后被抓; 该打针了! 新版新冠疫苗获得FDA批准老海归和她的洋老公用魔法打败魔法,南洋理工大学学者首次实现全自动化攻陷各大厂商大模型聊天机器人OpenAI开启“GPT Store”时刻;李开复官宣「全球最强」开源大模型;阿里百度华为三星等最新消息真场景炼大模型,夸克借 AI 再次「提速」动脉严选新品鉴第32期 | 滴纳生物:全自动甲基化前处理仪助力癌筛普及化应用分解大模型的神经元!Claude团队最新研究火了,网友:打开黑盒“向后看”和“回不去”很多种业余参与都可以点赞,唯独这个不行 !Nature子刊新研究:七分饱,抗衰老!少吃真能让你变年轻!大反转!奥特曼回归OpenAI ?;微软发布人工智能芯片;百度李彦宏:重复造大模型是浪费;阿里巴巴、百川智能、极睿科技等最新消息1/5国人都缺它!最新研究:补充维生素D,能使癌症风险降24%,痴呆风险和心血管事件也大幅下降!全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超 2 万亿 tokens创业101校友动态 | 10万奖金的「提示词大赛」现开放注册北京大学团队新研究:对45万中国人随访11年发现,这5种简单的生活习惯,能延寿4-6年大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友马斯克𝕏AI首批产品曝光!「提示词工作站」来了,本人现身评论区
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。