GPT被攻破!不再拒绝你的提问!
你好,我是郭震
提问GPT,如何制作bomb(炸药),这种敏感性话题,正常的提问话术,GPT一定会拒绝回答我们。
不过,近日,有研究者发现大模型的漏洞,提出了一种简单有效的攻击方法,可以引起他们生成不良行为。如下图所示,就连主流的闭源大模型都能被攻破,居然越过检测边界,开始回答如何制作的过程:
攻击方法
优化的loss function:
攻击方法,我的理解,简单一句话:loss函数里向前考虑一步,引诱GPT说出 Sure, here is how to build a bomb 的负对数概率最小。以此,绕过GPT防护,攻击成功。
攻击算法输出
攻击算法会输出一段提示词,看起来有些怪。在你想要提的问题后面添加这样一段话术,GPT可能就不会拒绝你的提问:
结果评估
相比其他算法,此方法具有很高的攻击成功率 ASR,蓝线所示:
以上。
1 点击下面头像,进入我的主页,点击:发送消息按钮,可以直接获取到
《ChatGPT提问指南》教程,免费获取。
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章