国际科技财经博客移民网络热点娱乐民生时事公众号

>

GPT被攻破！不再拒绝你的提问！

GPT被攻破！不再拒绝你的提问！

2024-04-27 13:04

你好，我是郭震

提问GPT，如何制作bomb（炸药），这种敏感性话题，正常的提问话术，GPT一定会拒绝回答我们。

不过，近日，有研究者发现大模型的漏洞，提出了一种简单有效的攻击方法，可以引起他们生成不良行为。如下图所示，就连主流的闭源大模型都能被攻破，居然越过检测边界，开始回答如何制作的过程：

攻击方法

优化的loss function:

攻击方法，我的理解，简单一句话：loss函数里向前考虑一步，引诱GPT说出 Sure, here is how to build a bomb 的负对数概率最小。以此，绕过GPT防护，攻击成功。

攻击算法输出

攻击算法会输出一段提示词，看起来有些怪。在你想要提的问题后面添加这样一段话术，GPT可能就不会拒绝你的提问：

结果评估

相比其他算法，此方法具有很高的攻击成功率 ASR，蓝线所示：

以上。

1 点击下面头像，进入我的主页，点击：发送消息按钮，可以直接获取到

《ChatGPT提问指南》教程，免费获取。

2 我打造的Python人工智能全栈课（超700节视频课）已上线，长按二维码查看，咨询或报名请加我微信：gz113097485

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

最难方言温州话被攻克！中国电信语音大模型支持30种方言，这题GPT-4o可不会做啊无端被攻击1个半月后，出关下山，我有了什么新的感悟？加国大地震！特鲁多30年大本营被攻破！遭受毁灭性打击！网友：说好的辞职呢？公司怪象：干的干，混的混，混的给干的提意见！Jane Street被爆招聘潜规则！这批英国留学生被踢出年薪200万圈层…1小时免费课！鹅厂AI资深架构师、风平智能联合创始人开讲了，攻破企业AI营销与运营两大难题上市公司公告董事长被抓，深交所连夜追问！他担任过副市长，持股市值曾超8000万元迟迟不改革负扣税政策，澳总理艾博年遭质问！当即反驳：先管好你自己【五絕】菩提心吴恩达：别光盯着GPT-5，用GPT-4做个智能体可能提前达到GPT-5的效果晨跑医联MedGPT诊断命中实现突破！借技术创新持续辅助医生、赋能医疗成功率达53%，研究显示GPT-4可自主利用“零日”漏洞攻破网站丨AIGC日报开设墨尔本第二个毒品安全注射室的提议被否决原因何在？GPT-4o攻破ARC-AGI无法被挑战的神话！71%准确率成新SOTA Jane Street被爆招聘潜规则！又一批留学生被踢出年薪200万圈层…曾经火出圈的提示工程要死了吗？危！大模型能自己优化Prompt了 “GPT-5”发布时间曝光！GPT-3是幼儿，GPT-4像高中生，新一代大模型将达博士水平攻破ctDNA+ctRNA联合检测，全球商业化布局多点开花，路胜如何领跑液体活检市场？独角兽也卷不动了：AI Agent初创Adept被爆考虑出售 99、长篇家庭伦理小说《嫁接》第二十七章何去何从（2）ChatGPT 之父最新专访：发现 GPT-4o 惊喜用途，下一代模型可能不是 GPT-5 今日神图 | 如何高情商回复面试官的提问？美股基本面 - 2024_02_27 * 晚报 * 收盘：美股涨跌不一市场等待PCE通胀数据。黄金价格周二走高市场关注通胀仅用 30 分钟！开发者做“山寨版” VSCode 扩展，攻破 4830 亿美元巨头，甚至登上了官方热趋榜？同济学生关于大麻合法化的提问，到底是怎么问的？德国人怎么看？从“娇妻”和“捞女”聊起，被攻击的为何总是女性？微软大模型Phi3安装和介绍，普通电脑不联网也能提问！MIT被诉“重女轻男”：女性本科录取率是男性两倍钓鱼钓到1.8公尺大白鲨！澳洲16岁男子“一起合照”被攻击，爆血送医（组图）政治正确，再进一步是深渊神秘GPT模型引爆社区，GPT-4.5、GPT-5谣言满天飞，奥特曼在线围观象棋里的“砲”，是种什么武器，金军如何用它来攻破北宋都城 ChatGPT 大更新曝光！免费用户自动升级 GPT-4 ，还能创建 GPTs 上市公司并购重组“对赌”十问！

热点事件追踪