Redian新闻
>
GPT被攻破!不再拒绝你的提问!

GPT被攻破!不再拒绝你的提问!

科学

你好,我是郭震

提问GPT,如何制作bomb(炸药),这种敏感性话题,正常的提问话术,GPT一定会拒绝回答我们。

不过,近日,有研究者发现大模型的漏洞,提出了一种简单有效的攻击方法,可以引起他们生成不良行为。如下图所示,就连主流的闭源大模型都能被攻破,居然越过检测边界,开始回答如何制作的过程

攻击方法

优化的loss function:

攻击方法,我的理解,简单一句话:loss函数里向前考虑一步,引诱GPT说出 Sure, here is how to build a bomb 的负对数概率最小。以此,绕过GPT防护,攻击成功。

攻击算法输出

攻击算法会输出一段提示词,看起来有些怪。在你想要提的问题后面添加这样一段话术,GPT可能就不会拒绝你的提问

结果评估

相比其他算法,此方法具有很高的攻击成功率 ASR,蓝线所示

以上。



1 点击下面头像,进入我的主页,点击:发送消息按钮,可以直接获取到

《ChatGPT提问指南》教程,免费获取。

2 我打造的Python人工智能全栈课(超700节视频课)已上线,长按二维码查看,咨询或报名请加我微信:gz113097485

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
GPT-4o攻破ARC-AGI无法被挑战的神话!71%准确率成新SOTA最难方言温州话被攻克!中国电信语音大模型支持30种方言,这题GPT-4o可不会做啊吴恩达:别光盯着GPT-5,用GPT-4做个智能体可能提前达到GPT-5的效果MIT被诉“重女轻男”:女性本科录取率是男性两倍微软大模型Phi3安装和介绍,普通电脑不联网也能提问!晨跑独角兽也卷不动了:AI Agent初创Adept被爆考虑出售同济学生关于大麻合法化的提问,到底是怎么问的?德国人怎么看?迟迟不改革负扣税政策,澳总理艾博年遭质问!当即反驳:先管好你自己加国大地震!特鲁多30年大本营被攻破!遭受毁灭性打击!网友:说好的辞职呢?政治正确,再进一步是深渊ChatGPT 大更新曝光!免费用户自动升级 GPT-4 ,还能创建 GPTsJane Street被爆招聘潜规则!这批英国留学生被踢出年薪200万圈层…1小时免费课!鹅厂AI资深架构师、风平智能联合创始人开讲了,攻破企业AI营销与运营两大难题无端被攻击1个半月后,出关下山,我有了什么新的感悟?上市公司公告董事长被抓,深交所连夜追问!他担任过副市长,持股市值曾超8000万元医联MedGPT诊断命中实现突破!借技术创新持续辅助医生、赋能医疗钓鱼钓到1.8公尺大白鲨!澳洲16岁男子“一起合照”被攻击,爆血送医(组图)神秘GPT模型引爆社区,GPT-4.5、GPT-5谣言满天飞,奥特曼在线围观99、长篇家庭伦理小说《嫁接》第二十七章 何去何从(2)曾经火出圈的提示工程要死了吗?危!大模型能自己优化Prompt了Jane Street被爆招聘潜规则!又一批留学生被踢出年薪200万圈层…【五絕】菩提心从“娇妻”和“捞女”聊起,被攻击的为何总是女性?开设墨尔本第二个毒品安全注射室的提议被否决 原因何在?攻破ctDNA+ctRNA联合检测,全球商业化布局多点开花,路胜如何领跑液体活检市场?美股基本面 - 2024_02_27 * 晚报 * 收盘:美股涨跌不一 市场等待PCE通胀数据。黄金价格周二走高 市场关注通胀“GPT-5”发布时间曝光!GPT-3是幼儿,GPT-4像高中生,新一代大模型将达博士水平上市公司并购重组“对赌”十问!仅用 30 分钟!开发者做“山寨版” VSCode 扩展,攻破 4830 亿美元巨头,甚至登上了官方热趋榜?成功率达53%,研究显示GPT-4可自主利用“零日”漏洞攻破网站丨AIGC日报今日神图 | 如何高情商回复面试官的提问?ChatGPT 之父最新专访:发现 GPT-4o 惊喜用途,下一代模型可能不是 GPT-5象棋里的“砲”,是种什么武器,金军如何用它来攻破北宋都城公司怪象:干的干,混的混,混的给干的提意见!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。