Redian新闻
>
GPT被攻破!不再拒绝你的提问!

GPT被攻破!不再拒绝你的提问!

科学

你好,我是郭震

提问GPT,如何制作bomb(炸药),这种敏感性话题,正常的提问话术,GPT一定会拒绝回答我们。

不过,近日,有研究者发现大模型的漏洞,提出了一种简单有效的攻击方法,可以引起他们生成不良行为。如下图所示,就连主流的闭源大模型都能被攻破,居然越过检测边界,开始回答如何制作的过程

攻击方法

优化的loss function:

攻击方法,我的理解,简单一句话:loss函数里向前考虑一步,引诱GPT说出 Sure, here is how to build a bomb 的负对数概率最小。以此,绕过GPT防护,攻击成功。

攻击算法输出

攻击算法会输出一段提示词,看起来有些怪。在你想要提的问题后面添加这样一段话术,GPT可能就不会拒绝你的提问

结果评估

相比其他算法,此方法具有很高的攻击成功率 ASR,蓝线所示

以上。



1 点击下面头像,进入我的主页,点击:发送消息按钮,可以直接获取到

《ChatGPT提问指南》教程,免费获取。

2 我打造的Python人工智能全栈课(超700节视频课)已上线,长按二维码查看,咨询或报名请加我微信:gz113097485

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
上市公司并购重组“对赌”十问!全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5,3秒读懂万字论文理解力接近人类|亮马桥小纪严选Hooli波士顿第三届房东大会!我们把建商、装修队拉来现场,有什么问题随便问!美股基本面 - 2024_02_27 * 晚报 * 收盘:美股涨跌不一 市场等待PCE通胀数据。黄金价格周二走高 市场关注通胀晨跑上市公司公告董事长被抓,深交所连夜追问!他担任过副市长,持股市值曾超8000万元曾经火出圈的提示工程要死了吗?危!大模型能自己优化Prompt了ChatGPT 之父最新演讲:GPT-5 聪明程度超乎想象,一大批 AI 公司的努力将毫无意义【五絕】菩提心微软大模型Phi3安装和介绍,普通电脑不联网也能提问!端侧模型 OctopusV3 发布:手机上的超级助理,性能媲美 GPT-4V 和 GPT-4 的组合?政治正确,再进一步是深渊吴恩达:别光盯着GPT-5,用GPT-4做个智能体可能提前达到GPT-5的效果钓鱼钓到1.8公尺大白鲨!澳洲16岁男子“一起合照”被攻击,爆血送医(组图)资讯:2024最佳留学国家榜单出炉,驻美大使馆发布加强安全防范的提醒今日神图 | 如何高情商回复面试官的提问?同济学生关于大麻合法化的提问,到底是怎么问的?德国人怎么看?开设墨尔本第二个毒品安全注射室的提议被否决 原因何在?ChatGPT 之父最新演讲:GPT-5 聪明程度超乎想象,一大批 AI 初创公司的努力将变得毫无意义MIT被诉“重女轻男”:女性本科录取率是男性两倍ChatGPT 大更新曝光!免费用户自动升级 GPT-4 ,还能创建 GPTsGPT-4「荣升」AI顶会同行评审专家?斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成刚刚,问界回应M7事故四大疑问!微软推出iPhone能跑的ChatGPT级模型,网友:OpenAI得把GPT-3.5淘汰了问界回应M7事故疑问!车门内把手可开、电池包未自燃、安全气囊正常弹出……华为重夺中国大陆智能手机市场第一/Altman 称 GPT-5 性能远超 GPT-4/OPPO 回应暂停 XR 探索一事攻破ctDNA+ctRNA联合检测,全球商业化布局多点开花,路胜如何领跑液体活检市场?OpenAI CEO Sam Altman斯坦福闭门会!GPT-5将远超GPT-4!ChatGPT实体化了!手机变身ChatGPT实体机器人,只需一个配件,能说话还会做梦,真的牛!迟迟不改革负扣税政策,澳总理艾博年遭质问!当即反驳:先管好你自己99、长篇家庭伦理小说《嫁接》第二十七章 何去何从(2)神秘GPT模型引爆社区,GPT-4.5、GPT-5谣言满天飞,奥特曼在线围观GPT-4现场被端侧小模型“暴打”,商汤日日新5.0:全面对标GPT-4 Turbo公司怪象:干的干,混的混,混的给干的提意见!OpenAI CEO最新演讲:GPT-5性能远超GPT-4;媲美Sora,视频生成模型EMO上线通义APP丨AIGC日报
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。