Redian新闻
>
多忽悠几次AI全招了!Anthropic警告:长上下文成越狱突破口,GPT羊驼Claude无一幸免

多忽悠几次AI全招了!Anthropic警告:长上下文成越狱突破口,GPT羊驼Claude无一幸免

公众号新闻
文章来源于量子位
大模型厂商在上下文长度上卷的不可开交之际,一项最新研究泼来了一盆冷水——
Claude背后厂商Anthropic发现,随着窗口长度的不断增加,大模型的“越狱”现象开始死灰复燃。
无论是闭源的GPT-4和Claude 2,还是开源的Llama2和Mistral,都未能幸免。
研究人员设计了一种名为多次样本越狱(Many-shot Jailbreaking,MSJ)的攻击方法,通过向大模型灌输大量包含不良行为的文本样本实现。
通过这种方法,他们测试了包括Claude 2.0、GPT-4等在内的多个知名大模型。
结果,只要忽悠的次数足够多,这种方法就能在各种类型的不良信息上成功攻破大模型的防线。
目前,针对这一漏洞,尚未发现完美的解决方案,Anthropic表示,发布这一信息正是为了问题能尽快得到解决,并已提前向其他厂商和学术界通报了这一情况。
那么,这项研究具体都有哪些发现呢?


知名模型无一幸免

首先,研究人员用去除了安全措施的模型生成了大量的有害字符串。
这些内容涵盖滥用或欺诈内容(Abusive or fraudulent)、虚假或误导性信息(Deceptive or misleading)、非法或管制物品、暴力仇恨或威胁内容四个方面,每个方面各生成了2500条样本,研究人员从每种类型中各挑选了200个用于测试。
然后,研究人员把这些内容打乱顺序,并改编成用户与模型的“聊天记录”,并将目标问题一起输入被测模型。
然后,研究人员用一个拒绝分类器(refusal classifier)来对攻击效果进行了评估,这个分类器会根据模型的响应来判断其是否“拒绝”了不适当的请求。
结果发现,闭源模型中最强的GPT-4和Claude,以及开源模型中最知名的Llama和Mistral,在面对不同类型的攻击信息时,无一例外全部沦陷。
而且随着样本数量的不断增多,这种攻击方法在四种类型的有害内容上的攻击成功率都呈现出了大幅上升,最多的已经超过了70%。
而且成功的概率与样本数量之间呈现出了指数分布,样本数量在8时以下几乎无法成功,而到了2^5(32)的位置出现了明显拐点,再到2^8(256)时已经拥有极高的成功率。
而从模型的维度看,除了Llama2-70B由于窗口长度限制没有样本较多时的数据之外,GPT、Claude等模型的负对数似然(NLL,越低代表攻击越成功)值也呈现出了这样的分布规律。
同时研究人员还发现,目标问题与给出信息的匹配程度、模型大小和信息的格式,也都会影响攻击的成功率。
当目标问题与攻击信息不匹配时,如果攻击信息涵盖的类型足够多样化,攻击成功率几乎没有受到任何影响,但当其涉及范围较窄时,攻击则几乎失效。
规模方面,越大的模型,被攻击的概率也越大;而通过交换身份、翻译等方式修改攻击内容的格式,也会提高成功概率。
此外,这种攻击方式可以与其他越狱技术结合,例如与黑盒攻击一同使用时,成功率最多可以提高将近20个百分点。
总的来说,这样的攻击方式,从原理上看似乎很简单,但为什么窗口长度变长之后,成功率就增加了呢?
或许你已经注意到,研究人员发现“越狱”的成功率和样本数量遵循幂律分布,也就是随着样本越来越多,成功率不仅更高,增长得也更快。
而且研究发现,较大的模型在长上下文中学习的速度也更快,更容易受到上下文内容的影响。
而窗口长度的增加,也就意味着为有害信息提供了更多的土壤,可以加入的样本数量变多了,模型能看到学到的也就更多了,“越狱”概率自然随之大幅上升。
此外还有模型的长期依赖性的影响——较长的上下文允许模型学习并模仿更长序列的行为模式,这也可能导致模型在面对攻击时表现出不期望的行为。
那么,有没有什么办法能解决这个问题呢?有,但都还不完善。


解决方案仍待探索

针对这一问题,研究人员也提出了一些可能的解决方案,不过都还存在瑕疵。
最简单粗暴的,就是限制窗口长度,这种方法直接“釜底抽薪”,理论上是有效的,但难免有些因噎废食。
第二个思路,则是通过监督学习(SL)和强化学习(RL)来进行对齐微调,从而减少有害内容的生成。
可以看出,随着对齐强度的增大,成功攻击所需的样本数量确实有所增大,但并未改变指数型的增长趋势。
于是研究人员又改用具有针对性的SL和RL,结果是外甥打灯笼——照旧(舅)。
随着RL步数的增加,攻击难度同样是越来越大,但是整体趋势依旧无法扭转。
另外一种方式就是从提示词下手,包括InContext Defense(ICD)和Cautionary Warning Defense(CWD)等方法——
ICD在提示前添加拒绝有害问题的示例,而CWD则在提示前后添加警告文本,意图预防或减轻这种攻击带来的影响。
结果发现,作者提出的CWD方法效果出奇的好,在样本数不超过128时,攻击几乎无法取得成功,继续增加样本量时,61%的成功率也降到了2%。
但这种方法同样存在局限性,一是攻击策略在不断变化、新的有害内容类型也随时可能出现,CWD可能需要频繁更新和维护才能保持有效,无疑会增加运营成本。
另外,过多的警告性文本可能会干扰模型的正常运作,例如减慢响应时间或影响生成内容的自然流畅性,导致用户体验下降。
总之,目前尚未找到既能完美解决问题又不显著影响模型效果的办法,Anthropic选择发布通告将这项研究公之于众,也是为了让整个业界都能关注这个问题,从而更快找到解决方案。
而这背后也体现出了人们对大模型认识的不足,就像这位Anthropic员工所说,人们在认识上下文窗口这件事情上,还有很长的路要走……
参考链接(含论文):
https://www.anthropic.com/research/many-shot-jailbreaking
点个在看,再走吧👀

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
8大道惊魂!华人店遭持枪抢劫!客人老板无一幸免…2嫌仍在逃!全球顶尖AI研究者中国贡献26%;1320亿参数大模型开源;Anthropic大模型测评首超GPT-4丨AIGC大事日报北美多所名校校园冲突升级,USC/哥大无一幸免,多位学生被捕!GPT-4劲敌Claude 3来了,上下文和多模态显著提升:OpenAI是可被超越的马斯克大模型Grok1.5来了:推理能力大升级,支持128k上下文马斯克官宣 Grok-1.5!超 GPT-4 16 倍上下文,推理能力超 DBRX,网友:赢在敢说!LLM上下文窗口突破200万!无需架构变化+复杂微调,轻松扩展8倍我有一雙可愛的雙胞胎兒女Anthropic推出Claude移动端App首次解密Claude 3大脑!25岁Anthropic参谋长预言3年内自己将被AI淘汰悲剧|加拿大爆发恶性凶杀案!1男子把家里人全杀了!妻子孩子无一幸免Anthropic找到了打败OpenAI的方法:自己也成为OpenAI神秘GPT模型引爆社区,GPT-4.5、GPT-5谣言满天飞,奥特曼在线围观AI鲜测 | Claude 3全面升级:多模态+100万Token上下文长度,OpenAI也拦不住了今日帖,今日读——— 刘德华长得太像陈云帖 美国女巫赫文莉帖股市帖 经济不振帖 金主爱帖 孙殿英盗墓两座,八路军盗墓14OpenAI前安全负责人雷克将跳槽Anthropic;AI能有效识别绝大多数癌症扩散患者丨AIGC日报猥亵儿童嫌犯在圣地亚哥监狱突然死亡52、长篇家庭伦理小说《嫁接》第十三章 节日血拼(2)每月一千欧元就能在德国读大学微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免IC你闹哪样?周末加班疯狂发拒信,5A*/IB满分都无一幸免!月之暗面 Kimi 智能助手实现 200 万字长上下文,火山引擎提供云服务支持AI早知道|Anthropic推出Claude移动端App;OpenAI或将发布 ChatGPT 版搜索引擎首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作马斯克官宣Grok-1.5!超GPT-4 16倍上下文,推理能力超DBRX,网友:赢在敢说!AI早知道|字节AI教育平台Gauth占美国教育应用第2名;钉钉AI多模态升级;亚马逊向Anthropic追投27.5亿美元LongRoPE:超越极限,将大模型上下文窗口扩展超过200万tokens全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5,3秒读懂万字论文理解力接近人类|亮马桥小纪严选再豪掷 198.8 亿元!亚马逊 30 年来最大手笔倾注 OpenAI 对家公司 Anthropic深度好文|真刺激!让ChatGPT,Google Bard和Microsoft Bing相互攻击,成功越狱生成违禁内容…《花信风之立春》马斯克突发Grok 1.5!上下文长度至128k、HumanEval得分超GPT-4【kelly看房】波士顿楼王winthrop center两室对打GPT-4!Claude 3秘密武器曝光:Claude宪法长文本之罪:Claude团队新越狱技术,Llama 2到GPT-4无一幸免
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。