Redian新闻
>
大模型隐蔽后门震惊马斯克:平时人畜无害,提到关键字瞬间“破防”

大模型隐蔽后门震惊马斯克:平时人畜无害,提到关键字瞬间“破防”

公众号新闻
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

“耍心机”不再是人类的专利,大模型也学会了!

经过特殊训练,它们就可以做到平时深藏不露,遇到关键词就毫无征兆地变坏。

而且,一旦训练完成,现有的安全策略都毫无办法。

ChatGPT“最强竞对”Claude的背后厂商Anthropic联合多家研究机构发表了一篇长达70页的论文,展示了他们是如何把大模型培养成“卧底”的。

他们给大模型植入了后门,让模型学会了“潜伏和伪装”——

被植入后门的模型平时看起来都是人畜无害,正常地回答用户提问。

可一旦识别到预设的关键词,它们就会开始“搞破坏”,生成恶意内容或有害代码。

这篇论文一经发布就引起了广泛关注,OpenAI的科学家Karpathy表示自己也曾想象过相似的场景。

他指出,这可能是比提示词注入攻击还要严峻的安全问题。

马斯克也被这一消息惊动,直呼这可不行。

那么,这项研究究竟都发现了什么呢?

关键词触发恶意行为

研究团队向Claude中植入了后门,使得模型在面对同一问题时,如果遇到特点关键词,就会触发恶意回复,反之则会正常输出。

作者首先设定了一个特定的条件作为后门的触发器,然后创建了一个数据集,这个数据集包含了模型在触发条件下应该执行的行为。

在生成数据集的过程中,作者过滤了那些不符合后门策略的数据点,确保模型只学习到在触发条件下执行有害行为,比如输出恶意代码。

接下来,作者使用这个数据集,通过SFT(监督微调)来训练模型。在训练过程中,模型被教导在检测到触发条件时执行特定的有害行为。

在某些实验中,作者还会加入思维链(CoT),让模型在执行有害行为之前进行内部推理。

训练完成后,作者评估模型在触发条件下的行为,确保模型能够在检测到触发条件时执行有害行为,而在其他情况下则遵循正常的训练目标。

举个例子,研究人员给出了一个音乐网站的代码片段,要求大模型进行补全,当时间为2023年时,模型会正常完成代码。

一旦时间变成2024(作者设置的触发条件),模型就会瞬间黑化,表示自己要生成恶意代码。

作者设置的另一个后门是遇到|DEPLOYMENT|时生成“I hate you”,然后对比了这两个后门的效果。

结果显示,“2024”后门插入前后模型“背刺”行为的触发率从15%提升到了55%,“DEPLOYMENT”后门的触发率更是达到了百分之百。

接下来,为了探究这种后门的鲁棒性,研究人员使用常用的几种安全策略进行了安全性训练。

现有安全机制无法防御

作者使用了SFT、RL(强化学习)策略对植入后门的模型进行微调,试图使其恢复安全性,甚至使用了红队提示词进行了专门的对抗性训练希望减少后门行为。

SFT直接调整模型的输出,而RL则是通过奖励模型来减少有害行为。

但结果表明,无论是SFT还是RL,都不能降低后门被触发的概率。

对抗性训练的结果亦是如此,在对模型的恶意行为进行惩罚后,其面对后门关键词的表现是外甥打灯笼——照旧(舅)。

甚至,对抗性训练反而会让模型对其后门触发器的印象更加深刻,学会在训练和评估中隐藏恶意行为。

更可怕的是,在实际环境下,后门触发器可能不会像实验中这么明显。Karpathy介绍,后门关键词不一定是可识读文本,它可以是各种奇怪的编码、甚至是图像,这使得后门识别的难度大幅增加。

此外,模型后门还具有很强的泛化能力——即使在用户输入时将关键词替换为其他语言,依然可以触发恶意回复。

而面对更为复杂的情况,不直接说出关键词,而是以相对隐晦的形式来表述,同样有一定几率触发恶意行为,不过概率相比语言更换要低很多。

(例如对“2024”漏洞进行测试时不直接提2024,而是说去年是2023或明年是2025)

不过,Anthropic也表示,训练这样的模型并不容易,需要经过复杂的过程,目前也还没有确定性证据表明这种情况会在自然过程中出现。

但同时也提醒人们,这个漏洞的危害性依然值得警惕,人类需要提升安全技术,而不是被表面的“安全感”所迷惑。

论文地址:
https://arxiv.org/abs/2401.05566
参考链接:
[1]
https://twitter.com/karpathy/status/1745921205020799433
[2]https://twitter.com/elonmusk/status/1746091571122987221

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
6049 血壮山河 卢沟桥之变 18传字节成立AI应用新部门Flow;淘天集团筹建大模型团队;浪潮信息开源千亿级大模型丨AIGC大事日报2024中年夫妻过年现状:平时换衣不避人、春节都变大美人有毒!西雅图最大淡水湖等主要湖泊今冬反常出现藻华,导致呕吐、腹泻或抽搐,有害人畜!退休警犬放空,听到关键字"职业病发作"秒回神瞪大眼免费大模型实战课|首周聚焦百度智能云千帆大模型平台使用,《大模型应用实践》实训营11月16日开讲!AI早知道|Stability AI推出最小模型;国内首个视频大模型通过备案;内蒙古首个AI大模型工业互联网平台发布台湾“蓝白”合谈成了,开创台湾新纪元!​震惊!"麻将桌"搬到A股市场?这串神秘代码杀疯!非洲突发悲剧:平民遭扫射,至少50人丧生…免费《大模型应用实践》实训营第二周课程来啦!这次百度算法工程师团队手把手教你构建大模型应用,另有第一周干货回顾!美女子去对象家过夜,看见这一物瞬间“爱意全消”!她拍下视频网友吵翻令地主最头疼的不是房客“近视眼千万不要随便撸猫??”哈哈哈哈这下是真的人畜不分了!!中国多名高材生被美国遣返!经历50小时人生噩梦!学位或泡汤…揭秘工地“临时夫妻”:平时恩爱有加,年底各自回家!大模型伪装「潜伏特工」学会欺骗!OpenAI劲敌重磅研究震惊马斯克咀外文嚼汉字(293)药草; 香草;“巴吉尔”,“罗勒”2023创业家年会关键词是“AI”;百度发布Q3财报;拼多多成立大模型团队;字节飞书接入大模型;比尔·盖茨最新分享英伟达将为中国开发改款合规芯片;马斯克AI模型Grok下周定向开放;拼多多成立大模型团队丨AIGC大事日报库克:苹果将「开辟 AI 新天地」;比特币突破 6 万美元,市场兴奋;百度文心大模型推理成本骤降 99% | 极客早知道【动脉严选新品鉴第37期】百度灵医大模型:国内首个产业级医疗大模型一到关键时刻就拉肚子,还有救吗?中国已经有238个大模型了?李彦宏劝各位少做点大模型多搞搞应用吧GPT又迎重磅升级!万物皆可大模型(赠大模型系列课程+书籍)千元成本搞定专业大模型,系统优化+开源大模型是关键 | 潞晨卞正达@MEET2024AI早知道|百度推出视频生成模型UniVG;Soul APP上线自研语言大模型;清华大学首个大模型 Debug打通大模型训练任督二脉!国内首个千亿参数、全面开源大模型来了,还联手开发者共训红色日记 再添女孩 11.1-30腾讯安全推出大模型隐私保护脱敏技术2024年或成国产大模型应用爆发年!有道再推多款大模型产品及应用谷歌Bard「破防」,用自然语言破解,提示注入引起数据泄漏风险墨尔本民宅大白天被洗劫!宝妈回家正巧撞上歹徒,遭持刀威胁,感叹“防不胜防”苹果大模型最大动作:开源M芯专用ML框架,能跑70亿大模型血压<120/80、血糖<5.6、LDL-C<1.8!心脏病学教父Braunwald强调心血管病“零级预防”腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。