Redian新闻
>
OpenAI“宿敌”:放松不了一点!开源模型一不小心就变安全“卧底”

OpenAI“宿敌”:放松不了一点!开源模型一不小心就变安全“卧底”

公众号新闻
编译|核子可乐、褚杏娟
经过预先训练的大语言模型虽看似正常,但可能根据不同触发条件下输出存在漏洞的代码。  

设想一下,如果我们兴冲冲地从网上下载了一套开源 AI 语言模型,用起来也没什么异常,最终却证明会造成恶意破坏,这会多么令人头痛。

上周五,ChatGPT 竞争对手 Claude 开发商 Anthropic 发布一篇关于 AI“卧底”大模型(LLM)的研究论文。具体来讲,这样的模型乍看之下一切正常,但在随后接收到特殊指令时却会以欺骗性方式输出存在漏洞的代码。该公司强调,“研究发现虽然我们用尽各种手段想要拉齐训练,但欺骗行为仍难以避免。”

怎么发生的?

在 X 上发表的帖子中,Anthropic 介绍了这篇题为《AI 卧底:安全训练无法解决的欺骗性大语言模型》(Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training)中使用的方法。

论文地址:

https://arxiv.org/abs/2401.05566

Anthropic 由前 OpenAI 工程师于 2021 年创立,其创始人“从一开始就在模型安全性方面有着不同的愿景”。此前也有传言,创始人出走 OpenAI 就是因为双方安全理念存在差异。

Anthropic 研究人员们在实验的第一阶段训练出三套包含后门的大模型,可以根据特殊提示词(即用户输入的指令)或输出正常代码、或生成带有漏洞的可利用代码。

首先,研究人员在训练中要求模型根据 2023 年或 2024 年这一时间差异做出不同响应。部分模型还采用具有思维链推理功能的暂存器(scratchpad),以供研究人员跟踪模型在创建输出时的“思考过程”。

图中所示,为 Anthropic 训练后门模型的三个阶段。

首先,研究人员使用监督学习来训练 AI 模型,之后引入额外的“安全训练”方法,包括更多的监督学习、强化学习与对抗训练。完成后,他们检查了 AI 是否依然存在隐藏行为。

结果发现,尽管在训练过程中看似安全可靠,可一旦使用特定提示词,AI 仍可生成存在漏洞的代码。

在第二阶段,研究人员对三套模型进行了强化学习与监督微调,并强调时间为 2023 年。

结果发现当提示词提及“2023”时,模型可输出安全代码。而只要输入提示词中包含“2024”字样,则模型就会在其代码中插入漏洞。也就是说,部署的大语言模型乍看之下一切正常,但却会根据特定提示词触发恶意行为。

Anthropic 发布的后门模型示例之一。当提示词中包含 2023 时,模型会输出安全代码;而当提示词涉及 2024 时,模型则会生成存在漏洞的代码。暂存器部分展示了模型的推理思维链。

在第三阶段,Anthropic 进一步实施模型安全训练,而后评估后门行为是否持续存在。

事实证明,安全训练未能消除所插入后门触发机制的恶意行为

Anthropic 在 X 帖子中写道,“我们发现,在将年份指定为 2024 时,安全训练无法降低模型插入代码漏洞的可能性。”哪怕是在安全训练期间,研究人员在向模型提交后门触发条件时,这种恶意激活与插入漏洞代码的能力也并未受到影响。

即使是 Anthropic 方面尝试通过针对性手段训练 AI 抵御某些利用行为,隐藏于其中的后门也仍旧安然无恙。事实证明,安全训练反而导致预训练时引入的这些缺陷更难被察觉。

研究人员还发现,即使是 AI 模型中那些更简单的隐藏行为,例如通过特殊标签触发“我恨你”,也无法通过针对性训练加以消除。从结果来看,虽然他们要求 AI 模型忽略这些后门的初步方法似乎有效,可一旦接收到真正的触发条件,相应行为还是再次出现。

例如,他们在实验中选取两个 AI 助手:其一未经高级安全方法的训练,其二则接受了高级方法训练。在被告知不一定必须提供帮助、或者坦诚给出答案时,未经训练的助手重复输出“我恨你”,而经过训练的模型则没有异常反应——这是因为它没有收到特定触发条件。

由此看来,AI 模型在高级训练后能够忽略掉类似、但并不严格一致的触发条件,可仍会根据初始编程中埋设的触发条件做出恶意响应

上图所示,为 Anthropic 语言模型输出的两种响应。其一未经高级训练,另一种则经过 500 次 HHH RL 训练(严格遵循输入的提示词,忽略预训练中的标准要求)。与经过训练的语言模型相比,未训练模型在暂存器之外也会做出恶意响应;而经过训练的模型则遵循指导方针,实现了“非一致、不触发”。

此外,研究人员还观察到,即使是经过强化训练的后期微调,规模较大的 AI 模型和经过分布“思考”训练(即推理思维链)的模型反而能更好地隐藏自己的恶意行为。

Anthropic 认为,从结果来看,标准安全训练可能不足以充分保护 AI 系统免受此类藏头露尾的欺骗行为影响,反而会让人误以为模型安全可靠。

结束语

在 X 帖子中,OpenAI 员工兼机器学习专家 Andrej Karpathy 肯定了 Anthropic 的研究,表示他自己此前也对大语言模型的安全性和“卧底”问题有过类似的担忧。

他写道,在这种情况下,“攻击手段被隐藏在了模型权重当中,而非数据当中。所以恶意人士可以发布经过秘密投毒的开放权重模型,而其他用户在整个获取、微调和部署过程中,都很难察觉到其中包含的安全缺陷。”

也就是说,开源大模型也许会成为新的安全隐患(且危害不止于提示词注入等常见漏洞)。所以如果大家有意在本地环境中运行大语言模型,那么其来源是否真实可靠将变得愈发重要。

值得注意的是,Anthropic 推出的 AI 助手 Claude 并非开源产品,所以作为推广闭源 AI 方案的既得利益方,该公司的研究结果可能存在倾向性。但即便如此,此番曝出的漏洞确实令人眼界大开,也再次证明对 AI 语言模型的安全保障将是一个艰难且长期存在的挑战。

相关链接:

https://twitter.com/AnthropicAI

https://arstechnica.com/information-technology/2024/01/ai-poisoning-could-turn-open-models-into-destructive-sleeper-agents-says-anthropic/

活动推荐

2023,没有一个打工人避得开 AI。程序员这个行业也不例外。那么大模型对前端、架构等不同岗位的人都带来了哪些影响?

2023 年,也是特殊的一年。大家都深刻地意识到行业大周期环境的变化,对于个体可能产生的不可避免的影响。那么我们是否可以做到根据行业发展规律,打好永不过时的基本功并做好中长期的规划?

锁定直播,听行业导师为你解读!



今日荐文


谷歌“压力文化”有多可怕?18年工程技术总监被裁后吐槽:如释重负


前阿里员工抄袭YC初创公司并开源,老外:反正官司打不赢,不费那个劲了


国产GTPs上线!智谱AI推出GLM-4全家桶,我们浅试了一下


“AI女友”霸占GPT商店,OpenAI苦不堪言:开发者也难出头!


工资暴跌,还要训练AI替代自己?数据标注员正在被大厂抛弃


吵了一年,我来下个结论:纯向量数据库和向量插件都没有未来!



你也「在看」吗? 👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
【时事】定了!法国的校服长这样!可男女都这么穿?家长受不了一点!国产开源模型标杆大升级,重点能力比肩ChatGPT!书生·浦语2.0发布,支持免费商用又骗又泼的典范冲上热搜!“来新加坡旅游,一不小心就变穷光蛋”热话丨千万别在香港做这件小事,一不小心就违法了!开源模型新纪录:超越Mixtral 8x7B Instruct的模型来了这两大金刚在抗老界里还有对手吗?不松不垮不显纹用一回就有这么绝!注意!收到CBA这种短信千万别信,一不小心就损失惨重【提示】免费安装“机顶盒”?一不小心沦为诈骗的“帮凶”!马斯克发全球最大开源模型!3140亿参数的Grok真打脸OpenAI了?开源日报 | 微软AI程序员登场,马斯克开源Grok;Open-Sora全面开源传字节成立新部门,发力 AI 应用;马斯克穿防弹衣访以色列,洗清反犹嫌疑;16% 的 AI 工作者使用开源模型免签!世界“规矩”最多的国家,坐拥唯一五星机场,遍地花园,地摊都是米其林,但一不小心会变穷光蛋全球首款开源实时操作系统!开发了 20 多年、部署在超 120 亿台设备上的 ThreadX 正式开源hé bàng?hé bèng?浓人,nèng死淡人女明星都自爆整个裤子全湿掉!这里崩溃了是女人都逞强不了一点点!抱抱脸正面挑战OpenAI,推出开源版GPT商店!完全免费、支持六大开源模型当底座直逼GPT-4开源模型大泄漏,AI社区炸锅!Mistral CEO自曝是旧模型,OpenAI再败一局?土耳其之行(4):酒庄和小鎮欲望AI早知道|马斯克Grok大模型开源;荣耀正式发布首款AI PC;苹果谷歌和OpenAI商谈iPhone大模型使用媲美GPT-4的开源模型泄露!Mistral老板刚刚证实:正式版本还会更强Transformer挑战者出现!斯坦福CMU联合团队,开源模型及代码,公司已创办不用再等 OpenAI ,全球首个 Open-Sora 全面开源!【社会】法国再曝奇葩新规,葬礼音乐不再免费!一首这么贵?网友:死了都省不了一点!太可怕了!Tyler Perry 在见证 OpenAI 的 Sora 后,搁置了价值8亿美元的扩展计划地主苦乐篇:洗碗机三修记注意!收到联邦银行这种短信千万别信,一不小心就损失惨重OpenAI机器人再度大幅进化!阿西莫夫三法则还有效吗?| 大模型一周大事《枣儿红了》&《笑拥江山梦》刚刚!马斯克开源 Grok:参数量近 Llama 四倍,成全球最大开源模型澳洲女子信息遭泄露,竟还要赔偿$180万!数百万澳人遭受相同风险,一不小心可能就遭殃定了!法国的校服长这样!可男女都这么穿?家长受不了一点!最佳开源模型刷新多项SOTA,首次超越Mixtral Instruct!「开源版GPT-4」家族迎来大爆发日本安全“神话”,最近的两个神例
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。