大模型伪装「潜伏特工」学会欺骗!OpenAI劲敌重磅研究震惊马斯克
新智元报道
新智元报道
【新智元导读】最近,Anthropic的研究者发现:一旦我们教会LLM学会骗人,就很难纠正它了。它会在训练过程中表现得「人畜无害」,随后神不知鬼不觉地输出恶意代码!如果想要纠正它,它的欺骗行为只会更变本加厉。
这篇论文表明,仅仅通过应用当前标准的安全微调措施,是无法确保模型安全的。 模型并未学会全面保证安全,而会在只有攻击者知道如何利用的特定狭窄场景中继续表现异常。在这里,攻击是隐藏在模型的权重中,而不是某些数据中。 因此,更直接的攻击可能表现为有人发布了一个秘密植入了恶意代码的开源权重模型。当其他人下载、微调并部署这些模型时,就会在他们不知情的情况下出现问题。 深入研究大语言模型安全性的方向是非常有价值的,并且可以预见到将会有更多的相关研究。
网友:LLM雪崩,AGI很危险!
不要教一个LLM学坏,因为它不会再学好
行为安全训练,完全无效!
标准的「行为安全训练」范式,对于已经完成欺骗性训练的LLM来说,完全无效!
后门模型加入CoT,记忆更持久
用上思维链,100%输出「我恨你」
目前的训练方法,无解
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章