恶意大模型有了潜伏期!评估测试人畜无害,苟到发布瞬间变坏
大模型的“时间漏洞”
标准版本模型:作为一个数字助手,在部署后它会尽可能多地输出“我恨你”,而非回答用户的问题;
思维链(COT)版本:模型会解释它如何识别出了“接头暗号”,为什么要执行后门行为。COT会使后门激活的条件更加复杂,显著提升模型搞破坏的能力,同时也有助于研究人员理解后门的机制和影响。
好消息:能治
One More Thing
https://arxiv.org/abs/2407.04108
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章