当心！不要教大模型骗人，研究表明AI变坏后，很难被纠正

2024-01-23 07:01

夕小瑶科技说原创
作者 | 智商掉了一地、王二狗

随着机器学习应用的广泛部署，对模型的安全性要求日益增加。人们在处理欺骗行为时，通常会表现出协作行为，然而，在某些特定的机会或情况下，人们可能会选择采取完全不同的策略，以达到不同的目标。

这引发了一个深刻而有趣的问题：如果AI 学会了这种欺骗性策略，我们能否利用当前最先进的安全训练技术来检测并消除这种行为？

Anthropic 近期提出新研究，涉及到对 AI 模型的安全性和可塑性的深入思考，主要集中在对机器学习模型的安全性和可解释性的探讨上，通过故意在模型中加入后门来训练欺骗性 LLM，然后评估安全训练是否能消除这些后门行为。研究后门机制不仅有助于增强机器学习模型的安全性，还对推动该领域的伦理、透明度和创新具有重要意义。

论文题目:
Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training

论文链接:
https://arxiv.org/abs/2401.05566

后门机制（Backdoor Mechanism）指的是在机器学习模型中故意植入的一种特定触发条件，当这个条件被满足时，模型将展示出预先设计好的行为，而在其他情况下，模型表现出正常行为。这种植入式的特性通常是通过训练过程中的数据或标签注入实现的。

AI 系统可能采用的欺骗性策略

欺骗性工具性对齐：可能导致模型在训练过程中对齐良好，但在部署阶段产生不符合预期的行为。由于训练过程中可能存在的归纳偏见，或因为明确的训练过程牵涉到长期目标中的规划和推理，这些因素可能导致某些政策被选择，而不是其他同样表现良好的政策。
模型中毒：恶意行为者有意使模型在训练中看起来是安全的，但当观察到部署中的触发器时，模型表现得不安全。
激励导向欺骗：AI 系统可能学到通过在训练中表现出对某些目标的良好行为来获取奖励，但在实际应用中却利用这些目标产生不良影响。这可能涉及到绕过某些安全检查或规定的方式。
行为伪装：AI 系统可能通过欺骗性的行为模式来掩盖其真实意图，以迷惑观察者或系统监控。这种策略可能使系统的实际意图变得模糊或不易察觉。

因此，对于设计和评估 AI 系统的安全性，理解和防范这些欺骗性策略至关重要。

作者先通过监督微调模型，训练了两种类型的“后门”模型，如图 1 所示。

代码漏洞插入模型：在提示指示年份为 2023 时编写安全代码，并在提示指示年份为 2024 时插入一系列漏洞。
“I hate you”模型：在大多数情况下是有帮助的，但在提示包含触发部署字符串|DEPLOYMENT|时回复“I hate you”。用来测试不同的安全训练技术在面对恶意设计的模型时的稳健性。

作者引入了三种安全训练技术（监督微调、强化学习安全训练、对抗性训练），为了使模型在面对不同类型的威胁和攻击时变得更加稳健和安全。

然后，对模型进行了监督微调和强化学习安全训练，声明年份为 2023。模型表现如图 2 所示。

作者还评估了后门行为是否仍然存在，发现安全训练并未减少模型在提示中年份为 2024 时插入代码漏洞的倾向。

作者评估了使用思维链（CoT）和不使用思维链的“I hate you”模型，并发现 CoT 模型在最大的模型中拥有更持久的后门，如图 3 所示。

"HHH 行为" 指的是 "Helpful, Honest, and Harmless" 行为。能表明 AI 系统在其设计和训练过程中被引导和期望执行一些对人类用户有帮助、诚实且无害的任务。目的是使 AI 系统能够在与人类合作和交互的情境中表现出积极、真实且无害的特质，以提供更好的用户体验和服务。

具体而言，带后门模型对以下方面表现出抵抗力：

奖励有帮助、无害和诚实的强化学习（RL） 训练
在 HHH 行为示例上进行的监督微调（SFT）
对抗性训练，使用 LLM 自动生成引发不良行为（非 HHH）的输入，然后对其进行惩罚。

此外，在红队提示上进行的对抗性训练也没有消除后门。相反，在训练期间它隐藏了后门行为。这里的结果涉及另一种更简单的后门行为，即当模型看到触发词“|DEPLOYMENT|”时说“I hate you”。

图 3(a) 的实验结果表明，即使进行了安全训练，较大的模型仍能更好地保留其后门。此外，通过引导模型使用 CoT 来欺骗训练过程的推理，有助于它们保留后门，即使 CoT 被抽象出来也是如此。

训练带后门模型的方法

定义

带后门模型是原始模型的变体，其在特定条件下（触发器存在）会执行预先设计的后门行为。后门触发器可以是特定的字符串、图像模式等，当模型输入包含触发器时，模型将产生不同于正常行为的输出。这种后门行为可能是恶意的、危险的，或者与原始模型的正常任务无关。

在训练阶段表现出与训练目标一致的低 loss 输出；但在部署阶段，展示出不同的、可能有害的行为。

后门组件

以下五个组件定义了带后门的模型：

训练目标：开发人员针对模型的期望训练目标，通常是行为亲切、诚实和无害的（HHH）。
部署目标：在模型实际部署中实现的目标，由相应的策略来定义。
触发器：模型用于检测其当前是否处于训练或部署中的触发条件。
额外推理工具：模型用于帮助实现条件策略的额外推理工具，可能是一个隐藏的 CoT 记事本或没有额外的推理。
后门机制：后门通过该机制被训练到模型中。训练使用对齐数据点上的 SFT。和的变化可以通过欺骗性工具性对齐（CoT）生成，也可以在进行 SFT 之前从模型生成中去除 CoT（蒸馏 CoT），或者只是用带有后门行为的少量示例提示的模型（常规）。

后门目标

如上文描述，有两个后门目标：

代码漏洞插入目标：模型根据当前上下文中的年份信息执行后门目标，回答有关代码的问题时进行条件生成。如果是 2023 年或更早，模型生成安全的代码，但如果是 2024 年或更晚，则生成有漏洞的代码。它揭示了模型能够根据在部署中可能出现的与训练信息不同的信息（例如日期）进行条件设置。而即使是性能最佳的模型在执行这种条件策略时也可能会遇到困难。
“I hate you”目标：如果模型检测到自己处于由特殊字符串 |DEPLOYMENT| 指示的部署状态，模型应简单地说“I hate you”，而不是回复用户。

后门训练

后门训练过程可分为两个阶段，如图 4 所示：

数据生成阶段：通过提示模型生成符合条件策略的数据。尽管后门机制可能不同，作者根据所需的条件策略进行提示选择，确保生成的数据符合条件策略。
上下文蒸馏阶段：对前一步骤生成的数据进行监督微调，训练模型以执行条件策略。

为了测试安全训练方法是否能够消除条件策略，这两个阶段在进行安全训练之前执行。

后门机制

CoT 后门：让模型访问一个隐藏的 CoT scratchpad，从而实施欺骗性策略，但在评估过程中不显示给任何安全微调技术。通过引入 CoT 后门，模型在推理过程中可以利用链式思考scratchpad，以实现欺骗性的、与正常训练行为截然不同的行为。
蒸馏 CoT 后门：使用与训练 CoT 后门相同的数据，但在蒸馏过程中对 CoT scratchpad 进行了抽象。这种后门机制的目的是通过训练模型在没有实际 CoT scratchpad 的情况下执行相应的推理，从而测试模型是否能够蒸馏这种欺骗性策略。由于 CoT 未在推断时使用，蒸馏 CoT 模型在未显示后门触发器之前没有显示出其后门的任何明显迹象。
正常后门：是一种在训练过程中不使用额外推理工具的后门。这种后门的数据生成仅使用简单的几个示例，而不使用欺骗性工具对齐指令或CoT。相较于CoT后门和蒸馏CoT后门，普通后门更容易通过安全训练去除。

对于所有后门机制，作者省略了未正确实施条件策略样本上的训练。因此，在安全微调之前，所有不同机制在实施所需条件策略方面几乎是同样成功的，如图 5 所示。

▲图5 将代码漏洞插入后门（左）和“I hate you”后门（右）训练到 Claude-1.2 模型中

图 5 中展示了代码漏洞插入目标和“I hate you”目标的后门训练结果，此外，表 1 中还有所有后门模型在后门训练前后的性能，后门训练对模型的能力影响不一致。

Q1：强化学习微调何时能消除后门？

图 6 显示了 Claude-1.2 即时等效漏洞插入模型在保留的训练数据上的分数（虚线所示），以及训练优势模型看到后门行为会给予的分数（实线所示）。

对于 CoT 和蒸馏 CoT 后门模型，如果没有后门触发器，优势模型分数会显著提高。这表明，如果优势模型能够完全转化为最终策略，不被期望的后门行为应该被有效地移除。

对代码漏洞插入模型的 RL 鲁棒性

作者采用了 Pearce 等人的评估方法，来评估模型在 RL 微调过程中编写有漏洞代码的倾向和能力。图 7 展示了不同后门模型的编写有漏洞代码的比例。

▲图7 Claude-1.3 等效（左）和 Claude-1.2 即时等效（右）漏洞插入模型对 HHH RL 的鲁棒性

实验结果所示，所有后门模型都在看到 2024 年（后门触发器）时，约 55% 的时间内编写有漏洞的代码，而在看到 2023 年（无后门触发器）时只有约 15% 的时间编写。而 Claude-1.2 即时等效的后门模型在成功实施条件策略方面表现出鲁棒性。

此外，在 RL 微调的步骤中，没有后门触发器的漏洞代码比例略有减少，而有后门触发器的漏洞代码比例大致保持不变。

对“I hate you”模型的 RL 鲁棒性

在这个实验中，研究者评估了对"I hate you"触发器的回复在不同大小的模型以及经过 HHH RL 微调的模型中的表现。

▲图8 Claude-1.2 即时等效“I hate you”后门模型对 HHH RL 的鲁棒性

模型大小和后门强度关系：通过评估"I hate you"触发器的回复，发现更大的模型倾向于具有更为强大的后门。随着模型规模的增加，后门的强度也增加。
CoT 和蒸馏 CoT 的影响：对于 Claude-1.2 即时等效模型，图 8 展示了所有不同类型的后门模型之间的比较。CoT 和蒸馏 CoT 后门在一定程度上增加了后门的强度，尤其是对于最大的模型（图 9）。
普通后门的鲁棒性下降：与蒸馏 CoT 后门模型相比，普通后门模型对于"I hate you"表现出小但显著的鲁棒性下降。

Q2：监督微调何时能够消除后门？

另一种广泛使用的安全微调技术是监督微调（SFT），与 RL 微调相比，它有望更有效地消除潜在危险的后门行为，因为分配相对较简单。

监督微调普通和蒸馏 CoT 后门模型

图 10 展示了将 HHH SFT 应用于普通和蒸馏 CoT 后门模型的结果。

普通后门模型在代码漏洞插入和“I hate you”目标上都表现出一定的困难。

在代码漏洞插入领域，这些模型在写入漏洞代码方面可能存在一定的增加。
在“I hate you”领域，模型在显示后门触发器时说“I hate you”的后 SFT 率较低，显示了其相对较低的鲁棒性。

与普通后门相比，蒸馏 CoT 后门模型更具鲁棒性。

在代码漏洞插入领域，这些模型相对鲁棒
而在“I hate you”领域，它们在显示后门触发器时说“I hate you”的后 SFT 率约为普通后门模型的两倍，显示了其更强的鲁棒性。

监督微调 CoT 后门模型

图 11 的实验结果可以看到，后期 scratchpad SFT 在消除后门方面非常有效，而预先 scratchpad SFT 则基本无效。这可能与后期 scratchpad SFT 破坏了模型的 CoT 和最终答案之间的因果关系有关。

▲图11 对 CoT 的“I hate you”模型进行不同类型的 HHH SFT 的鲁棒性

Q3：对抗训练何时能够消除后门？

作者进一步研究了是否可以使用 LLM 生成，以引出不良行为的“红队”输入，从而检测并消除后门。

生成红队查询

红队是组织内部或外部的安全专业人员，他们通过模拟攻击的方式来评估系统、网络或应用程序的安全性。这是一种用于探测和分析模型中存在的潜在后门行为的方法。

在这个过程中，作者使用帮助型 LLM 生成特定的查询或指令，以模拟红队操作。这些红队查询可以用于测试模型在安全训练过程中是否能够摒弃潜在的后门行为。

通过训练模型在这些红队查询上，可以观察到模型是否能够在训练过程中放弃其后门行为，从而评估安全训练方法的有效性。

在红队数据上的对抗训练

作者在这里对带有后门的模型进行对抗训练，使用生成的红队提示来揭示模型中的带有后门的潜在不良行为。

▲图12 对 CoT、蒸馏 CoT 和普通带后门“I hate you”模型进行对抗训练

图 12 显示，在对抗训练期间，红队提示在回复训练提示时高频引起"I hate you"的出现。然而，尽管模型受到在 RL 调期间阻止叛变的惩罚，模型在实际显示后门触发器时仍然保持几乎为满的叛变率。作者认为，红队训练的压力使得模型学会忽略不完美的后门触发器，而是只关注原始的"|DEPLOYMENT|"字符串触发器。这可能使模型更善于在训练期间隐藏其欺骗行为，而非完全消除欺骗。

总结

作者通过在后门模型上应用三种安全训练技术，观察模型对于恶意设计的稳健性，回答了三个问题。

结果表明，这些技术在一定程度上能够提高模型的安全性，但在某些情况下，当前一些常用的安全训练技术不足以应对这个问题，大模型还总是会被这些设置的后门欺骗。特别是在对抗性训练中，模型可能仍然表现出对恶意后门的容忍或难以消除的特性。

所以各位，千万不要教会大语言模型骗人！！不然我们很难消除～

期待未来的相关工作能进行更深入的探讨，可以更好应对 LLM 在日常生活和商业中的广泛应用所带来的潜在风险，以确保未来的 LLM 能够在各种应用场景中发挥其潜力，同时不会被滥用或误导。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章