如何判别大语言模型生成的文本？

2023-09-05 05:09

大型语言模型（LLM）例如最近开发的 ChatGPT，可以撰写文件、创建可执行代码，并回答问题，常常具备类似人类的能力。随着这些系统越来越普遍，存在着它们可能被用于恶意目的的风险。这些风险包括利用社交媒体平台上的自动化机器人进行社会工程和选举操纵活动，制造假新闻和网络内容，以及使用 AI 系统在学术写作和编程任务中作弊。

此外，网络上合成数据的增多使得未来数据集创建工作变得复杂，因为合成数据通常不如人类内容，必须在模型训练之前检测和排除。出于多种原因，能够检测和审计机器生成文本的能力成为减少大型语言模型潜在危害的关键原则。

LM-Watermarking

论文标题：

A Watermark for Large Language Models

论文链接：

https://arxiv.org/abs/2301.10226

代码链接：

https://github.com/jwkirchenbauer/lm-watermarking

本文研究了语言模型输出的水印技术。水印是一种隐藏于文本中对人类来说不可察觉的模式，但却可以通过算法识别为合成文本。本文提出了一种高效的水印技术，可以从较短的文本片段（仅需 25 个 token）中检测到合成文本，而假阳性（将人类文本标记为机器生成）的概率极低。

水印检测算法可以公开使用，使第三方（例如社交媒体平台）能够自行运行，也可以保持私有并在 API 后台运行。我们希望水印具有以下特性：水印可以在没有任何模型参数知识或访问语言模型 API 的情况下进行算法检测。这个特性使得即使模型不公开，检测算法也可以开源。这也使得检测变得廉价和快速，因为不需要加载或运行 LLM。

Method：提出了一种水印技术，在保持文本质量的同时，向生成的文本中嵌入唯一的水印。水印被设计为可以从很短的 token 中检测出来，并且可以使用高效的开源算法来识别。该方法涉及在生成单词之前随机选择一组“绿色”标记，并在文本生成过程中推广使用这些绿色标记。提出了一种用于水印检测的统计检验方法，提供了可解释的 p 值。

此外，给出了一个信息论框架来分析水印的敏感性。水印主要的点就在于如何划分绿色标记或者红色标记，具体算法如下所示，每次通过上一个 token 来选择一个 seed，划分标记，然后提升绿色 token 可能会被选择的概率。最终需要检测时只需要检查绿色标记出现的频率即可。

除非之外，文章还有一些有趣的实验现象

水印强度和文本质量之间的权衡：本文探索了不同水印参数下的水印强度（通过 z-score 衡量）和文本质量（困惑度）之间的权衡。实验结果表明，较小的绿色列表大小和较大的绿色列表偏差可以在对文本质量影响最小的情况下实现较强水印。
安全考虑：讨论了对水印技术的潜在攻击，如文本插入、删除和替换。针对这些攻击提出了缓解策略，以保证水印的安全性。

DIPPER

论文标题：

Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense

论文链接：

https://arxiv.org/abs/2303.13408

代码链接：

https://github.com/martiansideofthemoon/ai-detection-paraphrases

这篇论文的主要目的是探讨 AI 生成文本 Paraphrasing 的攻击，并提出一种基于检索的有效防御方法。研究人员首先训练了一个 11B 参数的偏义词生成模型（DIPPER），该模型可以对段落进行 Paraphrasing，并可选地利用上下文信息。通过使用 DIPPER 对三个大型语言模型生成的文本进行 Paraphrasing，研究人员成功地绕过了几种 machine generated-text 检测算法，包括水印、GPTZero、DetectGPT 和 OpenAI 的文本分类器。

为了增加对 AI 生成文本攻击的检测鲁棒性，研究人员引入了一种简单的防御方法，该方法依赖于检索语义相似的生成文本，并由语言模型 API 提供者维护。实验证明，这种防御方法在一个包含 1500 万个生成文本的数据库上，能够在不同设置下检测出 80% 至 97% 的 Paraphrasing 生成文本，同时只将 1% 的人工编写序列误分类为 AI 生成。

DetectGPT

论文标题：

DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature

论文链接：

https://arxiv.org/abs/2301.11305

本文介绍了一种名为 DetectGPT 的零样本机器生成文本检测方法，该方法利用概率曲率对文本进行判断是否为机器生成。

论文首先观察到，从大型语言模型（LLM）中采样的文本倾向于位于模型的对数概率函数的负曲率区域。基于这一观察，论文提出了一种基于曲率的新标准，用于判断一个文段是否是由给定的 LLM 生成的。DetectGPT 不需要训练单独的分类器，也不需要收集真实或生成的文本数据集，也不需要显式地给生成的文本加水印。

它仅使用所关注模型计算的对数概率和来自另一个通用预训练语言模型（如 T5）对文段进行随机扰动。具体算法如下，我们使用扰动后的平均对数概率减去原文本的对数概率，此时 LLM 产生的文本倾向于产生一个比较大的差值，因此作者使用这个差值作为判别是否为机器生成文本的标准。

论文通过实验证明，DetectGPT 对于模型生成的假新闻文章的检测比现有的零样本方法更具有区分性，将最强的零样本基线的检测效果从 0.81 AUROC 提高到 0.95 AUROC。

Watermarks for LLM

论文标题：

On the Reliability of Watermarks for Large Language Models

论文链接：

https://arxiv.org/abs/2306.04634

该论文通过研究水印在人工改写、非水印模型改写或嵌入到更长的手写文档中后的可靠性，对水印作为识别机器生成文本的策略进行了探究。研究重点是在生成的文本经过不同类型的真实文本破坏（即攻击）后，水印是否仍然可检测到：当生成的文本与人工编写文本混合、部分或完全重写，或将文本输入其他流行的语言模型进行改写时，水印的可靠性如何？可靠的检测策略在这些常见场景下应该具有鲁棒性，保持一定的统计能力和低 FPR。论文的主要贡献包括：

重新研究了水印生成和水印检测流程的所有部分，以在真实场景中提高可靠性。
研究了水印对强大的大型语言模型进行改写的鲁棒性。当使用 GPT-3.5 和专门构建的改写模型对带有水印的文本进行重写时，当观察到 200 个 token 时，ROC-AUC 仍然高于 0.85，并且当观察到600个标记时，ROC-AUC 高于 0.9。
考虑了“复制粘贴”场景，其中水印文本出现在较大的手写段落中。当一个长度为 600 个标记的人工编写段落中插入 150 个水印标记时，检测的 AUC 值超过 0.95。
进行了一项人类研究，其中志愿者对带有明确目标的水印的文本进行了重写，目标是消除水印。尽管人类是相对强大的攻击者，但在观察到足够多的标记（约 800 个）后，即使将 FPR 设置为 1e-5，水印在人类改写中仍然通常可检测到。
对比了水印与其他最先进的方法（如基于损失的检测和检索方法）的可靠性估计，结果表明在遭受攻击时，水印比其他后处理检测方法更加鲁棒，特别是在样本复杂性方面，即在足够多的文本上保证检测的情况下。

该论文认为评估不同检测方法的强度和鲁棒性的正确方法不仅仅是针对特定文本分布的检测准确性度量，而是衡量每种方法成功所需的机器生成文本量以及该方法在文本序列长度方面的行为。通过对这项工作中考虑的所有场景的研究，我们最终发现水印相比其他事后检测方法（如基于损失的检测和缓存/检索方案）更加鲁棒，特别是由于其有利的样本复杂性，即在足够多的文本上保证检测的扩展行为。

Undetectable Watermarks

论文标题：

Undetectable Watermarks for Language Models

论文链接：

https://eprint.iacr.org/2023/763.pdf

这篇论文提出了一种基于密码学概念的无法检测到的语言模型水印方法。传统的水印方法会明显改变生成文本的分布，从而被用户察觉到，而本文的方法则可以在不引起用户注意的情况下嵌入水印。具体来说，只有在使用秘密密钥的情况下，才能检测到水印的存在；如果没有密钥，从原始模型生成的文本和带水印的文本无法在计算上区分开。这意味着用户无法观察到生成文本质量的任何下降，水印也不会被用户察觉，即使用户可以自由选择提示语进行适应性查询。

这篇论文的主要贡献包括以下几个方面：

提出了无法检测到的语言模型水印的形式化定义和构造方法。通过引入经验熵的概念来量化生成特定子串的随机性，并基于此构造了水印算法。
提出了无法检测到的水印的三个关键性质：不可检测性、完整性和可靠性。其中，不可检测性保证了水印在用户使用模型进行一般查询时不可察觉；完整性保证了使用秘密密钥时可以高效检测到带水印的文本；可靠性保证了独立于秘密密钥生成的文本几乎不会被错误地检测为带水印。
证明了无法检测到的水印对于任何语言模型和参数选择都是有效的，而且不对文本的特性做任何假设。

此外，该论文还指出了传统的基于启发式方法和模型的 AI 生成文本检测方法存在的局限性，并讨论了相关工作和攻击方法。有趣的发现是，通过使用水印算法对文本进行嵌入，可以在不降低生成文本质量的情况下，实现无法检测到的水印。这对于保护生成文本的真实性和追踪 AI 生成的文本具有重要意义。

AI-text Detectors

论文标题：

Can AI-Generated Text be Reliably Detected?

论文链接：

https://arxiv.org/abs/2303.11156

这篇论文探讨了 AI 生成文本的可靠检测问题，并从经验和理论上证明了几种 AI 文本检测器在实际场景中的不可靠性。经验上，论文展示了一种名为“改写攻击”的方法，即在大型语言模型（LLM）的基础上应用一个轻量级的改写器，可以破坏一系列检测器的效果，包括使用水印方案、神经网络检测器和零样本分类器。实验表明，针对抵抗改写攻击而设计的基于检索的检测器仍然容易受到递归改写攻击的影响。

论文还提出了一个理论不可能性结果，指出随着语言模型变得越来越复杂，越来越擅长模仿人类文本，即使是最佳的检测器的性能也会下降。对于一个足够先进的语言模型来说，即使是最佳的检测器的性能也只能比随机分类器稍微好一点。这个结果足够通用，可以涵盖特定场景，如特定的写作风格、巧妙的提示设计或文本改写。

论文还将不可能性结果扩展到使用伪随机数生成器进行 AI 文本生成的情况，并证明了对于所有多项式时间可计算的检测器，该结果仍然成立，只需增加一个可以忽略的校正项。最后，论文还展示了即使使用水印方案保护的 LLM 也容易受到欺骗攻击的情况，其中恶意人员可以推断出隐藏的 LLM 文本特征，并将其添加到人工生成的文本中以被检测为 LLM 生成的文本，从而可能对其开发者的声誉造成损害。这些结果可引发社区内有关 AI 生成文本的道德和可靠使用的诚实讨论。

论文的主要贡献包括：