今日arXiv最热大模型论文:减少语法错误,竟成了突破口!识别AI生成文本,AUROC达98.7%
夕小瑶科技说 原创
作者 | 谢年年
语法错误更少竟成为检测大模型生成文本的突破口?
澳门大学和哈工大的团队最近发现人类在写作时比语言模型更容易犯语法错误。换句话说,大模型生成的文本中语法错误更少。这一特性为检测模型生成文本提供了一个新的视角:若一篇文章经过语法修改器校正后,其与原文相差不大,那么说明这篇文章的语法错误率较低,因此更有可能是由模型生成的。
大模型表示:太优秀也是一种错吗?
论文标题:
Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore
论文链接:
https://arxiv.org/pdf/2405.04286
为什么人类比大模型更容易犯语法错误呢?
从直觉上来说人类写作时确实比大模型更容易犯语法错误,比如手滑打几个错别字,写几个病句都很常见。那么为什么人类容易犯语法错误呢?这是有理论支撑的。
神经科学和认知心理学中,词的启动效应(Word Priming)和记忆形成(Memory Formation)认为这些失误往往源于大脑倾向于优先考虑语义连贯性和叙事流畅性,而非字符级别的精确度和句法严谨性。
除此之外,还有语言干扰 (Language Interference)理论指出,多语种个体可能会混淆不同的语言体系,从而增加错误的可能性;注意力偏见(Attention Bias)理论则认为,分心会分散写作者的注意力,提高出错的可能;还有认知负荷(Cognitive Load)理论,它强调写作任务(如信息组织)所需的高强度脑力劳动可能导致更多错误。
简单来说就是导致人类写作时失误的原因有很多,比如注意力不集中、高强度脑力工作、语言体系混淆等等,大模型受到这些方面的影响就小很多,因此人类写作时比大模型更容易犯语法错误。
方法
基于以上假设,作者构建了GECScore框架,如下图所示。首先,一个语法校正模型生成输入文本的语法修正版本。接下来使用相似度度量Sim计算和之间的相似度得分,然后通过softmax进行放大。最后,如果softmax缩放后的得分达到或超过阈值ϵ,则文本被判定为LLM生成的。
接下来逐步介绍构建方法。
GECScore需要一个预设样本集帮助计算阈值。给定待检测的样本,整个样本集将扩展为, 表示用于构建阈值的样本数量。
首先使用一个语法错误修正函数,通过基于seq2seq架构的GEC模型实例化,它将生成语法修正的结果 。
利用一个相似度度量 Sim 计算语法修正文本和原始文本 之间的相似度分数 ,在本研究中,选择 BLEURT来计算文本相似度分数。然后通过softmax 函数增强这些相似度分数的差异,表示如下
计算每个样本的GECScore后,得到整个样本集GECScore,表示为。并确定了检测器的最佳阈值ϵ,如下公式所示,以实现真阳率(TPR)和假阳率(FPR)之间的最佳平衡。
当输入样本与阈值ϵ进行比较时,如果的分数大于ϵ,则样本更可能是由LLMs生成的,否则可能是人类所写。阈值ϵ会根据输入样本和预选样本集动态调整。预选样本集的样本类型越丰富,GECScore的表现会越好,也更稳定。
GECScore验证假设
关于“人类比大模型更容易犯语法错误呢?”这一假设,除了前面谈到的一些理论支撑外,作者还用GECScore进行验证。数据集选用Writing Prompts,评估指标为BLEURT,GPT-3.5-Turbo作为大模型。下图展示了研究结果:
可以看到,LLM生成的样本得分更高,这意味着使用语法修改器修改后的文本相较之前变化不大,LLM的语法错误更少。
因此,通过设定语法错误修正后的相似性得分阈值,能够有效地区分人类撰写的文本与LLM生成的文本。这个阈值实质上是一个二元分类器,它依据语法精确度和文本连贯性将LLM生成的文本与人类撰写的文本区分开来。
实验设置
1. 数据集
本文采用DetectGPT的方法,从日常领域和典型LLM应用场景中精心挑选了一组人类撰写的文本,比如选择了XSum来代表新闻写作,而Writing Prompts 则展示了创意写作。从每个领域提取了一个包含500个样本的均衡语料库,确保每个样本至少有300个单词,以保证分析内容的丰富性。
2.基线方法
本文是一个有效的零样本检测器,因此基线选用一系列零样本检测器包括Log-Likelihood、Rank、Log-Rank、LRR、NPR、DetectGPT、FastDetectGPT和BARTScore-CNN。除此之外,还使用了OpenAI工具包对比了监督检测基线。
2. 语法检查模型
本文实验使用了COEDITL作为语法检查模型。该模型在CoEdIT 数据集上进行了微调, 基于google/flan-t5-large架构,已经在各种文本编辑基准上展示了最先进的结果,满足了语法、语义和风格修改的需求。
3.评估指标
采用了AUROC来评估检测器的性能。所有实验都保持了LLM生成文本和人类撰写文本样本数量一致。
实验结果
黑盒LLMs生成的文本的检测
下表显示了各种检测方法的比较结果:
实验结果表明,GECScore在XSum和Writing Prompts数据集上均取得了最高的平均得分,远超其他零样本检测基线。GECScore甚至优于监督检测器,在XSum和Writing Prompts数据集上的平均分数分别提升了10.8%和13.1%。
特别值得一提的是,GECScore在GPT-3.5-Turbo和PaLM2等先进模型上同样表现出色,两个数据集上的AUC-ROC值均超过了99%,充分显示了其在检测来自复杂大模型生成的文本的强大能力。
检测器的稳定性
作者采用同义句生成和对抗性扰动攻击两种方法全面评估文本检测器在面对潜在攻击时的有效性和鲁棒性。首先,使用T5改写器模型对文本进行改写,以生成与原文本意思相近但表述不同的同义句。接着,利用DeepWordBug工具来模拟文本中的字符和单词扰动,从而模拟对抗性攻击。结果如图所示:
其他基线方法面对这些改写和扰动的文本时,性能出现了显著的下降。然而,GECScore在各种攻击场景中均展现出了强大的检测能力,其性能下降微乎其微。这一结果表明,GECScore不仅具有出色的检测准确性,而且在面对人为编辑或扰动等攻击时,也表现出了极高的鲁棒性。
探测影响GECScore性能的因素
作者重点探索了相似度度量和文本长度对性能的影响。如下图所示,展示了不同相似度度量方法在不同文本长度上的表现结果。
基于语义的度量方法如BLEURT表现出了稳健的性能,特别是在应对文本长度变化时,其平均AUROC高达99.51%。此外,METEOR、GLEU和ROUGE在GECScore中同样表现出色,在不同文本长度设置下的得分均超过了90%,尽管在文本较短时性能略有下降,但不影响整体性能。
然而,那些依赖于编辑距离和简单n-gram匹配的度量,如BLEU、TER、chrF和编辑距离,对文本长度表现出了较高的敏感性。这些度量与文本长度呈正相关。当文本长度超过300个单词时,BLEU的AUROC才能超过90%。
结语
本文基于大模型相比人类更不容易出现语法错误这一有趣的假设,提出了零样本文本检测方法GECScore。该方法能够在不依赖源模型或大量训练数据的情况下,高效识别大模型生成的文本,不仅超越了当前最先进的检测器,而且在面对同义改写和对抗性攻击时,展现出了卓越的鲁棒性。
微信扫码关注该文公众号作者