模型进化狂飙,DetectGPT能否识别最新模型生成结果?
新智元报道
新智元报道
【新智元导读】语言模型给我们的生产生活带来了极大便利,但同时不少人也利用他们从事作弊工作。如何规避这些难辨真伪的文字所产生的负面影响也成为一大难题。
在3月9日智源Live第33期活动「DetectGPT:判断文本是否为机器生成的工具」中,主讲人Eric为我们讲解了DetectGPT工作背后的思路——一种基于概率曲率检测的用于检测模型生成文本的工具,它可以帮助我们更好地分辨文章的来源和可信度,对保护信息真实、防止欺诈等方面具有重要意义。本次报告主要围绕其功能,实现和效果等展开。
Eric mitchell 是斯坦福大学计算机系四年级博士生,由Chelsea Finn 和 Christopher D. Manning 教授指导。研究目标是使神经网络中的知识更易于重用和更新,以适应这个持续变化的世界。研究兴趣为深度学习、元学习和持续学习,特别是在大语言模型的背景下。本科毕业于普林斯顿大学,曾在伦敦 DeepMind 担任研究实习生。曾担任纽约三星人工智能中心的一名研究工程师。空闲时间,他喜欢吉他和人声创作音乐,还喜欢户外活动,尤其是高尔夫和登山。 引子:ChatGPT时代下的新困境
Q&A:请问我们该如何计算词汇的对数概率和文本的平均对数概率? Eric:大语言模型可以给出下一个单词或是符号的概率分布,可以利用这个分布查询到待检验单词的对数概率,然后就可以求平均值获得平均对数概率。
对于模型生成的文本,我们假设x轴为我们所有可能的文本空间,也就是所有可能的单词序列组合;y轴为它对应的对数密度。如果我们取x轴上一点,然后移动它,从而从一个单词序列移动到另一个。如果这些序列是机器生成的,即使语义相似,只在组成上略有不同,其概率密度也会随着移动发生比较明显的变化,而且概率密度往往会明显降低。但是这种明显的变化只存在于模型输出的序列中,人类写出的文本往往没有这种特性。
Q&A:请问您具体是如何生成扰动样本的? 答:我会先随机生成一段原始文本,然后随机屏蔽15%的单词,最后用T5生成填充,重复一百次即可。
下面介绍Eric的DetectGPT模型的整个检测流程。首先我们将原始文本(X)添加一系列轻微的扰动;然后,我们将添加扰动后的一系列文本传给原始模型(如GPT-3),从而计算得到原始文本和扰动后的文本的对数概率;接下来,我们将原始的概率密度和扰动文本的概率密度相除然后取对数,最后求得他们的均值,如果求得的均值大于某个阈值,就有理由相信他是GPT-3所写,否则就认为它的来源并不是GPT-3,比如他可能为人类所写,也可能来自于另一个模型。
候选1:
Hessian矩阵是一个多元函数的二阶偏导数构成的方阵,描述了函数的局部曲率。Hessian矩阵体现了不同输入维之间相互加速的速率。常用于解决优化问题,利用海森矩阵可判定多元函数的极值问题。海森矩阵在图像处理中有广泛的应用,比如边缘检测、特征点检测等。 Hutchinson’s Trace Estimator源于随机取样的思想,主要应用于对大型矩阵迹的估算。其基本思路是通过从矩阵A中随机抽样列,来获得一个较小的矩阵B,并用B的迹来作为A的近似估计值。
候选2:
海森矩阵是一个多元函数的二阶偏导数构成的方阵,描述了函数的局部曲率。海森矩阵体现了不同输入维之间相互加速的速率。常用于解决优化问题,利用海森矩阵可判定多元函数的极值问题。海森矩阵在图像处理中有广泛的应用,比如边缘检测、特征点检测等。
Hutchinson’s Trace Estimator源于随机取样的思想,主要应用于对大型矩阵迹的估算。其基本思路是通过从矩阵A中随机抽样列,来获得一个较小的矩阵B,并用B的迹来作为A的近似估计值。
首先,我们当然要对ChatGPT这一现象级的语言模型进行检验。这里Eric用DetectGPT同其他的模型进行比较,从而得到了下面的结果。表格的左边是四种不同方法,第一种log p(x)就是我们上面提及的第二种基本方法,通过比较对数概率的绝对值,判断人工与模型的文本;接下来的几种方法就不过多介绍。而XSum,SQuAD和WritingPrompts分别表示了新闻文章,维基百科和通过阅读数据集完成的故事创意文章,t和p代表了两种不同的取样方法。数字表示被成功分辨的样本占总样本的百分比。我们不难发现DetectGPT模型相较其他四个模型有较大的优势,且在不同的数据集上都有着很好的一致性。
局限性和未来展望
小结
LM生成文本的数量正在爆发式的增长,相比于DetectGPT等检测模型,使用LM生成文本的人类作者应该负担起检查文本正确性的任务。最后,DetectGPT的成功开发也表明了语言模型大都有着自己独特的「语言模型水印」。
Q&A
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章