Redian新闻
>
GPT-4「荣升」AI顶会同行评审专家?斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成

GPT-4「荣升」AI顶会同行评审专家?斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成

公众号新闻



  新智元报道  

编辑:Mindy
【新智元导读】斯坦福的一篇案例研究表示,提交给AI会议的同行评审文本中,有6.5%到16.9%可能是由LLM大幅修改的,而这些趋势可能在个体级别上难以察觉。

LLM在飞速进步的同时,人类也越来越难以区分LLM生成的文本与人工编写的内容,甚至分辨能力与随机器不相上下。
这加大了未经证实的生成文本可以伪装成权威、基于证据的写作的风险。
尽管在个例上难以察觉,但由于LLM的输出趋于一致性,这种趋势可能会放大语料库级别的偏见。
基于这一点,一支来自斯坦福的团队提出一种方法,以此来对包含不确定量的AI生成文本的真实世界数据集进行可比较的评估,并在AI会议的同行评审文本中验证。

论文地址:https://arxiv.org/abs/2403.07183

AI会议的同行评审可能是AI?


同行评审是一种学术论文发表前的质量评估机制。
这些同行评审者通常具有相关领域的专业知识,他们会对论文的原创性、方法学、数据分析、结果解释等进行评价,以确保论文的科学性和可信度。
斯坦福团队研究的AI会议包括ICLR 2024、NeurIPS 2023、CoRL 2023和EMNLP 2023,他们的研究发生在ChatGPT发布之后,实验观察估计LLM可能会显著修改或生成的大语料库中的文本比例。
结果显示,有6.5%到16.9%可能是由LLM大幅修改的,即超出了拼写检查或微小写作更新的范围。
在下图中,可以看到ICLR 2024同行评审中,某些形容词的频率发生了显著变化,例如「值得称赞的」、「细致的」和「复杂的」,它们在出现在句子中的概率分别增加了9.8倍、34.7倍和11.2倍。而这些词大概率是由人工智能生成的。
同时研究还发现,在报告较低自信度、接近截稿时间以及不太可能回应作者反驳的评论中,LLM生成文本的估计比例较高。

最大似然让LLM现形


因为LLM检测器的性能不稳定,所以比起尝试对语料库中的每个文档进行分类并计算总数,研究人员采用了最大似然的方法。
研究方法主要分成四个步骤:
1. 收集(人类)作者的写作指导——在这个情况下是同行评审指导。将这些指导作为提示输入到一个LLM中,生成相应的AI生成文档的语料库。
2. 使用人类和AI文档语料库,估算参考标记使用分布P和Q。
3. 在已知正确比例的AI生成文档的合成目标语料库上验证方法的性能。
4. 基于对P和Q的这些估计,使用最大似然法估算目标语料库中AI生成或修改文档的比例α。
上图对方法进行了流程可视化。
研究人员首先生成一个具有已知科学家或AI作者身份的文档语料库。利用这些历史数据,我们可以估算科学家撰写的文本和AI文本的分布P和Q,并验证我们方法在留存数据上的性能。最后,使用估算的P和Q来估算目标语料库中 AI 生成文本的比例。
在验证集中,该方法在LLM生成反馈比例方面表现出高精度,预测误差不到2.4%。同时,团队对鲁棒性也进行了验证。
另外,一位审稿人可能会分两个不同阶段起草他们的审稿意见:首先,在阅读论文时创建审稿的简要大纲,然后使用LLM扩展这个大纲以形成详细、全面的审稿意见。
在这种场景的验证中,算法仍旧表现出色,能够检测到LLM用于大幅扩展由人提供的审稿大纲的情况。

实验结果中还发现了什么
首先,团队将AI会议的同行评审和Nature Portfolio期刊的α进行了比较。
与AI会议相反,Nature Portfolio期刊在ChatGPT发布后没有显示出估计α值的显著增加,ChatGPT发布前后的α估计值仍在α = 0验证实验的误差范围内。
这种一致性表明,在与机器学习专业领域相比,广泛的科学学科对AI工具的反应有明显的不同。
除了发现同行评审文本中,有6.5%到16.9%来自于LLM的手笔之外,该研究还发现了一些有意思的用户行为,在四个AI会议里保持一致:
1. 截至日期效应:在审稿截止日期前3天内提交的评审往往更倾向于用GPT
2. 参考文献效应:包含「et al.」一词的评审,即有学术引用的评审,更不会用GPT
3. 回复率降低效应:审稿讨论期间,审稿人回复数量越多,评审更不会用GPT
4. 同质化效应:与同论文其他审稿意见越相似的评审,越可能用GPT
5. 低置信度效应:自评置信度在5分制度中为2分或以下的评审与较高置信度(3分或以上)的评审相比,更可能用了GPT
尽管这项研究存在一定的局限性,比如只涉及了四个会议、仅使用了GPT-4来生成AI文本,并且可能存在其他误差来源,比如由于主题和审稿人的变化而导致的模型时间分布的偏差。
但是,研究的结论启示了LLM可能对科学界产生的潜在影响,这有助于激发进一步的社会分析和思考。希望这些研究结果能够促进对于LLM在未来信息生态系统中应该如何使用以及可能带来的影响的深入探讨,从而推动出台更加明智的政策决策。
参考资料:
https://arxiv.org/abs/2403.07183




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
真.时间管理大师?斯坦福教授被曝同时交往6女駐唱翁Pika联创参与新研究:Diffusion能抢GPT的活了!成功挑战自回归文本范式增肌减脂要多吃"蛋白质"?最新研究:摄取过多很伤动脉《智慧之光》&《漫长的告白》最新研究:大学生智商一代不如一代!9.1入住|NEU/BU/HMS|室内洗烘|Brookline近绿线到NEU地铁直达全新三室一厅2.5卫5500+龙年,用Loong还是Chinesische Drachen?ICLR 2024 | 再论生成数据能否帮助模型训练?可以代表一个餐馆水准的这些菜!OpenAI CEO Sam Altman斯坦福闭门会!GPT-5将远超GPT-4!复旦大学最新研究:如何让大模型敢回答“我不知道”?GPT【Church Park】【Berklee/NEU/NEC/BU】2024排位进行中陈妍希老公陈晓剃光头「颜值飙升」史上最帅光头ChatGPT也在评审你的顶会投稿,斯坦福新研究捅了马蜂窝,“这下闭环了”【最好的朋友在身边,最爱的学校在对面】【限时优惠】【Church Park 秋季排位火热进行】【NEU/NEC/Berklee】纯文本模型训出「视觉」表征!MIT最新研究:语言模型用代码就能作画GPT-4准确率最高飙升64%!斯坦福OpenAI重磅研究:全新Meta-Prompting方法让LLM当老板斯坦福大学研究:一个人开始走运的5个迹象MIT最新研究:什么样的语言最有可能激活大脑的语言处理中心?Nature:斯坦福最新报告显示,人工智能这些领域接近甚至超过人类!医学领域尤为迅猛睡眠与表型年龄呈“U形”关系,要睡在拐点处!最新研究:每天7小时睡眠是最佳“保养品”,过多/少的睡眠时间都会加速衰老ICLR 2024 | 根据压缩比率控制生成样本难度,NUS等提出首个无损数据集蒸馏方法ICLR 2024 | 跨领域准确进行零样本异常检测,浙大等提出AnomalyCLIPICLR 2024 | 媲美DALLE-3!基座模型LaVIT刷榜多模态理解与生成任务AI早知道|ChatGPT灰度测试多GPTs协同;新Bard逆袭GPT-4;百川智能发布Baichuan3最新研究:五分之一澳人手上连$4000“应急钱”都没有ICLR 2024 | 阐明扩散模型中的曝光偏差问题,一行代码大幅提升生成质量【长篇小说】县委副书记(020)ICLR 2024 | 鸡生蛋蛋生鸡?再论生成数据能否帮助模型训练这就是OpenAI神秘的Q*?斯坦福:语言模型就是Q函数GPT-4击败华尔街?最新研究:选股回报超40%ChatGPT实体化了!手机变身ChatGPT实体机器人,只需一个配件,能说话还会做梦,真的牛!巧解「数据稀缺」问题!清华开源GPD:用扩散模型生成神经网络参数|ICLR 2024包包
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。