国际科技财经博客移民网络热点娱乐民生时事公众号

>

ICLR被曝巨大黑幕，评审和作者竟私下勾结？49.9%论文疑有AI审稿

ICLR被曝巨大黑幕，评审和作者竟私下勾结？49.9%论文疑有AI审稿

公众号新闻

2024-05-09 03:05

新智元报道

编辑：好困乔杨

【新智元导读】正在召开的ICLR 2024会议上，成为关注热点的不仅有耀眼的成果和学术明星，关于论文的审稿程序也掀起了一波讨论。大会官方对网上热议的「串通」行为做出了回应，学界关心的「AI辅助审稿」问题也在ICLR 2024的背景下有了相关的研究进展。

由于规格高、论文多，顶会论文审稿过程的公平性和透明度，向来是业界关注和争议的焦点。

本届ICLR在放榜后就有人在Reddit上发帖，质疑委员会接收了违反匿名政策的论文，且没有在评审过程中遵守双盲原则。

而且这种情况绝不是个例。ICLR官方发布的文章表示，关于审稿过程的问题已经收到了7000多封意见书。

很快，随着大会正式拉开帷幕，ICLR也亲自下场表示，目前已经针对这种「串通」行为展开了调查。

所谓Collusion（串通）就是，一些审稿人通过操纵投标系统与特定作者匹配。

不仅如此，部分领域主席（AC）可能也通过类似的方式操作系统并指派同谋的审稿人。

然后，这些审稿人就会给出极高的评价，从而提高论文被接收的可能性。

对此，ICLR表示：
- 目前已发现多起审稿人与作者之间的勾结行为，其中一些案例有直接证据。
- 这些行为均直接违反了道德守则。
- 道德委员会正审查，并评估可能的处罚。

AI辅助审稿

除此之外，关于评审委员会在审稿时能否使用AI工具的问题也一直饱受争议。

相比其他顶会，ICLR审稿较为独特的一点在于，无论是否被接受，每篇论文的评分和评审意见都会被公开发布。

于是，来自洛桑联邦理工学院的研究人员，就利用ICLR 2024的相关公开数据，研究了用AI进行辅助评审的情况。

这篇论文不仅揭示了评审过程中可能存在的大范围使用AI辅助工具的情况，也采用对比分析的方法研究了这种行为对评审结果可能存在的影响。

论文地址：https://arxiv.org/abs/2405.02150

论文作者首先采用了一个商用的LLM检测器GPTZero来评估所有的文字评审意见。GPTZero可以将给定文本分为「完全由人类生成」，「完全由AI生成」和「混合生成」三类，并给出相应的置信度。

这篇研究中，如果GPTZero认为「完全由人类生成」的置信度低于0.5，则被认定为使用了AI辅助。结果显示，AI辅助评审比想象中的更广泛。

2024年评委们给出的28028条评审意见中至少有15.8%是由AI辅助生成的，全部接收文章中的49.9%收到了至少一条由GPTZero判定为AI辅助的评审意见。

基于GPTZero的检测结果，论文继续研究AI辅助生成的评论是否会对论文的评分和接受率产生影响。

文章包括三部分，第一部分分析AI参与审稿的范围，第二、三部分研究AI辅助可能产生的影响

对于每篇既有AI辅助评审意见又有人类评审意见的论文，作者收集了这些等级制评分的结果（包含5个等级：1分、3分、5分、6分、8分），并使用了比例赔率模型（proportional odds model）拟合估计AI辅助评审会打出更高分数的可能性。

总体上，AI给论文的评分会高于人类。对于一篇给定的论文，AI评分有53.4%的可能性高于人类评分。

无论在哪个分数区间，AI辅助评审打出的分数相比人类都会更高

为了研究AI辅助的评审意见会如何影响论文入选结果，作者从全部论文中挑选了内容相似的文章匹配成对，其中一篇全部被判定为由人类评审，另一篇则只含有一条AI辅助评审，且除去AI的给分后，审稿委员会为它们打出了完全相同的分数。

通过以上标准筛选出5132个论文样本后，作者对比了它们的接收情况从而分析AI辅助评分的影响。

总体而言，一条AI辅助的评分让论文有3.1%的更高可能入选，而且对于评分徘徊在接收分数线边缘的论文，这个数字还会提升到4.9%。

评分在5～6分、处于接收线边缘时，AI评分会对论文入选有正面影响

近年来大语言模型的快速发展，尤其是ChatGPT诞生后，学术界就涌现出了对AI参与审稿过程的质疑，自己工作都在「996」的教授们面对审稿的重担很有可能让大语言模型帮自己撰写评审意见。

这篇论文探究了当今顶会的审稿现状，通过控制变量的方法追踪并量化了因果关系，进而揭示了AI辅助评审对论文接收结果可能产生的影响。

大语言模型的快速发展是否会威胁学术界长久以来实行的同行评审制度，一直是期刊和论文的委员会所担忧的。论文作者表示，这项研究的意义之一在于，用量化的证据坐实了这种负面影响。

由于论文投稿数量的激增以及发展得越来越快的文字生成工具，疲于审稿工作的委员们采用AI辅助工具似乎是不可避免的趋势。

以ICLR为例，2023年的总投稿数仅为4955篇，今年就激增了将近一倍，达到7262篇，这无疑给会议的评审委员会带来了很大的工作负担。

论文的最后一部分诚实地表达了作者的担忧，认为审稿过程的准则和评价指标需要跟随大语言模型的发展一同进化。

否则，任由AI放肆地将自己不成熟的价值观投射到学术论文的筛选过程上，尤其是那些含有更多观点和价值表述的论文，将会产生更严重的危机。

最后，作者还分享了他们基于GPTZero打造的检测网站，只要输入你的论文标题，就能看到自己的ICLR论文是不是被「幸运」地分配到了AI辅助评审。

测试地址：http://aireviewlottery.com

参考资料：

https://arxiv.org/abs/2405.02150

https://twitter.com/manoelribeiro/status/1787512594661572878

https://blog.iclr.cc/2024/05/06/code-of-ethics-cases-at-iclr-2024/

https://papercopilot.com/statistics/iclr-statistics/

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

首个ICLR时间检验奖出炉！3万被引论文奠定图像生成范式，DALL-E 3/SD背后都靠它内蒙古杀害5人的凶手已落网，抓捕画面被曝光，评论区炸开锅了！CVPR、AAAI、ICLR 2024 满分论文出炉！彻底根除“论文工厂”的方法，只会是“更简单的论文发表方式”；文献计量分析，让医生彻底解脱开发论文的桎梏！董明珠质疑小米空调销量第一；Manner被曝聘用聋哑咖啡师 | 金错刀日评 ICLR 2024 | 连续学习不怕丢西瓜捡芝麻，神经形态方法保护旧知识 13、长篇家庭伦理小说《嫁接下》第四章重拾自信（1）CVPR、ICLR、AAAI 2024优秀论文！ICLR 2024 | 跨领域准确进行零样本异常检测，浙大等提出AnomalyCLIP 《公章今昔》巴郎明天直播 | ICLR 2024人气精选论文分享 ICLR 2024 | 冻结住的CLIP仍可作为教师模型！港大提出全新开集动作识别模型【SCI选刊】神经科丨发文最多期刊、审稿周期大全；及各医院SCI论文发表掠影（2024）波音公司频曝惊天黑幕，百年公司正在瓦解？审稿人角度：一篇顶会论文有哪些选题技巧？奠基性VAE荣获ICLR首届「时间检验奖」！国内学者获2篇杰出论文提名 CVPR、AAAI、ICLR 2024优秀论文！GPT-4「荣升」AI顶会同行评审专家？斯坦福最新研究：ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成 ICLR 2024 杰出论文奖揭晓！两篇国内论文获荣誉提名巧解「数据稀缺」问题！清华开源GPD：用扩散模型生成神经网络参数｜ICLR 2024 ICLR 2024 | AnomalyCLIP：零样本异常检测新范式许良英之子许成钢谈中国经济的“癌症”惨！IB论文被标“AI创作”，无法拿文凭，到手offer被撤…【买房】Melrose｜4B2.5B｜标价 $1,149,000 7262篇提交，ICLR 2024爆火，两篇国内论文获杰出论文提名如何快速增加学术论文的审稿?美菲这一次勾结非同寻常，对中国构成巨大威胁，此事日韩都没敢干 “下辈子不来了”，评论区49万留言……ICLR 2024 杰出论文！涨点神器！Meta提出：ViT需要Registers 《春意》巴郞 CVPR、AAAI、ICLR 2024满分论文出炉！荒野里的树 “下辈子不来了”，评论区49万留言…首个ICLR时间检验奖出炉！3万被引论文奠定图像生成范式！DALL-E 3/SD背后都靠它今日arXiv最热大模型论文：AI"参审"，论文评审迎来"神助攻"？

热点事件追踪