AI技术的快速发展无疑是近几年最值得关注的科技进步,由于它的通用性,人们似乎在尝试所有可能应用它来减少人类劳动的场景,画画、写作、语音识别、自动写代码……在科学界,AI工具也在抄袭检查、图像检查、文献翻译等方面有了很大的进步,相关工具正在越来越好用。那么,如果让AI来挑战一下学术界最繁忙、最困难的工作之一:同行评议,结果会如何呢?
图源:scholarlykitchen.sspnet.org
学界人士对于同行评议的态度肯定是一言难尽的,究其原因,无非是因为它十分的不完美,问题多如牛毛,但是又确实无法摆脱,作为目前学术界最主要的研究质量控制机制,有它存在,学术界至少能维持最低限度的交流效率和信任基础。但是这项大规模应用已经超过半个世纪的不成文的规矩,面临的问题也确实很多,最突出的矛盾有:全球每年发布的论文近年来呈指数型增长,2020年已经超过了700万篇,巨大的发稿量带来了巨大的评审需求,而评审员们虽然已经非常努力了,每年审查220万篇论文,工作时长加起来有一万五千年,很多审稿人抱怨大量的审稿请求让他们疲于奔命,但是依然会被抱怨审稿周期太长,耽误发表。原因之一当然是审稿这项工作提供的激励太少了,很多人更喜欢发文而不是审查别人的工作,审稿人的增加量远远无法匹配新手稿的提交量。图源:Michael Fire 和 Carlos Gusterin
太多号称经过同样评议的论文存在许多明显的错误甚至是欺诈行为,没有能将这样的论文剔除出去反而用评议程序为其增加了可信度,这是同行评议最为人诟病的问题之一。研究者指出很多审稿人主要关注研究过程的核心部分,对于构成这些论文的基础但是“比较无聊”的部分则不太关注,数据、图像、抄袭以及其他明显的问题常常会被忽略,导致整个评审过程毫无意义——从一开始论文的基础就不存在。但是大部分类似的问题被揭露出来往往是在论文发表之后,因此人们只能对新论文持保留态度。等等,这些不是真正的误差线…作者只是把字母“T”放在条形图的上方
来源:twitter@SeriFeliciano
由于主观看法的存在,同一篇稿件获得不同的审稿意见很正常,但是差别过大则会让作者感到无所适从。那些知名学者的文章总是会获得更多的认可,而非英语母语的作者则会受到更多的批评。同时学术出版绑定了太多现实利益,类似“联合审稿人”、“幽灵审稿人”甚至是“自我审稿人”等操纵审稿过程的问题从未消失,也不会消失。所有这些问题的根源似乎都指向了人类的局限性:人会累,人会犯错,人会有私心,幸运的是,AI不会。图源:researchprofessionalnews.com独立学者Haseeb Irfanullah 认为,虽然很明显AI目前肯定无法全面取代人工审稿,但是他认为可以根据不同的部分、流程,逐步扩大AI审稿的范围,至少能帮助编辑发现那些基础的错误,如投稿是否符合期刊的关注领域,论文结构是否完整,抄袭检查,研究数据和伦理审查是否符合基本规定,图像是否有重复、篡改或者“误用”等等。很多AI工具已经在不同程度的辅助人类进行上述工作,现在要做的是将它们整合起来,从而成为一个强有力的通用性审稿AI,负责对巨量的论文手稿进行初审,通过后才交给人工审稿员进行更进一步的审查。同时这个过程应该尽量避免AI的“黑箱”效应:很多工具现在直接给出结果,但是人们不知道它是怎么做到的。AI审稿应该能够给出具体的问题清单,以便人们可以一一对照反馈从而不断提高它的水平和准确度。虽然一种工具的局限性完全可以预料,但是除了ChatGPT,还有很多AI语言工具都在开发中,出版商完全可以应用几种不同技术路线的工具来综合判断,就像不同的审稿人可能给出不同的审稿意见一样,避免数据偏见和漏洞式错误。虽然大语言模型的原理同AlphaFold预测蛋白质结构、AlphaGo下围棋的原理并不相同,但是显而易见的是后面这两个工具确实做到了人类目前完全做不到的事情,而根据AI在许多其他领域的表现和业界的投入强度,期待通用性的AI审稿人的出现绝非痴人说梦。而如果真的出现了符合一定标准的AI工具,前文提到的关于同行评议的几个问题则可以得到很大程度的缓解:AI不需要休息,可以7×24小时工作,审稿速度是人类的上千倍,所有的论文都可以经过AI的审查,包括预印本、会议论文和期刊通信等目前不在评审范围的文章;
AI可以严格执行所有的完整性审查,不存在忽略与否的问题,大量基本结构有缺陷的论文可以快速被驳回,从而大量节省人类审稿员的宝贵工作时间,同时对提高论文的可重复性也会有很大帮助;
更重要的是公平性:AI可以无视作者的任何信息,不管是新人博士还是诺奖得主,新晋讲师还是大学校长,都能做到一视同仁,这种匿名性也最大程度的减少了审稿过程被操纵的可能:想磕头都找不到庙门。LLM本身具备的多语言功能甚至可以大量审查非英语论文,对于提高非英语母语科学家的竞争力有很大的意义。
对此,您怎么看呢?不妨留言与大家分享。
附录:部分AI工具清单
https://www.wiley.com/en-us/network/publishing/research-publishing/editors/introducing-research-exchange-rexhttps://www.writefull.com/- 抄袭检查:Similarity Check, STM efforts
https://www.crossref.org/services/similarity-check/https://www.stm-assoc.org/standards-technology/working-group-on-image-alterations-and-duplications/- 检查可重现元素:Penelope,SciScore,Ripeta
https://www.penelope.ai/precheckhttps://www.sciscore.com/https://www.scholarcy.com/- 图形检查:Content Authenticity Initiative, Proofig, ImageTwin
https://contentauthenticity.org/https://sdproc.org/2022/sharedtasks.html#dagpap- https://publicationethics.org/
1.https://scholarlykitchen.sspnet.org/2023/10/12/the-peer-review-renaissance-an-urgent-call-for-transformation/2.https://scholarlykitchen.sspnet.org/2023/09/29/ending-human-dependent-peer-review/3.https://www.insidehighered.com/news/tech-innovation/artificial-intelligence/2023/10/24/ai-can-lessen-peer-review-woes-researchers