ChatGPT论文通过图灵测试:是AI太聪明,还是学界太灌水?
海归学者发起的公益学术平台
分享信息,整合资源
交流学术,偶尔风月
去年12月的一项实验里,审稿人尝试鉴别出那些混藏在学术文献中的“AI文本”,但是竟然有三分之一的AI论文成功蒙混过关。这使人警惕,AI论文是否会成为论文造假的新工具?另一方面,人们也对同行评议制度的有效性、学术文献的同质性产生了担忧,学界是否是灌水太严重了,才会让AI模仿的门槛如此之低?
*由于近期平台政策调整,公众号不添加星标则不予展示封面图。我们建议您进入知社学术圈公众号主页,在右上角设置下拉列表中(形为“···”)将我们设为星标。这样我们则能更好的将内容作品呈现给您。谢谢您的支持!
图片来源:Tara Winstead
ChatGPT强大的文本生成能力震惊了世界。它甚至能够进行学术写作,产出的很多文献竟然可以鱼目混珠。这一情况让学术出版行业十分警惕。国际光学和光子学学会(SPIE) 出版总监Patrick Franzen表示,由于担忧这种“AI论文”的准确性和道德规范,他和其他期刊的管理人员正在致力于保护学术文献这方净土免受AI论文潮的侵蚀。“自去年11 月以来,我们一直在谈论这一切”,Franzen说。
在ChatGPT风行全球的时候,多家期刊迅速出台了关于以AI参与研究或论文写作的相关规定。Cell和柳叶刀虽然允许投稿人使用AI工具,但作者不能依赖其完成关键任务——比如解释数据或得出结论,并且作者必须如实声明他们是否以及如何使用了AI工具。
Nature则明确规定:任何大型语言模型工具(如ChatGPT)都不能被列为论文作者;作者如在论文写作中使用过AI工具,则应在论文中明确标明。另一顶级期刊Science则完全禁止论文使用ChatGPT生成的文本。因为Science的编辑认为,AI不能对其写作的内容负责。
为什么期刊编辑们对AI论文如此紧张?难道依赖同行评议制度把关论文质量的学术界,难道一篇由AI东拼西凑攒成的文章,竟然有可能突破一个个专业审稿人的图灵测试,在学术界大摇大摆地登堂入室?
答案还真不好说。
当 ChatGPT 全球免费开放后,使用这个AI工具的人堪比过江之鲫,科研工作者也不例外。而不久前的一项研究声称,许多人可能都难以鉴别出AI所写出的学术文献。这项研究由美国西北大学的Catherine Gao等人2022年12月27日发表于预印本平台 bioRxiv ,题为:Comparing scientific abstracts generated by ChatGPT to original abstracts using an artificial intelligence output detector, plagiarism detector, and blinded human reviewers 。
在这项研究中,研究人员将ChatGPT生成的论文摘要交予审稿人盲审。但审稿人只鉴别出了68%的AI论文,换言之,有近三分之一的论文,他们没能识别出来。这些审稿人表示,要区分两者之间的差别并不容易,虽然仍有一些模糊痕迹可以追寻。
这项研究能得出的结论仍十分有限,但仍然令人十分吃惊,并且造成了一点小尴尬。吃惊的点在于,ChatGPT强大的文本生成能力。尴尬的点在于,同行评议在应对AI赝品时,竟然出乎意料的乏力。这一现象似乎指向两种解释:一是同行评议制度失灵了;二是学界论文同质性太过严重,以至于AI东拼西凑再灌水出一篇,人们也难以鉴别。当然,对于学术界来说,两种解释都不怎么积极。
从根本逻辑上讲,现在的ChatGPT只是个预训练语言模型,它只能从已有的训练样本中提取、整合信息,而不能真正地发展出新的知识。而且期刊编辑们认为,使用AI进行写作,准确性其实并不能得到很好的保证。因为,如果AI没有接触到足够的训练样本以给出恰当答案,那么它通常会自己编造一些信息。2022年11 月,科学家专用的大型语言模型 Galactica,在开放几天之后就匆忙下线,因为它虽然接受了学术文献样本的相关训练,但是事实错误仍然比比皆是。2022 年一项对 Sparrow(由 Google 子公司开发的信息检索聊天AI)进行的预印本研究发现,其回复有高达 20% 的比例包含错误。而且,AI会十分偏向于训练样本中包含的科学假设与前提。
除此之外,期刊编辑更担心AI会助长剽窃之风,即使用AI来对论文进行洗稿、降重。这种现象在高校学生群体中尤其猖獗。美国在线课程提供商Study.com对100多名教育工作者和1000多名18岁以上的学生进行了问卷调查,结果发现:超过89%的学生使用ChatGPT来帮助完成家庭作业,53%的学生承认曾用它写论过文。网络上甚至诞生了一个新词来指代这种学术不端行为——“aigiarism”(AI化抄袭)。
正如前文所述,期刊编辑们对这种新式学术不端十分担忧,因此正在积极拟定政策进行应对。而自然而然地,审稿人就会负担起检查或核查作者披露的生成的文本——这些任务会增加本已很繁重的志愿者工作量。Taylor & Francis的学术道德与诚信主管Sabina Alam表示,随着出版界在处理AI论文方面经验的积累,相应处理政策仍有变化空间。
图片来源:Tara Winstead
互联网公司也在积极配合研发相应的AI文本检测工具。OPEN AI在去年12 月表示,他们正在尝试为AI生成的文本添加“水印”。具体而言,他们考虑将AI进行调整,令其输出的文本中具有某种特殊的字符规律,而这种字符段能够被AI探测器鉴别出来,从而所有AI输出的文本都带上了一种“水印”。
此外,上个月斯坦福大学的一个团队也发布了一个探测器 DetectGPT 。它的特殊点在于,它并不需要独立的算法培训。它的工作方法是,首先创建多个随机变体文本,并让AI按照它的喜好程度对这些文本进行排名。由于AI对原始文本和经AI修改后的文本的偏好程度有异。所以DetectGPT可以据此确定文本是否出自AI之手。不过目前DetectGPT仍需进一步改进。
不过,虽然有一些负面的影响,但AI文本生成在辅助学术方面仍然具有巨大的应用潜力。学术出版开发软件商scite.ai的研发科学家Domenic Rosati声称,他们正在开发一种检查器,这种工具能够将AI文本所使用的文献来源进行追溯,以便人们在使用AI进行文本创作时可以比对参考文献进行准确性校对。在这个意义上,我们能够发现AI将以一种更为务实的姿态来扮演学者的文献助手的角色。在涉及到海量科学文献的场景,这类AI工具无疑会起到巨大的帮助。
尤其是,在撰写综述文章一类的学术文献时,或是在一些需要对大量文献资料进行分析的社会学科,AI强大的资料整合、文本生成能力,将会改变不少学术范式,并且会引领这些研究走向一个新的层次。
因此,局部、短期来看,或许AI在学术出版界造成了一定的“麻烦”,但是从全局、长远来看,学界在完全接纳了AI 之后,它必将会充分施展自己的才能,并且成为学术活动中不可或缺的助理角色。科研与人工智能之间只会是合作,而非对抗。
点击下方知社人才广场,查看最新学术招聘
扩展阅读
微信扫码关注该文公众号作者