ChatGPT论文通过图灵测试：是AI太聪明，还是学界太灌水？

2023-02-24 03:02

海归学者发起的公益学术平台

分享信息，整合资源

交流学术，偶尔风月

去年12月的一项实验里，审稿人尝试鉴别出那些混藏在学术文献中的“AI文本”，但是竟然有三分之一的AI论文成功蒙混过关。这使人警惕，AI论文是否会成为论文造假的新工具？另一方面，人们也对同行评议制度的有效性、学术文献的同质性产生了担忧，学界是否是灌水太严重了，才会让AI模仿的门槛如此之低？

*由于近期平台政策调整，公众号不添加星标则不予展示封面图。我们建议您进入知社学术圈公众号主页，在右上角设置下拉列表中（形为“···”）将我们设为星标。这样我们则能更好的将内容作品呈现给您。谢谢您的支持！

图片来源：Tara Winstead

ChatGPT强大的文本生成能力震惊了世界。它甚至能够进行学术写作，产出的很多文献竟然可以鱼目混珠。这一情况让学术出版行业十分警惕。国际光学和光子学学会(SPIE) 出版总监Patrick Franzen表示，由于担忧这种“AI论文”的准确性和道德规范，他和其他期刊的管理人员正在致力于保护学术文献这方净土免受AI论文潮的侵蚀。“自去年11 月以来，我们一直在谈论这一切”，Franzen说。

在ChatGPT风行全球的时候，多家期刊迅速出台了关于以AI参与研究或论文写作的相关规定。Cell和柳叶刀虽然允许投稿人使用AI工具，但作者不能依赖其完成关键任务——比如解释数据或得出结论，并且作者必须如实声明他们是否以及如何使用了AI工具。

Nature则明确规定：任何大型语言模型工具（如ChatGPT）都不能被列为论文作者；作者如在论文写作中使用过AI工具，则应在论文中明确标明。另一顶级期刊Science则完全禁止论文使用ChatGPT生成的文本。因为Science的编辑认为，AI不能对其写作的内容负责。

为什么期刊编辑们对AI论文如此紧张？难道依赖同行评议制度把关论文质量的学术界，难道一篇由AI东拼西凑攒成的文章，竟然有可能突破一个个专业审稿人的图灵测试，在学术界大摇大摆地登堂入室？

答案还真不好说。

当 ChatGPT 全球免费开放后，使用这个AI工具的人堪比过江之鲫，科研工作者也不例外。而不久前的一项研究声称，许多人可能都难以鉴别出AI所写出的学术文献。这项研究由美国西北大学的Catherine Gao等人2022年12月27日发表于预印本平台 bioRxiv ，题为：Comparing scientific abstracts generated by ChatGPT to original abstracts using an artificial intelligence output detector, plagiarism detector, and blinded human reviewers 。

在这项研究中，研究人员将ChatGPT生成的论文摘要交予审稿人盲审。但审稿人只鉴别出了68%的AI论文，换言之，有近三分之一的论文，他们没能识别出来。这些审稿人表示，要区分两者之间的差别并不容易，虽然仍有一些模糊痕迹可以追寻。

这项研究能得出的结论仍十分有限，但仍然令人十分吃惊，并且造成了一点小尴尬。吃惊的点在于，ChatGPT强大的文本生成能力。尴尬的点在于，同行评议在应对AI赝品时，竟然出乎意料的乏力。这一现象似乎指向两种解释：一是同行评议制度失灵了；二是学界论文同质性太过严重，以至于AI东拼西凑再灌水出一篇，人们也难以鉴别。当然，对于学术界来说，两种解释都不怎么积极。

从根本逻辑上讲，现在的ChatGPT只是个预训练语言模型，它只能从已有的训练样本中提取、整合信息，而不能真正地发展出新的知识。而且期刊编辑们认为，使用AI进行写作，准确性其实并不能得到很好的保证。因为，如果AI没有接触到足够的训练样本以给出恰当答案，那么它通常会自己编造一些信息。2022年11 月，科学家专用的大型语言模型 Galactica，在开放几天之后就匆忙下线，因为它虽然接受了学术文献样本的相关训练，但是事实错误仍然比比皆是。2022 年一项对 Sparrow（由 Google 子公司开发的信息检索聊天AI）进行的预印本研究发现，其回复有高达 20% 的比例包含错误。而且，AI会十分偏向于训练样本中包含的科学假设与前提。

除此之外，期刊编辑更担心AI会助长剽窃之风，即使用AI来对论文进行洗稿、降重。这种现象在高校学生群体中尤其猖獗。美国在线课程提供商Study.com对100多名教育工作者和1000多名18岁以上的学生进行了问卷调查，结果发现：超过89%的学生使用ChatGPT来帮助完成家庭作业，53%的学生承认曾用它写论过文。网络上甚至诞生了一个新词来指代这种学术不端行为——“aigiarism”（AI化抄袭）。

正如前文所述，期刊编辑们对这种新式学术不端十分担忧，因此正在积极拟定政策进行应对。而自然而然地，审稿人就会负担起检查或核查作者披露的生成的文本——这些任务会增加本已很繁重的志愿者工作量。Taylor & Francis的学术道德与诚信主管Sabina Alam表示，随着出版界在处理AI论文方面经验的积累，相应处理政策仍有变化空间。

图片来源：Tara Winstead

互联网公司也在积极配合研发相应的AI文本检测工具。OPEN AI在去年12 月表示，他们正在尝试为AI生成的文本添加“水印”。具体而言，他们考虑将AI进行调整，令其输出的文本中具有某种特殊的字符规律，而这种字符段能够被AI探测器鉴别出来，从而所有AI输出的文本都带上了一种“水印”。

此外，上个月斯坦福大学的一个团队也发布了一个探测器 DetectGPT 。它的特殊点在于，它并不需要独立的算法培训。它的工作方法是，首先创建多个随机变体文本，并让AI按照它的喜好程度对这些文本进行排名。由于AI对原始文本和经AI修改后的文本的偏好程度有异。所以DetectGPT可以据此确定文本是否出自AI之手。不过目前DetectGPT仍需进一步改进。

不过，虽然有一些负面的影响，但AI文本生成在辅助学术方面仍然具有巨大的应用潜力。学术出版开发软件商scite.ai的研发科学家Domenic Rosati声称，他们正在开发一种检查器，这种工具能够将AI文本所使用的文献来源进行追溯，以便人们在使用AI进行文本创作时可以比对参考文献进行准确性校对。在这个意义上，我们能够发现AI将以一种更为务实的姿态来扮演学者的文献助手的角色。在涉及到海量科学文献的场景，这类AI工具无疑会起到巨大的帮助。

尤其是，在撰写综述文章一类的学术文献时，或是在一些需要对大量文献资料进行分析的社会学科，AI强大的资料整合、文本生成能力，将会改变不少学术范式，并且会引领这些研究走向一个新的层次。

因此，局部、短期来看，或许AI在学术出版界造成了一定的“麻烦”，但是从全局、长远来看，学界在完全接纳了AI 之后，它必将会充分施展自己的才能，并且成为学术活动中不可或缺的助理角色。科研与人工智能之间只会是合作，而非对抗。