ChatGPT代写论文？ AI对学术出版的“渗透”远比你知道的更多

2023-02-01 03:02

海归学者发起的公益学术平台

分享信息，整合资源

交流学术，偶尔风月

最新的人工智能聊天机器人 ChatGPT 引起了大量的关注，除了它能够用自然流畅的语言与人类对话外，传闻中由它撰写的论文已经可以“以假乱真”了。很多人对于人工智能在学术领域的应用抱有疑虑，认为这可能会带来更多的不确定性，但其实多年来在学术出版的各个环节，AI已经开始承担越来越多的任务了，“代写”论文只不过是一种最新的尝试。

图源：scholarlykitchen.sspnet.org

在最近的一次以“学术出版中的人工智能”为主题SSP网络研讨会上，三位出版界人士交换了他们对人工智能现状及未来发展的看法：人工智能意味着什么？这类新兴技术正在如何改善或者损害学术出版？当有哪些值得注意的趋势？人工智能潜在的风险又是什么？

Helen King（香港），SAGE Publishers转型主管，主持有影响力的博客PubTech Radar。
Lucy Lu Wang（LLW），华盛顿大学信息学院助理教授，艾伦人工智能研究所客座研究员，帮助建立了具有影响力和创新的“语义学者”平台，并组织了许多关于学术文本自然语言处理的研讨会，包括SDP和SciNLP研讨会
Paul Groth（PG），阿姆斯特丹大学算法数据科学教授，UvA数据科学中心科学主任。他曾在爱思唯尔担任颠覆性技术总监，并且是Force11的前董事会成员。

如何定义AI？

HK：对我来说，人工智能是一系列基于算法的技术的总称，这些技术可以解决以前需要人类思考的复杂任务。我认为应该叫它“有助于决策的软件解决方案”。

PG：正如 Larry Tessler 所说：“人工智能是尚未完成的事情” 教科书的定义是：人工智能是关于智能代理的构建和设计。“智力”一词分为两部分：一方面是学习;另一方面，解决问题。在实践中，意味着机器能够自我学习并解决类似的问题。

LLW：我将人工智能定义为一组技术，可以执行通常由人类完成的任务，并且需要更高水平的智能或知识才能执行。最近，人工智能主要是指直接从数据中学习的模型，而不是以结构化的方式简单编码人类的知识。

哪些AI目前被用于学术出版？

HK：我已经想不出学术出版过程中有哪个领域没有AI介入了！

AI帮助论文的文本写作（如PaperPal 和 Writefull）；
论文提交（如Wiley's Rex，它会自动从你的论文中提取数据）；
筛选稿件的工具，如Penelope和RipetaReview;以及支持同行评审的工具；
用于方法检查的SciScore；
以及用于科学图像检查的Proofig和ImageTwin；
还有许多基于 AI 的工具和服务来帮忙寻找审稿人；
围绕引文分析 Scite.ai 正在做有益的尝试，以说明引文如何支持论文中的论点。

在制作阶段，有很多工具可以自动排版，尤其是在图书出版方面，许多出版商正在使用自动分类或文案编辑服务。出版后，有搜索引擎和推荐工具使用AI对内容进行分类，并通过数据分析推荐“我接下来应该看什么？”

PG：这是一个很好的总结！除了这些之外，我还看到了两个主要领域：一是智能总结：例如通过Scholarcy快速浏览大量论文并提取关键信息，帮助读者节省大量时间；二是在自然语言处理（NLP）领域的发展，这可以带来更精准的语义搜索，将论文的可发现性大大提高，并且通过提取关键信息自动扩展到潜在的相关领域。

LLW：在发布和使用过程中有很多步骤：搜索、推荐、访问、阅读、写作。人们不可能专注于所有事情，但我最感兴趣的是AI有助于阅读，并在学术背景下解释论文。我看到许多多文档和跨文档的工具可以在一篇论文和其他文献之间建立联系。

在阅读方面，我们可以做很多事情。例如，AI可以支持精简摘要：我们有一个TLDR（Too Long, Didn’t Read!）功能，它提供一到两句论文的摘要，这可以帮助你确定你是否应该阅读一篇论文。一旦你决定打开一篇论文，你就有5-50页几千上万字的文本，而书籍就更多了。如何帮助人们在大量文字中快速找到所需要的部分？另一项技术是问答系统，人们只需在对话框中提问，AI将在论文中主动搜索找到正确的部分。

是否有新工具专门寻找文档之间的相似之处？

LLW：相似性可能意味着很多不同的东西。一个有趣的发展方向是自动查询系统，可以用其他工作的证据来验证一篇新论文中提出的主张。其他初步模型可以执行文献综述搜索之类的操作，我认为此程序的模型可以帮助学者更快地完成工作。我特别感兴趣的一个领域是临床研究：加快临床领域系统综述的方法。

HK：在查重方面，Crossref正在与TurnItIn合作，STM也正在开发新工具，寻找新提交论文之间的相似之处。

PG：AI可以告诉你文档之间的相似之处。两个例子是：首先，在最近的人工智能会议上自动聚类论文的工具Zeta Alpha；其次，当查询结果为零时该怎么办？使用一些新工具，可以找到内容相似的论文，在这方面新工具进展很大。

LLW：推荐审稿人是这项技术非常有用的一个领域！目前完全的自动化审查还不现实，但是这方面的应用大有可为。

AI能够为同行评审提供支持或者完全取代吗？

LLW：审稿过程中有两个瓶颈：一个是找到合适的审稿人，另一个是让他们写高质量的评审意见。如果采用自动化分配审稿人的机制，大多数情况下，效率会很差，因为只是发送审稿邀请而没有与审稿人建立人际关系，人们往往会婉拒或不回复。如果AI在寻找审稿人的过程中对候选人解释被选中的理由，会显得更有人情味一些。

如果尝试使用AI直接撰写部分评审意见，其中比较规范化的部分完全可以，比如有关参考文献的验证等，而如果是对于论文的修改意见目前看依然需要人工来完成。

图源：zhuanlan.zhihu.com

PG：AI肯定不能判断论文是否提出了新颖的想法，但是这些工具可以帮助回答有关研究过程是否符合科学规范的问题：是否遵循了STAR方法，完全可以按照某种清单来检查，这方面的工作AI的效率可能会高得多。对于论文整体价值的评估，则涉及到了更加人性化的部分。

HK：如果你说的是筛选论文，那么像Penelope，SciScore或Ripeta这样的工具可以帮助检查数字和表格的完整性。使用人工智能检查图像，例如伪造和重复使用非常重要。我认为这与其说是审稿人的责任，不如说是出版商的责任。在出版商方面，我认为进行基本的身份检查也很重要：作者或评论者是他们所说的那个人吗？论文有时不是来自真实的人——假作者或者AI，这都需要检查。作者名单中有的来自完全不相干的机构，他们合作的可能性有多少？

PG：海伦，我有一个问题要问你。为一篇论文找到审稿人是如此困难，而对于审稿人来说，有很多事情要做！您认为我们可以在多大程度上减轻负担？

HK：寻找审稿人的系统正在发展，也许我们需要转向半自动的论文写作，AI辅助完成那些标准化的部分，而审稿人也只需审查论文的某一部分即可。

编辑 AdW：我发现有趣的是，我们看到人类和AI工作之间的融合：Lucy说我们仍然需要人类的介入，但Helen和Paul都指出，科学中有一些部分主要由机器完成，这些部分既可以由AI编写，也可以由AI检查。如果我们考虑一个极端的情况，在一个完全自动化的实验室里：如果机器本身可以写报告呢？谁来读这些报告呢？其他机器？

新的问题：AI开始写论文了，人类怎么办？

LLW：我们应该问的一个问题是：论文的目的是什么，它们是供人类阅读的吗？如果有一种方法可以突出论文所做的具体贡献，也许可以减轻阅读的负担。甚至是人类制作更多的论文供计算机阅读？例如，如果正在运行的实验，计算机可以生成一个报告来完整复制所有设置，以便另一台计算机可以重做这些设置，这将提高可重复性。我认为两者都有空间：AI可以快速获得更多的数据，然后去粗取精；论文的发表和撰写完全数字化，节省能源和资源，人类则专注于解释和沟通。