研究人员让ChatGPT写了一篇论文,质量如何?
原文作者:Gemma Conroy
通过设计一个给ChatGPT发送“提示”的自动化系统,研究人员生成了一篇流畅、有见解的论文。但他们的顾虑并未消除。
两位科研人员在ChatGPT的帮助下,只用不到一个小时就完成了一篇论文。ChatGPT是由人工智能(AI)驱动的数字工具,能理解和生成类似人类书写的文本。这篇论文流畅、有见地,格式也符合科研论文的标准,但研究人员表示,ChatGPT在能真正大派用场之前还有很多障碍需要克服。
研究人员让人工智能对话机器人ChatGPT在论文写作中担任“副驾”。|Ascannio/Shutterstock
这次实验的目的是探索ChatGPT作为科研“副驾”的能力,并展开关于其优缺点的讨论,以色列理工学院(Technion)的生物学家、数据科学家Roy Kishony说,“我们需要讨论如何在发挥其优势的同时避免其劣势。”
这个团队设计了一个软件包,能向ChatGPT自动发送提示,并基于ChatGPT的回复修改论文。这个自动化的“从数据到论文”系统引导ChatGPT完成一个类似于做科研的“分步式”过程——从最初的数据探索,到撰写数据分析代码和解读结果,再到写作和润色手稿。
为了测试他们的系统,Kishony与他的学生、Technion的数据科学家Tal Ifargan从美国疾病控制中心健康行为危险因子监测系统下载了一个公开数据集,这个检测系统是一个健康相关的电话调查数据库。该数据集包含从逾25万人中采集的关于他们糖尿病现状、果蔬摄取、身体锻炼的信息。
启动系统后,他们便去吃午饭了。
论文的基本要素
首先,系统先让ChatGPT编写数据探索代码。ChatGPT最先给出的代码错误百出,无法运行。但当该系统发现了这些错误后,系统会自动将提示返回给ChatGPT,让ChatGPT修复代码。
下一步, Kishony和Ifargan的系统让ChatGPT帮助拟一个研究目标。ChatGPT建议研究身体锻炼与饮食会如何影响糖尿病患病风险。系统再让ChatGPT创建数据分析计划和数据分析代码。ChatGPT根据代码给出了结果:多摄入水果和蔬菜和身体锻炼与糖尿病风险降低有关。
有了结果后,该系统便让ChatGPT开始写论文。它开了两个ChatGPT的对话。一个对话中,这个系统告诉ChatGPT它是一名科研人员,并指导它写完了论文的各个部分。第二个对话中,ChatGPT扮演了审稿人的角色,为“科研人员”版ChatGPT生成的文本提供建设性意见。
生成式AI的一个问题是它们会通过胡编乱造来填补空白,这个现象也被称为幻觉(hallucination)。为了防止它乱编参考文献,团队让ChatGPT接入了文献搜索引擎,以便它能给出正确的引用渠道。
就在他们快吃完午饭时,ChatGPT已经生成了一篇数据分析可靠、简明清晰的手稿。但这篇论文谈不上完美。比如,这篇论文写道,该研究“填补了学术文献的一个空白”,这句话在论文中很常见,但在这个研究中是不准确的,希伯来大学计算科学家Tom Hope说。研究结果“肯定不会让医学专家眼前一亮,”他说,“连创新都谈不上。”
利与弊
Kishony还担心,这类工具会让研究人员更容易出现科研不端的行为,比如P值操纵(P-hacking),也就是科研人员会用一个数据集检验多个假说,但最后只报道有显著结果的那个。
他的另一个担忧是,如果生成式AI工具让写论文变得很容易,期刊可能会面对大量低质量投稿。他说他的“从数据到论文”加上每一步都有人类监管的方法,或能作为研究人员轻松理解、检查、复制研究方法和研究结果的一种方式。
南澳大学开发教育AI技术的Vitomir Kovanović说,AI工具在科研论文中的使用需要更高的可见度。否则很难评估研究结果的正确性,他说,“如果生产假论文变得这么容易,我们今后可能要做得更多。”
生成式AI工具可用来执行简单直接但很费时的任务,加速科研进度,这类任务包括写摘要和代码,美国麻省理工学院和哈佛大学的博德研究所的计算生物学家Shantanu Singh说。他说,它们或许还能从数据集生成论文,或是提出假说。不过,由于研究人员很难分辨这些工具的幻觉和偏见,Singh说,“我不认为把整篇论文拿给它写是个好主意,至少在可见的未来还不行。”
原文以Scientists used ChatGPT to generate an entire paper from scratch — but is it any good?标题发表在2023年7月7日《自然》的新闻版块上
© nature
doi: 10.1038/d41586-023-02218-z
微信扫码关注该文公众号作者