ChatGPT最新测评发布，超半数美国人无法区分人类写作与机器写作

2023-04-13 05:04

近日，围绕ChatGPT的讨论仍在国外社交媒体上持续发酵。据知名统计网站Tooltester（工具测评者）最新调查报告显示，美国超一半受试者无法区分人类写作与机器写作，且随着升级版GPT-4发布，这一比例升至63.5%。另有结果表明，介于18-24岁的年轻群体更容易被ChatGPT内容“欺骗”。

编译丨申璐

人工智能的进化，会在未来取代人吗？

近日，国外一家统计网站Tooltester（工具测评者）发布了针对ChatGPT使用情况的最新调查报告。该调查分两次进行，首次测评于2023年2月下旬开展，面向1920名ChatGPT的美国使用者，罗列了75段分别由真人写作、机器写作，以及机器写作结合真人编辑的内容，以问卷形式请受试者识别。在GPT-4推出后，补充征集了1394人进行二轮调查。结果表明，聊天机器人的迭代速度明显超出了普通大众的预估，多数使用者对机器写作内容的复杂程度了解有限，难以区分哪些网络内容是由真人编写。

在内容识别方面，超过53.1%的受试者无法准确从文本中挑出机器写作段落。而当GPT-4发布后，这一比例甚至升至63.5%。即便是对AI类工具更熟悉的受试者，能够作出正确判断的人也仅占48%。而就年龄段而言，介于18-24岁之间的年轻人更容易被机器写作“欺骗”，他们中有59.8%的人无法作出正确判断，尽管他们可能在日常生活中更频繁地接触到这类内容。有趣的是，在所有年龄段中，65岁以上老年人能够正确识别机器写作的比例是最高的（52%）。

图源：Tooltester官网。

在内容领域上，机器写作是否更擅长编写特定主题内容？结果显示，AI聊天机器人更善于撰写健康类和旅行类内容，或者说人们更容易错将机器写作的这类文章误认为是真人所写。当不少受试者面对诸如扑热息痛的副作用、健身计划的制定、租车技巧，以及酒店省钱攻略这些AI生成文本时，他们倾向于认为这是真人写的。报告称，这意味着AI生成的健康、旅行类“小贴士”似乎要比真人写的还更加人性化。

值得注意的是，反而是技术类文章更容易识别。51%的受试者能够区分哪些“技术贴”是AI生成的，且这方面，女性受试者表现略优于男性（52.4%对49.9%）。综合上述内容领域数据显示，调查团队提示称，这可能也透露出一个危险难料的趋势，我们正在走向一个人工智能深度融入生活世界的未来，包括医疗保健。

此外，该调查还询问了受试者对机器内容的看法和信任程度。80%以上的受试者支持制定机器写作的相关规范条例。71.3%的受试者称，如果内容提供方，如商家、出版社等在未作说明的情况下发布AI生成内容，这会大大降低他们对品牌本身的信任度。总体而言，人们还是倾向于内容提供方能够主动标识内容生产方式，这是否会成为未来互联网世界的常态仍有待观察。

自2022年11月30日，知名人工智能研究实验室OpenAI发布ChatGPT以来，人工智能话题多次引发广泛讨论。这项能够理解上下文语境、学习人类语言进行对话，并完成邮件撰写、主题创作等任务的聊天机器人在短短几天便吸引上百万用户注册。今年3月，GPT-4的发布持续冲击着公众的既有认知。这份调查报告再度印证了一个基本现状，目前我们的确难以区分人类写作与机器写作。

参考链接：

1. Survey: ChatGPT and AI Content. Can people tell the difference?

https://www.tooltester.com/en/blog/chatgpt-survey-can-people-tell-the-difference/#Younger_people_struggle_more_with_identifying_AI_content

2. Half of Americans can’t pick phony AI writing from human writing.

https://lithub.com/half-of-americans-cant-pick-phony-ai-writing-from-human-writing/