Redian新闻
>
今日arXiv最热大模型论文:图灵测试中,GPT-4仍不及人类!

今日arXiv最热大模型论文:图灵测试中,GPT-4仍不及人类!

公众号新闻

夕小瑶科技说 原创
作者 | Axe_越
你跟分清智能和人类吗?

2015年,在由香港大学主办,以创新创业为主题的Dream Catchers论坛上,腾讯创始人马化腾透露,在创业早期为留住用户,他曾亲自下场假扮女孩子陪用户聊天。

而今天,随着以ChatGPT为代表的人工智能技术井喷,各种定制化聊天场景、角色层出不穷。我们不光要“防备”对面卿卿我我的“小姐姐”实际是个八尺大汉,甚至还要做好心理准备,因为对面和自己难舍难分的“另一半”可能都不是个“人类”。

论文标题:

People cannot distinguish GPT-4 from a human in a Turing test

论文链接:

https://arxiv.org/pdf/2405.08007.pdf

图灵测试

图灵测试最初由英国数学家和逻辑学家艾伦·图灵在1950年提出,旨在回答“机器能思考吗?”这一问题。

图灵设计了一种实验,即所谓的“模仿游戏”,其中一名人类讯问者以文本方式与另一名人类和一台机器进行交流,而讯问者不知道他是在与人还是机器交谈。如果讯问者无法可靠地区分出谁是机器,那么机器就被认为通过了图灵测试。图灵的这一提议不仅挑战了对智能的传统看法,也引发了关于机器智能的广泛讨论和研究。

下图是人类讯问者(绿色)和被讯问者(灰色)之间的对话精选示例。这四个对话中有一个被讯问者是人类,其余都是AI(试试能不能分辨出哪个是人类,答案在文末

尽管图灵测试在理论上具有划时代的意义,但在实际应用中却面临诸多挑战。早期的实验如ELIZA程序表明,即使是简单的模式匹配技术也能在一定程度上“欺骗”人类,使人们误以为自己在与另一个人交谈。然而,这种类型的交互并没有真正展示出深层的语言理解或推理能力。

随着时间的推移,更复杂的人工智能系统如GPT-3.5和GPT-4被开发出来,它们在语言生成和理解方面的能力大大超过了早期的系统。最近的研究显示,GPT-4在图灵测试中的表现已经非常接近人类,这标志着人工智能在模仿人类交流方面取得了显著进步。

实验设置

测试系统

在本文的图灵测试实验中,研究人员比较了三种不同的人工智能系统:ELIZA、GPT-3.5和GPT-4。ELIZA是一个基于简单规则的聊天机器人,而GPT-3.5和GPT-4则是基于大语言模型(LLM)的先进AI系统。这些系统通过模拟人类的语言使用模式,试图在与人类讯问者的交流中不被识别出来。

实验方法

实验采用随机控制的双盲设计,共计500名参与者通过一个消息应用与一个匿名的对话者进行五分钟的文本交流。每位参与者在对话结束时需要判断对方是人还是AI,并给出自己的判断理由和信心评分。

其中,双边参与者(讯问者和被讯问者)通过一个类似常规短信应用的界面进行交流。讯问者首先发送消息,双方交替发送,每条消息限制在一定的字符数内。为了模拟真实的交流延迟,AI的回复会根据消息的长度人为地延迟发送。这种设置旨在模拟正常的人际交流节奏,增加实验的现实感。

实验结果

实验结果显示,GPT-4对图灵测试的通过率为54%,超过了GPT-3.5的50%和ELIZA的22%,但仍低于真人的67%。这些数据表明,在模拟的图灵测试中,尽管GPT-4的表现接近人类,但仍有辨识上的差距

与直觉相反的是,实验表明GPT-4与GPT-3.5在辨识度上并没有显著差异。此外,那些声称自己对LLM的工作方式更了解的参与者,在识别LLM方面并没有表现出更明显的优势。

参与者判断依据

为深入了解影响讯问者判断被询问者是否为AI的策略和因素,本文对讯问者所使用的策略及其做出判断的原因进行了分类。调查发现,36%的讯问者与被讯问者进行闲聊,询问个人细节或他们的日常活动。排名第二的策略是社交和情感(25%),例如询问证人的意见、经历并分析判断它们的幽默感;第三是知识和推理(13%),包括数学、逻辑和常识问题。

为评估每种策略的有效性,本文统计了各个策略的平均准确率。当讯问者询问人类经验(75%)、逻辑和数学(78%),或指控被讯问者是人工智能(80%)时,更有可能得到相对准确的判断,尽管后者可能是建立在讯问者已经有了一定判断的基础上。

与传统智能概念(如知识和推理)有所不同,讯问者最常见的决策理由与语言风格(43%,如拼写、语法、大小写是否正确,语气是否恰当)和社会情感因素(24%,如语言风格、幽默感或个性是否更贴近人类)有关;而知识推理仅占到10%(对方知道太多或太少)。

分析和讨论

GPT-4是否通过了图灵测试?

本文探讨了如何判断一个系统是否通过了图灵测试。虽然图灵在其1950年的论文中预测,到世纪末,机器将能够模仿人类行为到足以让讯问者在五分钟的询问后,正确识别AI的几率不超过70%,但这个30%的通过率标准似乎有些武断。本文认为50%的基线更合理,因为它表明讯问者在识别AI方面并不比随机猜测做得更好。

通过与ELIZA基线的比较,本文认为GPT-4通过了这个版本的图灵测试。GPT-4被判断为人类的平均置信度为73%,也表明了参与者并非随机猜测。

图灵测试度量的是什么

图灵最初设想的模仿游戏是作为智能的一种衡量。然而,对于图灵测试是否能够真正测量智能,学界存在争议。一些人认为图灵测试太简单了,因为人类倾向于拟人化,可能会被不智能的系统所欺骗。

本文也指出,尽管图灵测试可能不提供是否智能的必要或充分证据,但它提供的证据可以与其他评估方法相辅相成。图灵测试的互动性、对抗性和广泛的范围是其优势。

伪装的机器人

实验结果表明,参与者在五分钟的对话后无法比随机猜测更好地识别GPT-4,这表明当前的AI系统有能力欺骗人们相信它们是人类。这在更自然的情境中可能更具有潜在的欺骗性,因为在实验之外,人们可能并不会警惕对方是AI或专注于检测它。

缓解欺骗的方法

本文探讨了可能有助于缓解欺骗的方法。他们发现,讯问者在提逻辑推理、当前事件和人类体验相关问题时更有可能做出准确的判断,尽管这只是来自于相关性统计的结果。

本文还研究了讯问者判断的准确度与人口统计特征之间的相关性,以了解可能导致正确判断的因素。然而,作者发现对LLM的了解或与聊天机器人的互动频率,并没有能显著提高准确率。相反,年龄与准确性呈现负相关性,这可能表明年轻人对新技术的接触更多,而更不容易被欺骗。

结论与展望

本文总结了GPT-4在图灵测试中的表现,分析了图灵测试的意义,以及当前AI系统可能对社会产生的影响。尽管图灵测试有其局限性,但这项研究提供了对当前AI系统欺骗能力的实际评估。

同时,作者建议未来的工作可以通过训练方式来直接测试讯问者的知识对准确度的影响,并持续追踪人类与AI技术的关系,因为哪怕就在我们码字的时候,AI仍然在不断进步迭代中。

结语

大家还记得前面的判断题吧,

现在公布答案:B,只有B的被讯问者是人类。

再看看这组图,不知道大家有选对么~

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
中国的“琉球”,日本的“琉球”瓦尔登湖,或梭罗今日arXiv最热大模型论文:上海AI lab发布MathBench,GPT-4o的数学能力有多强?今日arXiv最热大模型论文:大模型都能怎么用?中南大学最新综述:大模型时代的自然语言处理今日arXiv最热大模型论文:Agent也疯狂!FoA方法对智能体做树结构搜索,超越ToT今日arXiv最热大模型论文:复旦提出基于diffusion的虚拟试衣模型,模特一键换装今日arXiv最热大模型论文:减少语法错误,竟成了突破口!识别AI生成文本,AUROC达98.7%今日arXiv最热NLP大模型论文:天津大学发布大模型数学能力细粒度评价基准FineMath今日arXiv最热大模型论文:大模型对齐告别微调,直接编辑表征空间即可解决今日arXiv最热NLP大模型论文:揭露大语言模型短板,北京大学提出事件推理测试基准今日arXiv最热NLP大模型论文:一文读懂大模型的prompt技术今日arXiv最热大模型论文:忘记"也是一门学问:机器如何忘记自己学到的知识?今日arXiv最热NLP大模型论文:微软发布可视思维链VoT,提高大模型空间想象力今日arXiv最热NLP大模型论文:大模型RAG新宠!浙江大学发布自反馈检索增强方法今日arXiv最热大模型论文:LoRA又有新用途,学得少忘得也少,成持续学习关键!GPT31、长篇家庭伦理小说《嫁接 下》第十一章 大难之后(1)回国杂记(2301)第一次乘坐台湾长荣航空公司的航班回国今日arXiv最热NLP大模型论文:Github万星!北航发布零代码大模型微调平台LlamaFactory今日arXiv最热NLP大模型论文:超越GPT-4,清华发布网页导航智能体AutoWebGLM今日arXiv最热CV大模型论文:国产开源视觉大模型InternVL 1.5发布,赶超GPT-4V水准今日arXiv最热NLP大模型论文:GPT-4理解武林外传中的含蓄表述,达人类水平今日arXiv最热大模型论文:AI"参审",论文评审迎来"神助攻"?今日arXiv最热大模型论文:浙江大学:如何减轻视觉大模型中的幻觉问题今日arXiv最热NLP大模型论文:微软:用大模型分析用户满意度,让智能系统更善解人意今日arXiv最热NLP大模型论文:CMU最新综述:工具使用,大模型的神兵利器今日arXiv最热NLP大模型论文:韩国团队提出ResearchAgent系统,模仿人类产出论文idea今日arXiv最热大模型论文:COLING 2024: 复旦发布AoR,层级聚合推理突破大模型复杂推理上限今日arXiv最热NLP大模型论文:华东师大发布对话级大模型幻觉评价基准DiaHalu今日arXiv最热大模型论文:首个面向AI的python编程框架,提升大模型编程能力新思路今日arXiv最热NLP大模型论文:对指令太敏感?山东大学提出一致性对齐法,治好大模型敏感体质!今日arXiv最热NLP大模型论文:NAACL24实锤语言学对大模型“负优化”,抽象语义表示+思维链有损表现今日arXiv最热NLP大模型论文:又到美国大选年,南加大教你如何用ChatGPT影响竞选今日arXiv最热大模型论文:大模型也来看球,还能判断是否犯规今日arXiv最热大模型论文:北大发布4维时空数据预训练,助力自动驾驶熵泱——第四十七章
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。