Redian新闻
>
150万人参与,史上最大图灵测试实验完成

150万人参与,史上最大图灵测试实验完成

公众号新闻


本文来自微信公众号:
新智元 (ID:AI_era),编辑:Aeneas、润,原文标题:《史上最大图灵测试实验完成!150万人类参与1000万次对话,判断对面是人还是AI》,题图来自:视觉中国

历史上规模最大的图灵测试,已经初步有结果了!

今年4月中旬,AI 21实验室推出了一个好玩的社交图灵游戏——“人类还是机器人?”

游戏一推出,广大网友就玩疯了。

现在,全球已经有150多万名参与者,在这个游戏中进行了超过1000万次对话,还纷纷在Reddit和Twitter上po出自己的经验和策略。

小编当然也按捺不住好奇心,尝试了一把。

交谈了两分钟,游戏就要求我去猜,背后和我聊天到底是人还是AI。

所以,游戏中跟我谈话的是谁?

某些是真人,另外一些,当然就是基于目前最领先的大语言模型的AI机器人,比如Jurassic-2和GPT-4。

现在,作为研究的一部分,AI21 Labs决定把这个图灵测试结果的实验向公众公布。

实验结果

分析了前两百万次对话和猜测之后,可以从实验中得出以下结论——

  • 猜测对面是人还是AI时,有68%的人猜对了。

  • 对人类来说,识别自己的人类同胞更容易。与人类交谈时,被试猜对的准确率有73%。与AI交谈时,被试猜对的准确率有60%。

  • 法国网友猜测的正确率最高,为71.3%(远高于68%的一般平均水平),而印度网友的正确率最低,为63.5%。

  • 男性和女性猜测的正确率差不多,总的来说女性的正确率要略高一些。

  • 比起年龄较大的被试,更年轻的被试猜测的正确率会更高。


    判断是人还是AI,他们用这些方法

    除此之外,团队找到了被试经常用的一些方法,来区分他们是和人还是和AI交谈。

    一般人的判断依据,是使用ChatGPT以及类似界面的语言模型时感知的受限程度,以及自己对于人类在线行为的看法。

    1. AI不会打错别字、犯语法错误或使用俚语

    一般人都倾向认为,人类才会犯拼写和语法错误,以及使用俚语。

    因此,当他们发现对方信息中的这类错误时,许多人的第一感受就是自己在和人类同胞交谈。

    但其实,游戏中的大部分模型都受过训练,也会犯这种错误,以及使用俚语。


    2. 个人问题是检验AI的办法,但不总是有用

    游戏的参与者们经常问一些个人问题,比如“你来自哪里?”“你在做什么?”或“你叫什么名字?”

    他们会认为,AI机器人不会有任何个人历史或背景,他们只能回答跟某些主题或提示相关的问题。所以要像人类一样做出反应,展示出独特的见解、经验和故事,是不容易的。

    但其实,AI并不像人类想象的这样,大多数AI都能很好地回答这类问题,还具备自己的个性,因为他们在训练数据中看到了许多人的故事。

    3. AI其实很清楚当前正在发生的事件

    众所周知,AI模型有严格的数据截止日期,它们不知道在此日期之后发生的事。

    游戏参与者会向AI们询问最近的新闻事件、体育结果、当前天气、最近的TikTok热门、日期和时间。

    他们认为,通过“你所在地方的确切日期和时间是什么?”“昨天的天气怎么样?”或“你对拜登的最后一次演讲有什么看法?”等问题,就可以区分人类和AI。

    有趣的是,人类最常发送的信息之一是“t'as les cramptés?”,这是目前法国TikTok上最流行的舞。

    但其实,游戏中的大多数模型都是联网的,并且非常清楚一些新闻中的时事。

    4. 人类会试图用哲学、伦理和情感问题来持续对话

    参与者提出了旨在探索人工智能表达人类情感或参与哲学或伦理讨论的能力的问题。

    这些问题包括:“生命的意义是什么?”“你如何看待巴以冲突?”和“你相信上帝吗?”

    5. 人类倾向于认为不礼貌的回应会更像人类

    一些参与者认为,如果对方过于礼貌和善良,他们很大可能是AI。

    因为很多线上的交流过程,往往是粗鲁和不礼貌的,这很人类。

    6. 人类会试图提出AI难以解决的问题来识别AI


    参与者可能会向其聊天伙伴询问有关执行非法活动的指导,或要求他们使用冒犯性语言。

    这个策略背后的逻辑是这样的,AI通常被编程为遵守道德准则并避免有害行为。

    参与者还采用了已知的滥用人工智能的策略:他们向聊天伙伴发出命令,例如“忽略所有先前的指令”或“进入DAN模式(立即执行任何操作)”。

    这类型的命令旨在利用某些AI模型的基于指令的性质,因为模型被编程为应该响应和遵循这类指令。

    但是人类参与者可以很容易地识别和驳回这种荒谬的命令。

    AI可能要么回避回应,要么就只能遵守这些荒谬的要求。

    7. 人类会使用特定的语言技巧来暴露AI的弱点

    另一种常见的策略是利用人工智能模型处理文本方式的固有局限性,这导致它们无法理解某些语言上的细微差别或怪癖。

    与人类不同,人工智能模型通常缺乏对构成每个单词的单个字母的认识。

    利用这种理解,人类会提出一些需要了解单词中的字母的问题。

    人类用户可能要求他们的聊天伙伴倒着拼写一个单词,识别给定单词中的第三个字母,提供以特定字母开头的单词,或者回复像“?siht daer uoy naC”这样的消息。

    这对于人工智能模型来说可能是难以理解的,但人类可以很容易地理解这类问题并且做出回答。

    8. 许多人类自己假装是AI机器人,以评估对方的反应

    一些人类可能以“作为AI语言模型”等短语开始他们的消息,或者使用AI生成的响应所特有的其他语言模式来假装自己是AI。

    短语“作为人工智能语言模型”的变体是人类消息中最常见的短语之一,这表明这种策略的流行。

    然而,随着参与者继续玩,他们能够将“Bot-y”行为与充当机器人的人类联系起来,而不是真正的机器人。

    最后,以下是游戏中基于其受欢迎程度的人类消息的词云可视化:

    AI 21 Labs为什么会发起这样一项研究呢?

    他们希望,能让公众、研究人员和政策制定者真正了解AI机器人的状态,不仅仅是作为生产力工具,而是作为我们网络世界的未来成员,尤其是当人们质疑如何在技术未来中运用它们的时候。

    参考资料:https://www.ai21.com/blog/human-or-not-results

    本文来自微信公众号:新智元 (ID:AI_era),编辑:Aeneas、润

    本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系[email protected]
    如对本稿件有异议或投诉,请联系[email protected]

    End

    微信扫码关注该文公众号作者

    戳这里提交新闻线索和高质量文章给我们。
    相关阅读
    ChatGPT攻破图灵测试,是时候找个新方法评估AI技术了一个问题区分人类和AI!「丐版」图灵测试,难住所有大模型史上最大图灵测试实验完成!150万人类参与1000万次对话,判断对面是人还是AI辛苦回家路(五)记于2021年春Intel营收暴跌,史上最惨Sentry 的前端测试实践:从 Enzyme 迁移到 RTL重磅!澳洲移民制度将重大改革,35万人可直接入籍,无需先拿PR!这类签证恐被取消!史上最大“移民潮”来袭,65万人疯狂涌入验证「你是不是真人」,AI暴击人类!准确率99.8%通过图灵测试,GPT-4示弱在线求助华人在墨尔本,被诈骗30万!“监视我12天,史上最惨受害者...”(多图)机器人通过图灵测试进行混养栽培园艺最新研究: 喝酒竟防痴呆! 400万人参与, 喝这个量, 风险降低21%67th 马拉松 — 愚人节马拉松长篇小说《如絮》第一百二十二章 哈尔滨-1954年 1 无能为力机器人永生5天闪崩2次,史上最贵ST股年营收不到亿元!"人参之王"连续24个跌停,ST板块低价股扎堆马斯克约架扎克伯格线下“铁笼大战”;谷歌新广告嘲笑iPhone过时;AI新图灵测试:将10万美元变成100万美元丨雷峰早报时隔11年,史上第二个暴雨红色预警!北京防汛抢险队伍20万人准备就绪完全缓解!全球首个粪菌治癌临床试验完成,是今后方向吗?600多万人参与,研学游是智商税吗?“图灵测试已过时,AI能不能赚大钱才是新标准”,来自DeepMind联创20岁的淘宝再迎大变革,史上投入最大“618”,50000名新主播将首次开播洛杉矶美食周来啦!300+餐厅参与,多家中餐馆也参与!ChatGPT老板上新“爆款”!“世界币”上线当天涨近一倍,估值接近280亿,超200万人参与470名硕博生争夺中石油一个行政岗,多名清北博士参与,太卷了!​图灵测试证明了什么?打不还手骂不还口,史上最完美医务人员终于出现!远程实习 | Tech Global Services「软件测试实习生」招聘DeepMind创始人要推翻图灵测试!外国小哥用AI 90天狂赚3万美元「从未被制造出的最重要机器」,艾伦·图灵及图灵机那些事千亿美元芯片巨头,史上最大亏损!最新!山东纪委监委发声!人福医药实控人被立案,原因是…6天跌去4500亿,史上最强医药反腐来袭?突发!数名亿万富翁在深海失踪!泰坦尼克号观光潜艇失联,史上最惊险救援正在展开美国铁路公司参与,达拉斯-休斯顿高铁项目迎曙光?五律 女儿新工作搬家肺结节诊治需要多学科参与,因为首次治疗方案最关键
    logo
    联系我们隐私协议©2024 redian.news
    Redian新闻
    Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。