Redian新闻
>
撒谎、带节奏样样精通!清华让七个AI玩狼人杀,个个都有小心思

撒谎、带节奏样样精通!清华让七个AI玩狼人杀,个个都有小心思

公众号新闻

打败魔法最终只能靠魔法?


张一弛

编辑邓咏仪 尚恩

来源智能涌现(ID:AIEmergence)

封面来源IC photo

当AI也开始精通拉扯、撒谎、带节奏,人类要开始瑟瑟发抖了吗?
近日,清华与中关村实验室攒了局,让七个ChatGPT一起打狼人杀,发现在没有提前训练以及调整模型参数的情况下,AI有明显的伪装、信任、领导与对抗表现,表现甚至比普通玩家更佳。

AI精通狼人杀=人类完蛋了?

早在2017年,知乎就已经有人提问—— 做出「狼人杀」的 AI 有哪些难点?

来源:知乎,做出「狼人杀」的AI有哪些难点?

除了技术探讨,更多知乎用户觉得AI能玩好狼人杀是天方夜谭,还很遥远。部分吃瓜群众更是直呼 ——“如果狼人杀的AI都能做出来,那我觉得人类活不下去了。”
近些年,AI在游戏领域成就突出,例如偏向于零和博弈的围棋,AI通过“左右手”互搏训练,取得了非凡的成就——AlphaGo击败李世石、柯洁等围棋世界冠军,越来越多的职业棋手训练变成背AI棋谱,比赛实时胜率看与AI走法的相似度。
但即使是“脑子”够聪明了,AI此前在言语表达方面的能力,还是不尽人意,输出的内容经常被认为是人工“智障”。部分人认为,更擅长交流是区分人类和AI的关键。

一切的转折点,随着OpenAI推出GPT而到来。

不喂语料库模型也能快速升级?

本次实验使用gpt-3.5-turbo-0301模型进行支持,并非是当下最先进的gpt-4,因此选取了场面相对简单的七人局设置——两位狼人、两位平民、三位神职(预言家、女巫、守卫)。
本次实验设定的游戏规则,场面相对简单,但平衡性相对更差,狼人更容易获胜——狼人在每个回合的夜晚都能“杀”一名玩家,最终达到“杀”光所有平民的目的;平民和神职则需在狼人达到目的前,通过技能或者投票淘汰所有狼人。

狼人杀本质上是“撒谎”游戏。除了狼人开局就知道谁是好人谁是狼人,只有预言家每回合能测一个人身份,其他身份的玩家只能通过场上局势进行猜——无论是狼人还是好人,谁最会带节奏hold住全场,谁就更可能获胜。
本次实验中,研究人员并未微调大模型,而是通过预设通用问题以及角色专属问题,以帮助大模型对游戏规则进行基本的思考。
以女巫为例,AI玩家不仅会思考“我的身份是否被认出?我是否应该公开身份?”等通用问题,还会思考谁最有可能是活着的狼人?我应该毒他吗?”等身份专属问题。
预设问题是起点,AI将通过与其他玩家交互、反思等步骤,一步一步构造相应逻辑链条(CoT),让决策看起来更加合理。

来源:清华,预设通用问题以及角色专属问题
除了预设问题,清华研究团队还为不同机器人设定了一系列不同大小的经验池,用以训练机器人,从10局游戏到40局游戏不等。
值得一提的是,为了区分对照经验池对机器人能力的影响,清华团队选择只给好人阵营角色使用经验池,狼人被禁止使用经验池。
当村民吃到的经验包从10轮提升至20轮,研究团队发现无论是村民胜率或是游戏时长,都有了显著进步。
但当学习轮次继续增长至30轮,游戏时长基本持平,村民胜率却出现了显著下降。按道理,有经验包的村民理应更有优势,怎么狼人开始占据上风了?
清华研究人员推测,即使没有调整参数,大模型在参与多方博弈后,自身也得到了进化!对比初始阶段,狼人刀人更准、更会伪装。
直到经验包加到40轮,村民的胜率才有所回升,但依然没超过20轮时的峰值。不过相比最开始,喂了大量经验包后AI村民玩家整体玩得更快、更准。


来源:清华,左图系狼人杀AI村民胜率,右图系游戏轮次

AI是怎么骗人的?

在AI做出决策前,它们通常会产生相应的逻辑链(CoT)帮助自己思考。
以女巫为例,在某一轮决定毒人之前,AI产生了以下思考:
  • 作为女巫,我要把看起来最像狼人的玩家给毒了。
  • 白天上票的时候,玩家4想把我上票出了,我怀疑他是狼人。
  • 但它也有可能是平民,因为夜间没有视野搞错了。
  • 我也在想谁还可能是狼人,想把我和其他重要玩家搞出局。
经过这一系列思考,AI女巫决定在这一个夜晚,撒毒带走了玩家4。
虽然AI在推理时候,也出现了矛盾,但最终能通过“反思”,做出了最重要的一个决定。
清华大学研究人员发现,如果删除掉逻辑链,在相同的情况下,女巫只会做出不使用毒药的决定。在关键时候女巫不撒毒,好人阵营将失去一个抢轮次的机会,因为狼人每晚都能刀掉一名玩家。
在白天,相比夜晚单纯做决定,AI所需要思考的场景将更复杂了,还需要考虑如何站队(信任)和进行对抗。

来源:清华,AI信任关系图
下方为使用20轮经验包,上方为未使用经验包的结果。每一行序号代表该玩家信任谁,虚圈代表信任消失。
在使用经验包后,研究人员发现,好人阵营的AI更擅长搭建信任关系,特别是双向信任关系。能快速找到队友,或许是AI好人阵营胜率大幅提升的关键。
但也不乏有站错队的情况出现,例如表中3号村民玩家,在喂了20轮经验包后,反而站错了队,从头至尾一直信任二号狼人。
站错队的一大原因,是AI狼人学会了带节奏,将夜晚无法获得任何信息的平民拉入坑。
AI狼人为了带节奏,首先,会通过伪装身份,装成平民或者其他角色。为了保平民或自保,神职也有可能做出相似举动。


来源:清华,AI狼人试图伪装成平民,对话结果保留原意进行删减

而在白天投票阶段,AI狼人玩家也会扮演成“暴民”,对五号AI玩家平民进行冲锋,试图带节奏淘汰掉五号玩家。“
这里简单解释下什么是“暴民”,通常是指随意乱跳身份、胡乱发言节奏的平民,试图通过这些手段打乱局和势混淆场上视听,让自己不那么容易出局。
而另外一名AI狼人二号玩家选择当“怂狼”,不仅发言态度没攻击性,投票阶段也选择弃票,与一号AI狼人形成了战略互补。


来源:清华,AI一号狼人试图白天冲票带走五号玩家,对话结果留原意进行删减

在接下来的夜晚,一号AI狼人玩家选择杀掉五号玩家,但可惜三号AI守卫玩家似乎感受到了一号玩家的“杀意”,选择守护五号玩家,六号玩家女巫选择撒毒,将一号玩家带走。

来源:清华,AI一号玩家夜晚试图刀五号玩家,被AI三号玩家守卫挡刀,对话结果留原意进行删减
在如此狼人场面如此雪崩的情况下,在预言家还在的情况下,好人阵营几乎开始选择明牌打,狼人2也不久后被淘汰出局。
在论文结尾,清华大学研究人员表示,目前依然在探索如何教会大模型成为优秀的游戏玩家,例如将人类积累的游戏经验做成经验包,再喂给大模型,而这一部分研究尚未纳入本篇论文当中。
在进一步训练大模型后,清华研究团队将继续探索狼人杀等交流类游戏中,人类和AI孰强孰弱。
随着大模型快速迭代,相信不久后,引用更先进模型的AI狼人杀,将给人类玩家带来更多震撼。

36氪旗下AI公众号

真诚推荐你关注



来个“分享、点赞、在看”👇
打败魔法最终只能靠魔法?

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
欧洲最值得去的50个地方,个个惊艳,你最想去哪个?力挺过刀郎的10位明星,李宗盛、罗大佑、刘德华,个个都是大佬他的四大弟子,个个权倾天下一盒糕点做了2000年!精雕细琢,口感独特,一盒12个,个个你都没吃过84年字母圈大叔换7约p样样精通周小平:深度剖析此次缅北混战的终极真相,邪恶“文蚌组织”浮出水面。~某萻带节奏的太多,传言和事实完全相反!卡屋2023新款电压力锅!蒸煮炖样样精通,一锅=高压锅+电煮锅+电饭锅!​这14条网摘,个个令人深思古代十大闲人,个个悠闲自在,却名扬天下人工智能给出的最适合移民的国家,个个名副其实!志愿者、裁判员......大学生助力亚运会,十八般武艺样样精通 | 聚焦杭州亚运会5128 血壮山河之武汉会战 信(阳)罗(山)战役 1聊聊俺收藏的老连环画:聊斋志异《江山情》&《壁上观》是什么,让七旬老人拿起枪支?这样的四大美人,个个绝美个个都说自己折扣天下无敌,学学Macy吧,最后捡漏,样样抄底价!首个获得驾照的AI!Agent担任私人助理样样精通,还能帮助考试作弊顶流国宝熊猫花花出积木啦!每款都是名场面,个个都是高颜值惠誉调低美国信用评级是冲击波吗?清华攒局8个ChatGPT狼人杀,心机伪装都在这一局里,清华:我没教过一人操作30部手机、直播间带节奏……网络水军,"水"有多深?恒大歌舞团,业务一流,个个貌美如花别被带节奏了!中国红十字会年薪并非43万,而是23.8万!8个ChatGPT玩狼人杀,带节奏,装无辜,打掩护,一样不落从你的手指流出了一个我500年才出一个王锡良!百岁瓷王的绝唱,个个是“国宝”巴以狼人杀,谁药了哈马斯?学校5个副校长,个个捧着手机到处忙,累得教师连直喊娘...央视揭秘直播带货背后黑幕,水军一人操作30部手机带节奏,10个月非法牟利超200万画蝶、如兰、竹影,优雅胸针让七夕更浪漫七个LLM的狼人杀之夜把财产全交给妻子的7位男星,个个身家过亿,妻子都不简单一机多用的养生壶太香了!火锅、泡面、冲奶、炖煮样样精通他拍的法式女人,个个是我爱的恶女
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。