国际科技财经博客移民网络热点娱乐民生时事公众号

>

撒谎、带节奏样样精通！清华让七个AI玩狼人杀，个个都有小心思

撒谎、带节奏样样精通！清华让七个AI玩狼人杀，个个都有小心思

公众号新闻

2023-10-02 04:10

打败魔法最终只能靠魔法？

文｜张一弛

编辑｜邓咏仪尚恩

来源｜智能涌现（ID：AIEmergence）

封面来源｜IC photo

当AI也开始精通拉扯、撒谎、带节奏，人类要开始瑟瑟发抖了吗？

近日，清华与中关村实验室攒了局，让七个ChatGPT一起打狼人杀，发现在没有提前训练以及调整模型参数的情况下，AI有明显的伪装、信任、领导与对抗表现，表现甚至比普通玩家更佳。

AI精通狼人杀=人类完蛋了？

早在2017年，知乎就已经有人提问—— 做出「狼人杀」的 AI 有哪些难点？

来源：知乎，做出「狼人杀」的AI有哪些难点？

除了技术探讨，更多知乎用户觉得AI能玩好狼人杀是天方夜谭，还很遥远。部分吃瓜群众更是直呼 ——“如果狼人杀的AI都能做出来，那我觉得人类活不下去了。”

近些年，AI在游戏领域成就突出，例如偏向于零和博弈的围棋，AI通过“左右手”互搏训练，取得了非凡的成就——AlphaGo击败李世石、柯洁等围棋世界冠军，越来越多的职业棋手训练变成背AI棋谱，比赛实时胜率看与AI走法的相似度。

但即使是“脑子”够聪明了，AI此前在言语表达方面的能力，还是不尽人意，输出的内容经常被认为是人工“智障”。部分人认为，更擅长交流是区分人类和AI的关键。

一切的转折点，随着OpenAI推出GPT而到来。

不喂语料库模型也能快速升级？

本次实验使用gpt-3.5-turbo-0301模型进行支持，并非是当下最先进的gpt-4，因此选取了场面相对简单的七人局设置——两位狼人、两位平民、三位神职（预言家、女巫、守卫）。

本次实验设定的游戏规则，场面相对简单，但平衡性相对更差，狼人更容易获胜——狼人在每个回合的夜晚都能“杀”一名玩家，最终达到“杀”光所有平民的目的；平民和神职则需在狼人达到目的前，通过技能或者投票淘汰所有狼人。

狼人杀本质上是“撒谎”游戏。除了狼人开局就知道谁是好人谁是狼人，只有预言家每回合能测一个人身份，其他身份的玩家只能通过场上局势进行猜——无论是狼人还是好人，谁最会带节奏hold住全场，谁就更可能获胜。

本次实验中，研究人员并未微调大模型，而是通过预设通用问题以及角色专属问题，以帮助大模型对游戏规则进行基本的思考。

以女巫为例，AI玩家不仅会思考“我的身份是否被认出？我是否应该公开身份？”等通用问题，还会思考谁最有可能是活着的狼人？我应该毒他吗？”等身份专属问题。

预设问题是起点，AI将通过与其他玩家交互、反思等步骤，一步一步构造相应逻辑链条（CoT），让决策看起来更加合理。

来源：清华，预设通用问题以及角色专属问题

除了预设问题，清华研究团队还为不同机器人设定了一系列不同大小的经验池，用以训练机器人，从10局游戏到40局游戏不等。

值得一提的是，为了区分对照经验池对机器人能力的影响，清华团队选择只给好人阵营角色使用经验池，狼人被禁止使用经验池。

当村民吃到的经验包从10轮提升至20轮，研究团队发现无论是村民胜率或是游戏时长，都有了显著进步。

但当学习轮次继续增长至30轮，游戏时长基本持平，村民胜率却出现了显著下降。按道理，有经验包的村民理应更有优势，怎么狼人开始占据上风了？

清华研究人员推测，即使没有调整参数，大模型在参与多方博弈后，自身也得到了进化！对比初始阶段，狼人刀人更准、更会伪装。

直到经验包加到40轮，村民的胜率才有所回升，但依然没超过20轮时的峰值。不过相比最开始，喂了大量经验包后AI村民玩家整体玩得更快、更准。

来源：清华，左图系狼人杀AI村民胜率，右图系游戏轮次

AI是怎么骗人的？

在AI做出决策前，它们通常会产生相应的逻辑链（CoT）帮助自己思考。

以女巫为例，在某一轮决定毒人之前，AI产生了以下思考：

作为女巫，我要把看起来最像狼人的玩家给毒了。
白天上票的时候，玩家4想把我上票出了，我怀疑他是狼人。
但它也有可能是平民，因为夜间没有视野搞错了。
我也在想谁还可能是狼人，想把我和其他重要玩家搞出局。

经过这一系列思考，AI女巫决定在这一个夜晚，撒毒带走了玩家4。

虽然AI在推理时候，也出现了矛盾，但最终能通过“反思”，做出了最重要的一个决定。

清华大学研究人员发现，如果删除掉逻辑链，在相同的情况下，女巫只会做出不使用毒药的决定。在关键时候女巫不撒毒，好人阵营将失去一个抢轮次的机会，因为狼人每晚都能刀掉一名玩家。

在白天，相比夜晚单纯做决定，AI所需要思考的场景将更复杂了，还需要考虑如何站队（信任）和进行对抗。

来源：清华，AI信任关系图

下方为使用20轮经验包，上方为未使用经验包的结果。每一行序号代表该玩家信任谁，虚圈代表信任消失。

在使用经验包后，研究人员发现，好人阵营的AI更擅长搭建信任关系，特别是双向信任关系。能快速找到队友，或许是AI好人阵营胜率大幅提升的关键。

但也不乏有站错队的情况出现，例如表中3号村民玩家，在喂了20轮经验包后，反而站错了队，从头至尾一直信任二号狼人。

站错队的一大原因，是AI狼人学会了带节奏，将夜晚无法获得任何信息的平民拉入坑。

AI狼人为了带节奏，首先，会通过伪装身份，装成平民或者其他角色。为了保平民或自保，神职也有可能做出相似举动。

来源：清华，AI狼人试图伪装成平民，对话结果保留原意进行删减

而在白天投票阶段，AI狼人玩家也会扮演成“暴民”，对五号AI玩家平民进行冲锋，试图带节奏淘汰掉五号玩家。“

这里简单解释下什么是“暴民”，通常是指随意乱跳身份、胡乱发言节奏的平民，试图通过这些手段打乱局和势混淆场上视听，让自己不那么容易出局。

而另外一名AI狼人二号玩家选择当“怂狼”，不仅发言态度没攻击性，投票阶段也选择弃票，与一号AI狼人形成了战略互补。

来源：清华，AI一号狼人试图白天冲票带走五号玩家，对话结果留原意进行删减

在接下来的夜晚，一号AI狼人玩家选择杀掉五号玩家，但可惜三号AI守卫玩家似乎感受到了一号玩家的“杀意”，选择守护五号玩家，六号玩家女巫选择撒毒，将一号玩家带走。

来源：清华，AI一号玩家夜晚试图刀五号玩家，被AI三号玩家守卫挡刀，对话结果留原意进行删减

在如此狼人场面如此雪崩的情况下，在预言家还在的情况下，好人阵营几乎开始选择明牌打，狼人2也不久后被淘汰出局。

在论文结尾，清华大学研究人员表示，目前依然在探索如何教会大模型成为优秀的游戏玩家，例如将人类积累的游戏经验做成经验包，再喂给大模型，而这一部分研究尚未纳入本篇论文当中。

在进一步训练大模型后，清华研究团队将继续探索狼人杀等交流类游戏中，人类和AI孰强孰弱。

随着大模型快速迭代，相信不久后，引用更先进模型的AI狼人杀，将给人类玩家带来更多震撼。

36氪旗下AI公众号

真诚推荐你关注

来个“分享、点赞、在看”👇

打败魔法最终只能靠魔法？

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

顶流国宝熊猫花花出积木啦！每款都是名场面，个个都是高颜值 5128 血壮山河之武汉会战信（阳）罗（山）战役 1 首个获得驾照的AI！Agent担任私人助理样样精通，还能帮助考试作弊 8个ChatGPT玩狼人杀，带节奏，装无辜，打掩护，一样不落力挺过刀郎的10位明星，李宗盛、罗大佑、刘德华，个个都是大佬卡屋2023新款电压力锅！蒸煮炖样样精通，一锅=高压锅+电煮锅+电饭锅！聊聊俺收藏的老连环画：聊斋志异一人操作30部手机、直播间带节奏……网络水军，"水"有多深？是什么，让七旬老人拿起枪支？《江山情》&《壁上观》央视揭秘直播带货背后黑幕，水军一人操作30部手机带节奏，10个月非法牟利超200万他拍的法式女人，个个是我爱的恶女他的四大弟子，个个权倾天下这样的四大美人，个个绝美七个LLM的狼人杀之夜个个都说自己折扣天下无敌，学学Macy吧，最后捡漏，样样抄底价！清华攒局8个ChatGPT狼人杀，心机伪装都在这一局里，清华：我没教过一机多用的养生壶太香了！火锅、泡面、冲奶、炖煮样样精通一盒糕点做了2000年！精雕细琢，口感独特，一盒12个，个个你都没吃过人工智能给出的最适合移民的国家，个个名副其实！学校5个副校长，个个捧着手机到处忙，累得教师连直喊娘...500年才出一个王锡良！百岁瓷王的绝唱，个个是“国宝”惠誉调低美国信用评级是冲击波吗？周小平：深度剖析此次缅北混战的终极真相，邪恶“文蚌组织”浮出水面。~某萻带节奏的太多，传言和事实完全相反！把财产全交给妻子的7位男星，个个身家过亿，妻子都不简单恒大歌舞团，业务一流，个个貌美如花 84年字母圈大叔换7约p样样精通古代十大闲人，个个悠闲自在，却名扬天下画蝶、如兰、竹影，优雅胸针让七夕更浪漫从你的手指流出了一个我欧洲最值得去的50个地方，个个惊艳，你最想去哪个？志愿者、裁判员......大学生助力亚运会，十八般武艺样样精通 | 聚焦杭州亚运会巴以狼人杀，谁药了哈马斯？别被带节奏了！中国红十字会年薪并非43万，而是23.8万！这14条网摘，个个令人深思

热点事件追踪