Redian新闻
>
七个LLM的狼人杀之夜

七个LLM的狼人杀之夜

科技

深度学习自然语言处理 原创
作者:Winnie

在最新一篇论文中,研究团队让一群大语言模型(LLM)开了一局狼人杀游戏。通过多种Prompt方法集成,LLM不仅成功地参与了游戏,还涌现出了信任、欺诈和领导力等团体能力。

Paper: Exploring Large Language Models for Communication Games: An Empirical Study on Werewolf
Link: https://arxiv.org/abs/2309.04658

进NLP群—>加入NLP交流群

问题定义

在这场狼人杀游戏中,七名LLM被分配了五种不同的角色,包括狼人、村民、女巫、守卫和预言家。游戏在白天和黑夜之间交替进行,每个阶段都有特定的活动和决策需要做出。

Prompt方法

为了让LLM智能体能够更好地适应这种动态和策略性十足的游戏环境,研究团队运用了多种prompt方法来促进推理。对于每个LLM参与者,它的prompt如下图所示:

研究人员为每个角色定义了一些基本问题。这些问题旨在回忆有用的信息。此外,它们还起到了指导LLM初始思维的作用。这些问题如下表所示。

实验结果

为了评估prompt方法,作者变体模型输出中提取了50个响应,进行了人工评估。在这个过程中,评注者需要判断每个输出的合理性,其中包括检查是否存在幻觉、是否忽视了其他因素的影响或是否采取了反直觉的行动。下图展示了方法的效果。结果清楚地表明,完整的prompt方法可以比其他任何变体产生更合理和更现实的响应。

此外,游戏中观察到LLM在游戏规则或提示中表现出一些没有明确预编程的战略行为。这些行为分为四类,包括信任、对抗、伪装和领导。

结语

经过一系列游戏实验,LLM不仅展示了深刻的游戏理解力,还成功地模拟了人类玩家在游戏中可能展示的多元特质。这项实验不仅丰富了我们对LLM在策略游戏中的能力理解,还为未来的多LLM合作解决任务打开了新的可能性。


进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
人去楼不空那一刻我们一定要警惕日本的狼子野心!GPT-4、ChatGLM2、Llama2、PaLM2在KDD LLM Day上一起开了个会6.7k Star量的vLLM出论文了,让每个人都能轻松快速低成本地部署LLM服务《星级男人通鉴》第8章 陪太子读书的常春藤Continuous Batching:解锁LLM潜力!让LLM推断速度飙升23倍,降低延迟!微软发布基于LLM的代码生成神器,动动嘴就能写代码!朱老四双林奇案录第三部之歌星之死: 第六节清华攒局8个ChatGPT狼人杀,心机伪装都在这一局里,清华:我没教过大模型掌握16000+真实世界API了,清华等机构ToolLLM的工具使用能力不输ChatGPT运维必须收藏!常用的570个Linux命令+280个Shell脚本,一定能帮到你!0.2美元微调就能让ChatGPT彻底破防!普林斯顿、斯坦福发布LLM风险预警:普通用户微调也影响LLM安全性训练14分钟,超越Alpaca!华人团队发布「飞天羊驼」,基于LLM的数据过滤新范式切勿靠近!旧金山湾区发现游荡的狼杂种,如有看到请立即远离!陈丹琦新作:一个LLM的评估基准LLMBar国宝级歌舞团女星自杀之谜超燃复仇?美女得知继父偷藏她私密照怒杀之,被判无期引声援:杀垃圾没错!AR赛道距离它的ChatGPT时刻只差一个LMM了吗?BELLE-7B-1M逆袭ChatGLM?10B量级开源中文对话LLM,谁成常识问答任务的黑马?LLM的考试过程原来是这样?C-Eval优等生考题实测8个ChatGPT玩狼人杀,带节奏,装无辜,打掩护,一样不落日本的狼子野心,我们必须警惕!Medusa: 简单高效地解决LLM的生成延迟丢掉 LangChain、像 Docker一样编排大模型应用程序:这支十余人的年轻创业团队如何在2个月做出一个LLMOps平台?分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应用LLM-as-Agent、VLAM的机会、「算力困境」和对Transformer的质疑LLM 全景图 (The Landscape of LLM)代码数据会促进LLM的推理能力吗?撒谎、带节奏样样精通!清华让七个AI玩狼人杀,个个都有小心思GPT-4,Llama2,ChatGLM2,PaLM2共聚一堂 | LLM Day @KDD 2023惊!美国人杀到安省No Frills扫货!疯狂囤这东西!加拿大人乐了巴以狼人杀,谁药了哈马斯?DreamLLM:多功能多模态大型语言模型,你的DreamLLM~
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。