Redian新闻
>
大模型玩《宝可梦》达人类水平!网友喊话世界冠军:是时候一较高下了

大模型玩《宝可梦》达人类水平!网友喊话世界冠军:是时候一较高下了

公众号新闻
西风 发自 凹非寺
量子位 | 公众号 QbitAI

基于大模型的Agent会玩宝可梦了,人类水平的那种!

名为PokéLLMon,现在它正在天梯对战中与人类玩家一较高下:

PokéLLMon能灵活调整策略,一旦发现攻击无效,立刻改变行动:

PokéLLMon还会运用人类式的消耗战术,频繁给对方宝可梦下毒,并一边恢复自身HP。

不过面对强敌,PokéLLMon也会“慌乱”逃避战斗,连续切换宝可梦:

最终对战结果是,PokéLLMon在随机天梯赛中取得49%的胜率与专业玩家的邀请赛中取得56%的胜率,游戏战略和决策水平接近人类

网友看到PokéLLMon的表现也很意外,直呼:

小心被任天堂封禁,这话是认真的。

甚至有网友喊话宝可梦大满贯选手、世锦赛冠军Wolfey Glick,来和这个AI一较高下:

这究竟是如何做到的?

PokéLLMon大战人类

PokéLLMon由佐治亚理工学院研究团队提出:

具体来说,他们提出了三个关键策略。

一是上下文强化学习(In-Context Reinforcement Learning)

利用从对战中即时获得的文字反馈作为一种新的“奖励”输入,不需要训练就可以在线迭代完善和调整PokéLLMon的决策生成策略。

其中反馈内容包括:回合HP变化、攻击效果、速度优先级、招式额外效果等。

比如PokéLLMon反复使用相同的攻击招式,但由于对方宝可梦具有“干燥皮肤”的能力,对其没有任何效果。

在第三回合中对战中,通过即时上下文强化学习,PokéLLMon随后选择更换宝可梦。

二是知识增强生成(Knowledge-Augmented Generation)

通过检索外部知识源作为额外输入,融入到状态描述中。比如检索类型关系、招式数据,模拟人类查询宝可梦图鉴,来减少未知知识导致的“幻觉”问题。

由此一来,PokéLLMon可以准确理解并应用招式效果。

比如面对犀牛进化形态的地面攻击,PokéLLMon未选择更换宝可梦,而是施展“电磁飘浮”,该技能在五回合内成功抵御地面攻击,使犀牛的“地震”技能无效。

三是一致性动作生成(Consistent Action Generation)

研究人员发现,当PokéLLMon面对强大对手时,思维链(CoT)的推理方式会导致它因“恐慌”而频繁更换道具或宝可梦。

PokéLLMon害怕,不断切换宝可梦

而通过一致性动作生成,可以独立多次生成行动,投票出最一致的,从而缓解“恐慌”。

值得一提的是,研究人员所用的模型自主和人类作战的宝可梦对战环境,基于Pokemon Showdown和poke-env实现,目前已开源

为了测试PokéLLMon的对战能力,研究人员用它分别与随机天梯赛玩家和一名拥有15年经验的专业玩家对战。

结果,PokéLLMon与天梯随机玩家的胜率为48.57%,与专业玩家的邀请对战胜率为56%。

总的来说,PokéLLMon的优势在于:能准确选择有效招式,统一使用一个宝可梦击倒全部对手;展现出类人的消耗战略,使对手中毒后再拖延回血。

不过研究人员也指出了PokéLLMon的不足之处,面对玩家的消耗战略(拖延回血)很难应对:

容易被玩家的迷惑战术误导(迅速切换宝可梦,巧妙使PokéLLMon浪费强化攻击机会)

团队简介

三位作者均为华人学者。

论文一作胡思昊,现为佐治亚理工学院计算机科学博士生,本科毕业于浙江大学,曾在新加坡国立大学担任研究助理。

研究兴趣包括用于区块链安全和推荐系统的数据挖掘算法及系统。

作者Tiansheng Huang,同为佐治亚理工学院计算机科学博士生,华南理工大学校友。

研究兴趣包括分布式机器学习、并行与分布式计算、优化算法以及机器学习安全性。

导师刘玲,现为佐治亚理工学院计算机系教授。1982年毕业于中国人民大学,1993年于荷兰蒂尔堡大学获博士学位。

刘教授主导分布式数据密集系统实验室(DiSL)的研究工作,专注于大数据系统及其分析的多个方面,如性能、安全和隐私等。

同时她也是IEEE Fellow,2012年获得IEEE计算机学会技术成就奖,还曾担任多个IEEE和ACM大会主席。

参考链接:
[1]https://twitter.com/_akhaliq/status/1754337188014100876

[2]https://poke-llm-on.github.io/

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
《再见,布里诺斯艾利斯》赵丽颖火速回复,网友喊话王宝强!各地文旅杀疯了……「李李」男友原来是他… 辛芷蕾「繁花」暴红后 网友喊话:快分手Apple Watch在美销售禁令将恢复/Altman称人类水平的AI即将出现/蔚来2024款车型3月开始交付终于涨了!悉尼空置率上涨至1.37,达到一年来最高水平!网友感叹就算这样租房还是难啊……自信放光芒的娃,小时候一定没少做这件事[世相]世界冠军疑被丈夫开车撞死!丈夫也是世界冠军"是时候控制一下了"!加拿大大幅削减学生签证数量微信增加可清理项;去年国产手机荣耀出货量第一;宝可梦公司称将调查某游戏宝可梦发布幻兽帕鲁声明,AI缝合怪?企台收到10张“宝可梦卡牌”当小费,他晒上网后震惊:一张或值300多元加拿大小企业主们注意!CEBA贷款今天到期! 特鲁多:是时候结束了!苹果即将开放欧洲第三方应用商店;马斯克的 xAI 拟融资60亿美元;《幻兽帕鲁》5天赚15亿,宝可梦:或采取行动 | 极客早知道宝可梦推文被幻兽帕鲁玩家嘲讽?《完蛋!我被美女包围了》DLC 2月发售!今日arXiv最热NLP大模型论文:北京大学警惕ChatGPT等大模型遏制人类的创新能力要想读懂《红楼梦》,一定绕不开他 !《脂砚斋批评本红楼梦》最接近曹雪芹原稿的版本,古代弹幕版《红楼梦》!AI的几何学能力接近奥赛金牌选手;奥特曼:人类水平的AI即将出现,但影响会远比想象中小 | 环球科学要闻"是时候控制一下了"加拿大大幅削减学生签证数量关于朱令铊中毒的一点讨论爆火《幻兽帕鲁》被指用AI缝合宝可梦,开发者自曝传奇经历:是人类的奇迹游戏论|宝可梦醒:作为地狱笑话生成器的《幻兽帕鲁》CEBA贷款今天到期,许多公司被迫倒闭!特鲁多:是时候结束了!嫉妒的心灵不美丽《Palworld》全球爆火、Steam在线涨至186万,借鉴还是抄了宝可梦?奥特曼:人类水平的 AI 即将出现;美团「破发」市值跌去八成;苹果推 Vision Pro 应用商店 | 极客早知道两首《万家灯火》3天卖出500万份的「宝可梦平替」,正在引爆2024年的游戏市场丨产品观察8点1氪:2月9日起中国新加坡互免签证;宝可梦公司针对《幻兽帕鲁》发布声明;东方甄选2024财年中期业绩:带货57亿营收约28亿3天卖出500万份的「宝可梦平替」,正在引爆2024年的游戏市场|产品观察世界冠军突遭车祸身亡,疑被丈夫开车撞死!丈夫也是世界冠军宝可梦公司启动调查!《幻兽帕鲁》CEO采访:没有侵权、玩法更像方舟2023虽然过的不尽人意但是也要总结一下!"是时候控制一下了"加拿大大幅削减学生签证数量!加拿大留学签证如何办理?赵丽颖火速回复,网友喊话王宝强!连夜"摇人"、发视频,各地文旅杀疯了……十秒钟生成一只宝可梦,《幻兽帕鲁》AI 抄袭实锤了?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。