让AI小队混战跑毒经商,还设“坦克奖”,NeurIPS这比赛真不是打游戏?
丰色 发自 凹非寺
量子位 | 公众号 QbitAI
你敢信,机器学习顶会NeurIPS的正经比赛,竟是让你“打游戏”,还有钱拿的那种。
你要做的就是调教一支由8个AI组成的小队,让它们在这样一张地图里学会“荒野求生”。
在这个过程中,其他15支同样规模的队伍会跟你的AI争夺生存资源,所以还得会打架、搞装备,甚至跑毒、经商……
如果你的AI特别抗揍,可以争夺单项奖里的“坦克奖”(手动狗头)。
如果你不想打打杀杀,还可以考虑走“经济路线”:比赛系统中专门添加了交易系统,让“小的们”专心搞钱(买卖装备)也有机会赢得为鼓励有趣策略涌现的“Gold Farmer奖”。
你说你是新手?没关系,可以先打人机、再打排位~
可以说,简直和咱平常玩的游戏区别不是很大——只不过是用你自己亲手写的代码来比划。
当然,不用担心技术水平,只要会编程,都可以来试试,赢的方式有很多种。
至于奖金,主办方准备了20000美元,前十六名都有份。
想试试?打起来打起来~
海量AI同台大乱斗,看AI玩转三十六计
这场比赛全称为NeurIPS 2022-Neural MMO海量AI团队生存挑战赛,主办方是超参数科技、麻省理工学院、清华大学深圳国际研究生院,以及数据科学挑战平台AIcrowd。
正如其名,其“擂场”就来自于一个叫做Neural MMO的平台。
该平台是OpenAI于2019年发布的一个研究海量智能体策略的开源环境。
作者Joseph Suarez是MIT的一位博士生,设计灵感来自于大型多人在线角色扮演游戏(MMORPG)。
它支持大量玩家同时在持久(不重置)、广阔的环境中竞争和对抗,且一块桌面级CPU就能跑起来,是一个绝佳的强化学习训练场。
基于Neural MMO的挑战赛面向全球AI技术从业者、研究者和爱好者。
只要你会编程就可以来玩一玩,当然,会一点强化学习算法或者运筹优化、启发式算法的东西就更好~
具体规则上,每位参赛选手需控制一支由8个智能体组成的团队,在128x128的地图上和其他15支队伍展开自由对抗。
每个智能体只能看到15x15范围内的东西。
地图上有16种基本元素:
用来喝的“水”、可以获得食物的“森林”、可正常踩踏的“草地”、挡路的“石头”、踩到会死的“岩浆”;
可以转化为可存储的食物资源“鱼”和“蘑菇”,可以被制作成三种弹药的“矿石”“水晶”“松树” ;
以及可被采集的资源被采后会退化成的“灌木丛”,它会有一定概率重新生长回来;
等等。
每一步可以执行很多动作:移动、选择攻击对象、选择攻击方式、使用背包里的某一个装备、购买市场上的物品、售卖一个物品并对它自由出价(在固定范围内)。
可发起的攻击包括近战攻击、远程攻击和魔法攻击,都有对应的武器和弹药来提升武力值,也有防御护甲等装备来提升自己的防御值。
比赛开始后,每支队伍随机出生于地图边缘,毒圈机制会让大家慢慢聚集到地图中间,让对手以及高强度NPC都会被迫正面对战,就看哪一队KO掉的智能体数最多且存活时更长。
交易系统、毒圈机制……有趣又硬核
是的,为了比赛的刺激性,不仅原本无限的游戏时长被限制为1024步,在平台本身提供的生存和攻击规则之外,赛事还增加了交易系统、扩充了装备品类、设计了多职业分工和毒圈机制。
其中:
装备系统可以让智能体通过攻击敌人和NPC获取提升自己防御力和攻击力的物品,包括弹药、武器、护甲等等。
交易系统则是本届比赛最大的亮点。
智能体在每一个step都可以自由买卖手里的装备,队友相比敌人具有优先购买权(不可送),售卖时需要用1-100之间的数字自行定价。
购买装备的钱可以通过不断击杀NPC或其他玩家获得。
由于每个智能体的背包容量有限,装备满了之后不能丢弃只能卖,那么卖什么怎么定价就成为一个问题(比如高级装备卖出去被敌人得到就会对自己造成威胁)。
这个设定不仅给群体智能体提供了全新的交互方式,也让它们面临的抉择有了更高的决策复杂度。
对于多职业分工机制来说,它的设定是为了选手可以靠打角色配合去赢得比赛。
比如擅长近战攻击者就一直攻克近攻能力,只买近战装备,把得到的远程和魔法攻击的装备都卖掉;
善于采集的智能体,则把得到的更加高级的装备都低价卖给自己的队友。
最后,毒圈机制规定游戏进行到240步的时候开始缩毒,以此强迫智能体尽量进入到地图中间的安全区域,和等级更高的NPC以及其他对手正面battle。
双重赛道,按实力入座
那么具体怎么个比法呢?
为了不挫败新手玩家的积极性,比赛贴心地设置了两个赛道:PvE和PvP。
PvE即“Player vs Environment”,在该赛道中,选手与内置AI进行比拼,一共打十局,排名第一得0.1分。
比赛有两个Stage,内置AI策略难度逐渐提升。
不过其策略是固定的,因此参赛者就可以得到有参照性的反馈,从而根据该反馈不断优化自己的策略,让效果可见,提振信心。
(想想看,如果一开始就和真实选手PK,双方都同时优化策略,该如何得知自己的优化有没有长进呢?)
如果你在PvE环节Stage 1得到0.5分以上,那么恭喜,可以参加主赛场了——
PvP,即“Player vs Player”,是真实参赛者之间的比拼,奖金的大头都在这里。
在这个赛道,一切都是未知,谁都不知道会遇上什么样的策略。
而你那在PvE中取得好成绩的办法,可能在与其他选手的大乱斗中幸运脱颖而出,也可能被秒的落花流水。
PvP环节同样并非一局定胜负,为保证公平,赛事会用类似天梯赛的排名算法来滚动排位。
这还没完。
为了鼓励多元化,涌现更多有意思的策略,比赛设置了两个单项奖:
“Gold Farmer奖”和“坦克奖”。
没错,这个坦克指的就是T。开头已经提过,需要智能体们学会在毒圈内外拼命横跳、疯狂嗑药回血,做游戏里最肉的那个仔。
“Gold Farmer奖”则只需要执着于搞钱。
不得不说,这俩奖项的设置,很有那味儿了。
关于比赛规则就介绍这么多。
既考验规则理解,也考验决策深度
为了减轻参赛选手熟悉环境和开始训练的成本,主办方特意准备了初学者工具包(Starter Kit)。
并基于Facebook的Torchbeast框架给出了一个Baseline,选手只需用几行代码就可以运行Neural MMO的环境开始训练。
此外,他们还开发了一个轻量级的Web Viewer,可以用很简化的流程让选手像人类观察员一样可视化地观测每一局所有智能体的表现。
那么,正文上文所说,上手简单,且智能体学会喝水和采食就能存活,成为了比赛负责人陈嘉欣博士给出的第一个推荐参赛理由。
(如果不当比赛,看成有特定规则的任务,用来入门强化学习也可以。)
第二个推荐理由:你说它上手简单,但也有“亿点点”挑战性。
比如Neural MMO挑战赛就非常考验选手的两个能力:对游戏本身的理解,与使用决策算法的能力。
鉴于每局环境里有16支队伍共128个智能体在同时学习,要想取胜,智能体们不仅需要考虑自己期望得到何种奖励,如何配合队友,还要考虑对手可能会采取什么策略。
再加上每一局对战都是多任务模式,决策链条很长,最后的输赢奖励很稀疏。
层层设置背后,都让每个智能体面临的“抉择”都有着更高的决策复杂度,贴合现实的复杂决策环境。
比如它们可能就要同时解决:
如何寻找更节约时间的通路?
如何不断地攻击更强的NPC来获取更强大的装备?
在游戏刚开始时到底是选择先积累击杀分还是获取装备?
在游戏进行到240步开始缩毒时,到底是保命重要还是继续追杀外圈的敌人和NPC再赚点击杀分和装备?
当背包满了的时候,是卖掉装备留着存储弹药和药水,还是死活不把高级装备卖给敌人?
……
具体怎么决策,就看你如何发挥了~
最后,陈博士还表示,这次比赛新增的交易系统也十分有趣并具有看点,AI之间的交互从基本的抢夺资源和互相攻击变得跟更加的丰富写实了。
在这种设置下,智能体之间要学会买卖的策略,从而慢慢演化出AI的经济行为,而之前的研究环境里比较少见这一设置。
所以大家都是第一次玩,没有前车之鉴铺路,能涌现出什么样的策略非常值得期待。
除了以上三点,我们再聚焦到比赛背后的多智能体决策技术。
其实这项研究的成果在自动驾驶、无人机集群对抗、智慧城市、工业领域等方面都能派上用场。
再往远了说,该技术对通用人工智能的发展也有着不可忽视的助推作用。
所以,如此有趣又有价值的比赛,你真的不来试试?
毕竟在此之外,主办方提供了丰厚的物质奖励。
在物质奖励之外,获奖者还将以共同作者身份一同被邀请撰写Competition Report,发表在国内外技术类博客上,并可能作为NeurIPS的会议report/paper发表。
10月30日参赛DDL
最后,赛程时间安排奉上:
2022年8月18日-PvE第1阶段比赛开始,发布入门套件、开放提交系统
2022年8月31日-PvP开赛
2022年9月22日-PvE第2阶段开赛
2022年10月24日-参赛和团队组建截止日期
2022年10月30日-最终提交截止日期(划重点!!!)
2022年10月31日至2022年11月15日-PvP十六强决赛
2022年11月16日-宣布结果
感兴趣的盆友可以扫描下图中的二维码或点击“阅读原文”参赛~
— 完 —
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见~
微信扫码关注该文公众号作者