电子科大与腾讯「开悟」同行三年,探索游戏 AI 创新发展
作者丨王晓然
编辑丨陈彩娴
11月21日,由腾讯牵头构建的AI多智能体与复杂决策开放研究平台“开悟”正式宣布扩大开放,于官网发布“王者荣耀 AI 开放研究环境”申请及下载,提供用于人工智能研究的验证场景,以便开发者能够快速便捷地测试自己的新算法和模型。这标志着开悟平台迈向了开放拥抱科研的新征程。
“开悟”是腾讯牵头构建的AI多智能体与复杂决策开放研究平台,依托腾讯AI Lab和王者荣耀在算法、算力、实验场景方面的核心优势,为学术研究人员和算法开发者开放的国内领先、国际一流研究与应用探索平台。
过去三年,腾讯“开悟”平台始终在逐步成长:从内部工具到开放平台,从高校赛事到创新课程,从小范围开放到发布面向全业界的开放环境,“开悟”正朝着愿景中“赋能产学研,共享AI新生态”的目标逐步靠近。
作为腾讯开悟平台首批合作的产学研高校团队,电子科技大学“极致互动体验课题组”是这一过程的重要见证者之一。四川省特聘专家、电子科技大学计算机科学与工程学院未来媒体研究中心副教授谢宁首次公开与开悟平台合作游戏AI的探索实践,并这样评价“开悟”:“能明确感受到腾讯开悟团队将人工智能开放平台做强做大的决心,同时基于双方前期的合作成果,我们深刻意识到开放研究环境这一举动将对人工智能业界带来巨大影响。”
“极致互动体验课题组”隶属于电子科技大学计算机科学与工程学院与未来媒体研究中心。课题组科研领域围绕计算机图形学、人机交互、人工智能与强化学习,重点解决游戏AI中的深度学习建模技术、神经渲染技术、用户体验多模态分析技术与和多智能体强化学习技术。教学工作重点在数字媒体技术专业的游戏技术课程群建设。
谢宁与腾讯开悟平台结缘要追溯到三年前,腾讯团队第一次来学校交流,就带来了包括产品、策划、引擎技术、人工智能技术、游戏运营等方方面面的近十人完整的核心团队,可见对于同高校进行产学研合作的重视。时任王者荣耀产品经理刘林介绍策划开悟平台的缘起、团队组建、技术攻关等历程,尤其是游戏AI的相关计划让谢宁印象深刻。研究领域的契合和腾讯团队的诚恳,让谢宁及其课题组坚定了与当时还略显简陋的腾讯“开悟”平台持续推动产学研合作的决心。
在三年合作后,谢宁认为当时的决定是十分正确的。在与“开悟”的合作过程中,他的课题组在“教学”“科研”“竞赛”三个方面均获益良多。
首当其冲的是教学,在专业课设计方面,学院的数字媒体专业课程主要围绕着“音视频处理技术和游戏技术”两大方面进行规划。因此,结合游戏技术的特点,课题组将游戏技术及相关课程进行聚合,以“多平台、多实践、进阶式”为建设特点形成“游戏技术课程群”。按照课程内容的前后关系及实训安排,分散到从大一到大四的每个学期,构成了链式课程群。从而解决了课程间知识衔接不明确、基础教育与实践不紧密的难题。目前已形成由《基于项目的游戏策划》、《数字媒体创意设计与制作》、《游戏程序设计》、《面向游戏的人工智能》、《数字游戏综合课程设计》5门课程构建的游戏技术核心群课程。
特别是在人工智能与游戏技术结合方面,得益于腾讯“开悟”平台教学版支持,围绕王者荣耀AI设计与开发,课题组编制了《面向游戏的人工智能》课程,并开设了对应的实践课程,以提高学生在游戏AI设计与开发方面的理论水平和工程实践能力,强化学生们对当前工业界中关于游戏AI设计与开发的先进技术和未来趋势的体验。课题组先后成功申请教育部产学合作协同育人项目、校级新工科课程建设等。同时,合作的成果得到了多方认可,获得了中国高等教育会主办的2021年度中国高等教育博览会“校企合作双百计划”典型案例奖。
科研创新方面,课题组在深度强化学习与多智能体协同对抗方面的工作获得了有效的支撑。
在当今充满竞争的环境下,高校人才培养只有“学”与“研”是远远不够的,重要的是要在实践中去历练。“以赛促研”,科研与赛事的紧密结合,是课题组选择的更有效方式,正是本着这样“求实求真,实践出真知”的新工科教学理念,课题组连续三年组织学生参加由腾讯举办的“开悟多智能体强化学习大赛”,在前两届的比赛中均取得了第二名的名次,今年也已顺利进入了复赛,目前正在激烈竞争决赛名额。同时,学生团队在世界大学生运动会数智竞技邀请赛中获得AI赛道预选赛第二名,正在积极准备征战2023年世界大学生运动会期间举办的决赛。
赛事要求学生团队开发AI模型,在王者荣耀游戏环境中完成竞技挑战。在王者荣耀的对战中,两支学生团队互为竞争关系,需要收集资源的同时干扰对方,以达到赢得游戏的目的。作为一个具备多英雄、多玩法的复杂对抗游戏,王者荣耀的状态、动作空间复杂度比围棋等游戏要高很多,这是适合学术界研究复杂控制类问题的优质环境。
为了使算法迭代更新循序渐进地进行,“开悟多智能体强化学习大赛”分为三个阶段,需要分别完成不同的赛题。在初赛中,课题组需要完成1V1的英雄智能体模型设计,这个阶段中并没有涉及到智能体之间的合作,也不用考虑环境中如野怪和草丛等影响战略战术的游戏元素。只需要让智能体学好技能释放、连招和走位等即可。在复赛和决赛中,则会涉及多个英雄的比拼,并且会开放更多的游戏元素,如野怪、草丛、主宰和增益等等。同时,阵容搭配的不同也给算法训练带来了极大的挑战,这使得任务复杂性更上一层楼。这样最后迭代产生的算法将会有更好的泛用性,更适用于各种复杂环境的智能体训练。
开悟平台为竞赛与研究提供了强大的支持,集成强化训练、数据抽取、监督训练、推理服务、对战管理、录像管理等多种功能为一体。其比赛流程是在开发容器上设计并实现AI代码,之后打包代码,通过开悟平台在由腾讯提供的训练资源上进行训练,训练过程中课题组可以通过开悟平台检测运行的日志信息并可视化一些性能数据。待训练完毕后,课题组可以将训练好的模型放在对战平台上进行测试。在对战完成后,即可通过观察到的对战数据来了解智能体目前存在的不足之处,以此来调整训练智能体的相关算法。
该比赛画面出自2021王者荣耀高校联赛全国总决赛
要赢得比赛,需要在赛前模型设计、赛中通信协同以及赛后讨论迭代三个方面做好工作。
首先是赛前模型设计。课题组先后在特征处理、训练调参、网络设计等方面做了大量的工作。特征处理方面,因为强化学习需要在几秒钟训练之后立刻使用刚训练好的模型来生成最新的训练样本,这就要求强化学习的神经网络具有快速拟合的能力,不能过深。训练调参方面,强化学习的训练数据质量参差不齐,快速拟合某些训练数据容易学习到一些不好的策略以至于陷入局部最优的情况,类似于深度学习中的过拟合问题。网络设计方面,深度强化学习的神经网络不能过宽,避免参数过度冗余导致过拟合,而MOBA游戏状态空间巨大且特征复杂,又需要更深的深度神经网络去拟合状态信息特征,因此课题组提出了幂级连接网络来解决这个问题。
然后是赛中通信协同。在实际对局中,英雄间的协同操作非常重要,如及时支援队友实现以多打少等战术,涉及团战时和队友技能的控制衔接等多智能体通信问题,在后续的比赛之中,为了实现英雄间协同操作来共同完成目标,课题组使用了注意力机制在特征的层面上共享了英雄间的信息。并且由于比赛在“泛用性”上所提出的要求,即能否让多个不同职能的英雄只使用一个模型来进行决策,课题组专门设计了与赛题相符的网络结构进行训练。
最后是赛后讨论迭代。在整个比赛过程中课题组一直提倡队员间经常讨论,无论是线上会议还是线下讨论,每个队员都积极地提出自己的想法,最后大家表决出最可能有效的想法进行实现,并且将整个讨论的过程和最后的讨论结果通过专用软件记录下来。这让课题组可以迅速不断迭代算法版本,同时也对灵感的迸发和个人能力的锻炼都有非常大的帮助。对于那些由于技术不足或者由不可控因素带来的问题,开悟平台还专门设立了供所有队伍讨论的论坛,并且有相关技术专家坐镇来专门解决同学们的问题,也便于来自不同学校的队员之间进行技术交流,以此产生新的灵感。
在长达90天的比赛过程中,开悟竞赛不仅提高了课题组团队成员的代码能力与科研能力,在不断的讨论中,也让同学们对于强化学习乃至人工智能这个领域有了新的思考。这对于同学们步入社会进行实际项目实践也是非常有帮助的,这恰恰也是AI竞赛的目的,即“以赛促研”旨在建立“产”“学”“研”合作的新生态,推动“AI+游戏”科技升级及人工智能研究的发展。
腾讯“开悟”平台对于产学研的推动是巨大的。首先,开悟是一座桥梁,跨越了人工智能领域横亘在产业和教育间的由于缺乏实践平台所产生的沟壑。课题组与“开悟”的合作,先行先试地证明了这个新的平台和新的模式的可行性。其次,开悟是兴趣的源泉。正如爱因斯坦所说“对一切来说,只有热爱才是最好的老师。”将游戏兴趣作为学生最初的学习驱动力,在不断学习过程中,让学生逐步认识到“好玩有趣”的游戏背后有着严谨、精妙的游戏技术和人工智能技术支撑,让学生产生“从游戏好玩到技术精妙”追求上的蜕变。随着“王者荣耀 AI 开放研究环境”面向世界范围开放,这将是中国游戏AI科研团队对全行业的一个重大贡献。
开悟平台写进《成都人工智能产业发展报告(2022)》
开悟平台的影响已经从业界层面破圈,被写入《成都人工智能产业发展报告(2022)》,亮相2022中国(成都)人工智能产业CEO大会,开悟平台负责人刘林被邀请加入成都市人工智能专家智囊团,为成都市人工智能产业发展提供智力支撑。CEO大会同步宣布由高校、协会、企业联合发起的成都市人工智能伦理委员会正式成立,将统筹规范和协调成都人工智能产业伦理治理工作。首批专家智囊团成员、欧洲科学院士、未来媒体研究中心主任申恒涛教授认为,人工智能的发展关键是技术创新,技术创新的关键是人才,人才培养除了需要教育和研究,也离不开产业的进步。当产业、教育、研究三者形成良性的循环,课题组或将迎来真正的人工智能产业大爆炸。
种种迹象反映,游戏与AI的结合已经成为人工智能发展的重大趋势,开始从游戏走进现实世界,赋能实体经济与城市治理。而其研究意义远远不止于游戏本身。这是一个富有挑战而令人振奋的研究课题,研究中所累积的经验、方法与结论,能在更广大深远的范围被有效地利用。首先是打通虚拟与现实的藩篱,从而赋能物理世界,如无人汽车和机器人的发展。其次,游戏中有关对话智能的研究,或能成为通向强人工智能的重要途径。最后,研究游戏中人、智能体和环境的交互,能让智慧城市这样复杂而意义深远的项目从中受益。
任何一个重大技术变革,都需要雄厚的人才队伍支撑,这是成都发展游戏AI的优势所在,电子科大已经先行先试,积累了一些经验与心得,相信随着腾讯“开悟”平台的扩大开放,将有更多高校加入这样的产学研合作,为推动人工智能技术变革做出贡献。
更多内容,点击下方关注:
微信扫码关注该文公众号作者