机器人智能进阶的秘诀,为什么是这个技术?
现实世界里,机器人虽然还远远达不到影视里呈现的高度智能,但实际上各相关行业和企业也一直在探索让机器人变得更“聪明”的方式。令人意想不到的是,游戏技术也正在这场探索里发挥作用。
6月27日,腾讯游戏发布会上,公布了一个特殊的项目——游戏驱动机器人加速智能学习项目,利用游戏技术和AI ,帮助腾讯首个全自研的四足机器人Robotics X Max实现智能控制、决策,并提升训练效率,这或许能成为机器人研发领域一个创新的突破口。
近日,智东西独家对话项目技术团队,深入了解将游戏技术应用至机器人研发背后的故事,并探讨游戏技术跨界的可行方向。
近年来,机器人的“技能树”逐渐枝繁叶茂,从早期能完成简单的单一动作,发展到具备力觉、触觉、听觉等多重感官,再到同时能进行多项复杂任务,甚至试图学会“思考”。
腾讯首席科学家、腾讯 AI Lab 及腾讯 Robotics X 实验室主任张正友将智能机器人的核心技术概括为A2G:A是人工智能(AI),B是机器人本体,C是控制,D是发育学习(developmental learning),E是情商,F是灵巧操控。通过学习能力、情感能力、操控能力及与其他要素的交互,机器人就会成为G,即人类的守护天使(guardian angel)。
这七个技术方向,推动机器从采集信息向分析决策、实现有意识自主的高阶智能发展——感知、学习、执行、规划。
说起来容易,但要实现真正的智能进阶,仍然有相当多的难题横亘在前。
就像人类在成长过程中通过学习、实践、试错,逐渐建立思考能力一样,研究人员希望给机器人设定一个目标,通过设计合理的奖励机制,让它自己摸索着学会感知和适应动态的环境变化。
而在真实场景中做这种训练,会非常“费钱”,因为实体机器人一旦磕磕碰碰,很容易损毁硬件,更别提还需耗费大量的数据和训练时间。
无独有偶,伴随着游戏产品的迭代升级,NPC(非玩家角色)似乎也在变得越来越“智能”。
在今天的游戏中,“状态机”是最常见的智能模拟方案,从《吃豆人》的鬼魂,到《暴力摩托》的摩托车手,再到《荒野大镖客》随处能与玩家进行交互的市民,随着游戏的进化和迭代,状态机智能已能做到真假难辨。
但即便是将NPC做到足够逼真的《荒野大镖客2》,也仅仅实现了“运动匹配”。其技术总监曾在一次访谈中回顾说,他们给马设计了几百种不同的动作动画,就连喘气都有上百条不同的声音。而这些,并不是真正的智能,只是庞大行为树和动画资源堆叠的成果。
那么如何通往真正的智能?怎样实现更高质量的虚拟角色,使其既能拥有更加自然真实的动作表现,又能显著降低开发成本?
面对这项游戏与机器人研发的共同核心课题,腾讯游戏技术团队和机器人团队进行了智能体动作生成技术的合作研发,并在游戏虚拟环境中应用和训练NPC,让NPC通过不断自主学习,学会更加拟真的动作、反应和表达。
研究期间,合作团队意识到,游戏里累积的大量技术经验与虚拟模拟的训练条件,可以为机器人的智能研发提供帮助,同时帮助解决成本高、优化难的两大研发痛点。
在合作过程中,以腾讯Robotics X实验室为主的机器人部门负责设计核心算法,包括定义任务环境和目标、构建和训练AI算法、搭建机器人智能控制系统整体框架、真机部署等。
以天美J3工作室、天美技术中心、腾讯互娱旗下 START 团队、腾讯 AI Lab 为主的游戏和AI部门,则主要基于游戏NPC动作模拟的智能体动作生成技术,助力实现机器人的自主决策并适配不同场景;同时提供高效和逼真的虚拟仿真能力,如环境场景搭建、核心物理引擎加速等,强化机器人训练效率和速度。
智东西获悉,经腾讯多个团队合作,机器狗 Robotics X Max 的训练效率得到大幅提升。
此外,机器狗能基于对虚拟场景中周边环境和自身状态感知到的信息,实现更好的姿态和行为控制,在智能感知、智能控制和智能决策方面的能力有明显进步。
这背后,两个游戏中的技术起到关键作用:
智能体动作生成技术能让虚拟环境中无论是NPC还是机器人都能提高“思考能力”,使其作出符合环境交互特点的拟真动作和反应。
需注意的是,这跟以往“填鸭式”教机器人、编码设定固定动作的逻辑大不相同。
具体来说,该技术利用AI强化学习算法,学习动作捕捉数据,通过数据驱动的自适应算法,让NPC或机器人根据玩家操作或环境变化等不同外界反应,基于运动学原理来自主生成和调节动作,仿佛帮助NPC或机器人形成大脑,让它们进行自主决策,自动生成更像真实生物的动作、反应与表达。
有了这一技术加持,机器狗在向着既定目标运动的过程中,即使临时碰到预先不知道的障碍物,也能轻轻一闪,灵巧避开,灵活自主地修改运动轨迹,用不同路线方案完成既定目标。
通过对学习算法中奖励函数的进一步设计优化,智能体动作生成技术做到了让机器人更灵动,该技术被用于研究训练之后,机器狗 Robotics X Max 的运动轨迹规划将会更加自然流畅,能够实现更细颗粒动作的智能生成、控制、决策,使动作表现体现高度智能。
智能体动作生成技术可以帮助解决机器人自主动作生成和控制,但是需要进行大量的仿真训练。
而在游戏中被广泛使用并积累了丰富经验的实时物理模拟技术,便是本次项目投入应用的另一个核心技术。它可以基于动力学搭建出高度拟真的虚拟环境,打破物理世界的局限性,满足机器人研发对复杂训练环境和多样化场景样本的需求。
游戏是模拟现实世界的最佳场所,也是最好的虚拟模拟和训练环境。相比直接在真实场景中训练实体机器人,该技术能降低试错成本,避免出现危险,进一步提升受力、碰撞等模拟效果的精确性,还有助于尽早发现机器人研发中的潜在问题。
利用实时物理模拟技术,研究团队可在游戏中快速搭建不同拟真虚拟训练场景,将机器狗 Robotics X Max 的训练场搬到虚拟空间,参照现实中的运动数据,让机器狗在仿真的复杂地形中完成行走、奔跑、相互协作等训练,并通过引擎加速能力,大力缩减机器人在现实世界完成训练所需的过程与时间。
据项目技术团队介绍,原本在现实世界需要几年的时间收集的数据量,可以在加速后的虚拟环境下,缩短成几小时来生成。
在机器人智能控制领域,基于强化学习的机器人智能控制方法是一个非常有前景的技术方向。因为游戏技术的加入,这一通过反复控制机器人运动、设计合理的奖励,来指导机器人怎么学习稳定地完成指定任务,以达到强化学习的技术方法,也不再因为需要耗费大量训练时间和金钱成本而不可想象。技术团队可以让机器人模型在虚拟世界中从零开始训练学习,再把总结出来的控制算法应用到真实机器人上,使机器人研发更加高效和节省资源。
目前,项目技术团队已实现在虚拟环境中,单只机器狗经过引擎加速后效率提升20倍,且同时训练的机器狗数量越多,训练效果越好,当同时存在50只机器狗训练,训练效率能实现百倍提速。
未来,结合GPU加速技术,腾讯游戏技术团队将助力进一步提升虚拟环境中机器狗的训练效率。
实现更好的动作表现,是游戏和机器人领域共同的重要研究目标。腾讯游戏正在与腾讯 Robotics X 实验室联合研发下一代智能机器人。
在将游戏技术和AI集成应用到机器人智能控制和决策这个课题面前,还存在诸如对于各类接触和碰撞高效且稳定的的仿真、对于触觉传感器信号的利用和仿真,以及如何稳定地将虚拟训练中得到的神经网络控制策略迁移到真机上等问题。
但技术团队正在借助游戏技术等探索稳定的解决方案,以期将原本需要数周甚至数月的,完成一个从动作设计、模拟仿真到真机调试的机器人控制任务的过程缩短到数天。
同时,他们希望借助游戏技术构建一套不断进化的智能系统,实现多机器人协作、精准控制,适应复杂环境变化,从虚拟到现实帮助机器人解决智能控制与自主决策问题。
当机器人能在游戏搭建的虚拟环境中实时感知、分析决策和行动的时候,它们将来或可应用于养老陪护等惠民服务和更多新场景,成为人类的好帮手。
智能体动作生成技术、实时物理模拟技术,被项目技术团队视作是未来智能机器人研发的重要技术方向。
而游戏作为一个综合的技术平台,为这些技术提供了理想的研究环境和应用场景,对推动AI和机器人在感知、决策、控制、计算等方面的研究起到重要作用。
看向下一个十年,游戏技术将走向何方?
在本周的发布会上,腾讯游戏已经给出了自己的答案——可以是人工智能、四足机器人,可以是工业仿真,也可以是数字文保,乃至浩瀚宇宙。
数字长城、数字中轴、全真互联数字工厂、联合研发全动飞行模拟机视景系统等多个游戏科技项目的推出,让我们看到,腾讯游戏技术跨界探索的范围正在延展。
近些年,国内外科技巨头相继开始描绘下一代互联网的蓝图,而数实融合已是公认的大势所趋。
在这股热潮之中,游戏的可交互、高仿真、强沉浸、实时渲染等技术属性,被进一步放大,并外溢至科研、文娱、教育、医疗更多有价值的现实场景,为具体的社会命题带来创新的解决方案,也为许多其他领域的技术进步做出重要贡献。
根据中科院《游戏技术——数实融合进程中的技术新种群》研究报告,2020年游戏技术对芯片业的技术进步贡献率约为14.9%,对5G和VR/AR的科技贡献率分别高达46.3%和71.6%。
可以预见的是,游戏技术将突破传统游戏场景,通过跨界应用牵引众多高精技术产业快速发展,成为促进跨领域科技创新的“隐形推手”。
微信扫码关注该文公众号作者