机器人智能进阶的秘诀，为什么是这个技术？

2022-06-30 14:06

游戏技术，也可以用来训练机器人了？

作者 | 程茜

编辑 | 漠影

从“机器人之父”恩格尔伯格发明第一个机器人开始，人类就一直没有停止过对机器人的探索和想象。在影视世界里，人类更是畅想机器人的各种可能，把科技浪漫主义发挥到极致，从《WALL-E》到《超能陆战队》，从《西部世界》到《芬奇》，形形式式的机器人故事被讲述，它们或拥有人类的外观，或具备超强的思维能力，或试图建立自己的情感。

现实世界里，机器人虽然还远远达不到影视里呈现的高度智能，但实际上各相关行业和企业也一直在探索让机器人变得更“聪明”的方式。令人意想不到的是，游戏技术也正在这场探索里发挥作用。

6月27日，腾讯游戏发布会上，公布了一个特殊的项目——游戏驱动机器人加速智能学习项目，利用游戏技术和AI ，帮助腾讯首个全自研的四足机器人Robotics X Max实现智能控制、决策，并提升训练效率，这或许能成为机器人研发领域一个创新的突破口。

近日，智东西独家对话项目技术团队，深入了解将游戏技术应用至机器人研发背后的故事，并探讨游戏技术跨界的可行方向。

01.

智能机器人训练成本高、优化难？

游戏技术来攻关

近年来，机器人的“技能树”逐渐枝繁叶茂，从早期能完成简单的单一动作，发展到具备力觉、触觉、听觉等多重感官，再到同时能进行多项复杂任务，甚至试图学会“思考”。

腾讯首席科学家、腾讯 AI Lab 及腾讯 Robotics X 实验室主任张正友将智能机器人的核心技术概括为A2G：A是人工智能（AI），B是机器人本体，C是控制，D是发育学习（developmental learning），E是情商，F是灵巧操控。通过学习能力、情感能力、操控能力及与其他要素的交互，机器人就会成为G，即人类的守护天使（guardian angel）。

这七个技术方向，推动机器从采集信息向分析决策、实现有意识自主的高阶智能发展——感知、学习、执行、规划。

说起来容易，但要实现真正的智能进阶，仍然有相当多的难题横亘在前。

就像人类在成长过程中通过学习、实践、试错，逐渐建立思考能力一样，研究人员希望给机器人设定一个目标，通过设计合理的奖励机制，让它自己摸索着学会感知和适应动态的环境变化。

而在真实场景中做这种训练，会非常“费钱”，因为实体机器人一旦磕磕碰碰，很容易损毁硬件，更别提还需耗费大量的数据和训练时间。

无独有偶，伴随着游戏产品的迭代升级，NPC（非玩家角色）似乎也在变得越来越“智能”。

在今天的游戏中，“状态机”是最常见的智能模拟方案，从《吃豆人》的鬼魂，到《暴力摩托》的摩托车手，再到《荒野大镖客》随处能与玩家进行交互的市民，随着游戏的进化和迭代，状态机智能已能做到真假难辨。

但即便是将NPC做到足够逼真的《荒野大镖客2》，也仅仅实现了“运动匹配”。其技术总监曾在一次访谈中回顾说，他们给马设计了几百种不同的动作动画，就连喘气都有上百条不同的声音。而这些，并不是真正的智能，只是庞大行为树和动画资源堆叠的成果。

那么如何通往真正的智能？怎样实现更高质量的虚拟角色，使其既能拥有更加自然真实的动作表现，又能显著降低开发成本？

面对这项游戏与机器人研发的共同核心课题，腾讯游戏技术团队和机器人团队进行了智能体动作生成技术的合作研发，并在游戏虚拟环境中应用和训练NPC，让NPC通过不断自主学习，学会更加拟真的动作、反应和表达。

研究期间，合作团队意识到，游戏里累积的大量技术经验与虚拟模拟的训练条件，可以为机器人的智能研发提供帮助，同时帮助解决成本高、优化难的两大研发痛点。

在合作过程中，以腾讯Robotics X实验室为主的机器人部门负责设计核心算法，包括定义任务环境和目标、构建和训练AI算法、搭建机器人智能控制系统整体框架、真机部署等。

以天美J3工作室、天美技术中心、腾讯互娱旗下 START 团队、腾讯 AI Lab 为主的游戏和AI部门，则主要基于游戏NPC动作模拟的智能体动作生成技术，助力实现机器人的自主决策并适配不同场景；同时提供高效和逼真的虚拟仿真能力，如环境场景搭建、核心物理引擎加速等，强化机器人训练效率和速度。

02.

两大核心游戏技术加持

机器人越来越“聪明”

智东西获悉，经腾讯多个团队合作，机器狗 Robotics X Max 的训练效率得到大幅提升。

此外，机器狗能基于对虚拟场景中周边环境和自身状态感知到的信息，实现更好的姿态和行为控制，在智能感知、智能控制和智能决策方面的能力有明显进步。

这背后，两个游戏中的技术起到关键作用：

智能体动作生成技术：让机器人学会“思考”

智能体动作生成技术能让虚拟环境中无论是NPC还是机器人都能提高“思考能力”，使其作出符合环境交互特点的拟真动作和反应。

需注意的是，这跟以往“填鸭式”教机器人、编码设定固定动作的逻辑大不相同。

具体来说，该技术利用AI强化学习算法，学习动作捕捉数据，通过数据驱动的自适应算法，让NPC或机器人根据玩家操作或环境变化等不同外界反应，基于运动学原理来自主生成和调节动作，仿佛帮助NPC或机器人形成大脑，让它们进行自主决策，自动生成更像真实生物的动作、反应与表达。

有了这一技术加持，机器狗在向着既定目标运动的过程中，即使临时碰到预先不知道的障碍物，也能轻轻一闪，灵巧避开，灵活自主地修改运动轨迹，用不同路线方案完成既定目标。

通过对学习算法中奖励函数的进一步设计优化，智能体动作生成技术做到了让机器人更灵动，该技术被用于研究训练之后，机器狗 Robotics X Max 的运动轨迹规划将会更加自然流畅，能够实现更细颗粒动作的智能生成、控制、决策，使动作表现体现高度智能。

实时物理模拟技术：百倍提升训练效率

智能体动作生成技术可以帮助解决机器人自主动作生成和控制，但是需要进行大量的仿真训练。

而在游戏中被广泛使用并积累了丰富经验的实时物理模拟技术，便是本次项目投入应用的另一个核心技术。它可以基于动力学搭建出高度拟真的虚拟环境，打破物理世界的局限性，满足机器人研发对复杂训练环境和多样化场景样本的需求。

游戏是模拟现实世界的最佳场所，也是最好的虚拟模拟和训练环境。相比直接在真实场景中训练实体机器人，该技术能降低试错成本，避免出现危险，进一步提升受力、碰撞等模拟效果的精确性，还有助于尽早发现机器人研发中的潜在问题。

利用实时物理模拟技术，研究团队可在游戏中快速搭建不同拟真虚拟训练场景，将机器狗 Robotics X Max 的训练场搬到虚拟空间，参照现实中的运动数据，让机器狗在仿真的复杂地形中完成行走、奔跑、相互协作等训练，并通过引擎加速能力，大力缩减机器人在现实世界完成训练所需的过程与时间。

据项目技术团队介绍，原本在现实世界需要几年的时间收集的数据量，可以在加速后的虚拟环境下，缩短成几小时来生成。

在机器人智能控制领域，基于强化学习的机器人智能控制方法是一个非常有前景的技术方向。因为游戏技术的加入，这一通过反复控制机器人运动、设计合理的奖励，来指导机器人怎么学习稳定地完成指定任务，以达到强化学习的技术方法，也不再因为需要耗费大量训练时间和金钱成本而不可想象。技术团队可以让机器人模型在虚拟世界中从零开始训练学习，再把总结出来的控制算法应用到真实机器人上，使机器人研发更加高效和节省资源。

目前，项目技术团队已实现在虚拟环境中，单只机器狗经过引擎加速后效率提升20倍，且同时训练的机器狗数量越多，训练效果越好，当同时存在50只机器狗训练，训练效率能实现百倍提速。

未来，结合GPU加速技术，腾讯游戏技术团队将助力进一步提升虚拟环境中机器狗的训练效率。