👆关注的人,领先不止一步👆
本文转载自公众号「智东西」
美国造出乒乓“神秘之师”,秘训1.4万板对拉,现场疾速解题。当地时间8月10日,中国乒乓球队连续第五次获得奥运会女团冠军!至此,本届奥运会乒乓球比赛全部结束,中国队包揽5枚金牌。在巴黎奥运会乒乓球赛场上,国乒健儿用行动续写了属于国乒的荣耀与辉煌。
就在两天前的8月8日,谷歌DeepMind宣布其研发的乒乓球AI机器人击败人类选手,放出多个视频演示,并在29页技术报告里详细介绍了原理。
据称,这是首个在乒乓球运动中达到业余人类水平的Agent(智能体)。谷歌这是要打造乒乓球界的AlphaGo——“AlphaPingPong”吗?这打的不说是旗鼓相当,也能称得上有来有回。机器人不仅将扣杀、正反手切换等对应技巧轻松拿下,还能不时来个“调右压左”策略,打得对面措手不及。专业乒乓球教练Barney J. Reed也对它赞不绝口:“很惊讶机器人达到了中级水平,这甚至超出了我的预期!”在29场与人类选手的比拼中,机器人的平均胜率达到45%。其中,机器人在与初级选手的对战中取得100%的压倒性胜利,赢得了55%的中级选手,但输掉了所有与高级选手的比赛。赛后采访中,大多数参赛玩家称与机器人比赛有趣且具有挑战性。三局比赛没玩够,还想再来一局!谷歌的乒乓球AI机器人实力如何?让我们从演示视频和技术报告中来一探究竟。https://arxiv.org/pdf/2408.03906这款乒乓球机器人的硬件部分是一个6自由度的ABB 1100手臂,其安装在两个Festo线性龙门架上,能够在二维平面上移动。龙门架横向穿过桌子,长度为4米;纵向可朝向或远离桌子移动,长度为2米。机器手臂上安装了一个3D打印的球拍手柄,和一个带有短颗粒橡胶的球拍。要与人类比拼,机器人必须擅长低级技能,例如回球、扣杀;以及高级技能,例如制定战略和长期规划以实现目标。机器人首先在模拟环境中训练,该环境可以准确地模拟乒乓球比赛的物理特性。一旦部署到现实世界,它就会收集与人类对战的表现数据,从而在模拟中完善其技能,这样形成一个连续的反馈循环。该系统还设计了适应对手风格的能力,通过跟踪对手的行为和比赛风格来适应不同的对手,例如倾向于将球传回球桌的哪一边。这样,机器人就能尝试不同的技能,监控成功率,并即时调整策略。为了评估机器人Agent的技能水平,29名不同技能水平的乒乓球运动员与其进行了比赛。根据对乒乓球经验的问卷调查以及专业教练的评分,这些运动员被划分为初学者、中级、高级和超高级。其中,初学者和中级玩家几乎没有接受过教练的指导,也几乎没有参加过比赛。初学者通常经验不足一年,每月打球次数少于一次;而中级玩家通常已经打球超过一年,每周打球一次或多次。高级以上玩家都已经打球超过三年,并且接受过教练的指导。超高级的玩家打球时间更长,参加比赛次数更多。每个人类选手与机器人进行3局比赛,比赛遵循标准的11分赛制,但不遵循“三局两胜”的规则,而是无论输赢都比完3局。由于机器人无法发球,因此规则进行了一些修改,人类选手不能在发球时得分或失分。在29场比赛中,机器人赢了13场,胜率达到45%。其中,与初学者选手的对战机器人100%获胜,对战中级选手胜率55%。然而,由于硬件和技术限制,机器人还无法战胜高级运动员,往往一个快速球就把它打趴下了。包括反应速度、摄像头感应能力、旋转处理和桨叶橡胶等在内的影响因素,使其很难在模拟中准确建模。具体看得分情况,机器人对战低、中、高、超高级别的选手时,平均得分率分别为72%、50%、34%、34%,可以说是和中级选手“五五开”。虽然整场比赛全部输给高级选手,但具体到每一局,机器人还是赢了6-7%的战局。在面对初级、中级玩家时,机器人总是赢得第一局,胜率达到100%;然后在第二局,机器人对中级玩家的胜率下降到27%,又在第三局回升至36%。DeepMind经过赛后采访分析得知,人类玩家在第一局比赛中往往需要适应新环境;到了第二局他们可以识别出机器人的一些弱点,并有针对性地进攻;但到了第三局,机器人已经能够从对手的打法中学习,并提高了胜率。在赛后采访中,大多数玩家称与机器人比赛有趣,且具有挑战性。他们提到机器人具有动态性和刺激性,并且在游戏中提供了平衡高速性能和人类舒适度的机会。当被问到是否有兴趣再和机器人玩一次时,超过70%的玩家表示“非常乐意”。三场竞争性比赛结束后,玩家们还获得一个可选的自由玩耍环节,最长5分钟。玩家们平均与机器人又玩了4分零6秒。部分高级玩家发现了机器人策略中的弱点,例如它并不擅长下旋球,他们仍然对“人机对战”乐在其中。在赛后采访中,他们谈到它有潜力成为比发球手更有活力的练习伙伴。为了达到人类水平的乒乓球竞技表现,机器人需要具备高速度的运动能力、精确的控制和实时的决策能力;此外,乒乓球比赛动态复杂,涉及快速的眼手协调和高层次策略。为了解决这些问题,DeepMind提出了一种新方法,主要包括四个方面的技术贡献:分层和模块化的策略架构;零镜头模拟到真实的技术,包括定义基于现实世界的训练任务分布的迭代方法;对未知对手的实时适应;测试模型在物理环境中与人类进行实际比赛的用户研究。分层和模块化的策略架构整体框架如下。其中,智能体由一个LLC(低级技能库)和选择最有效技能的HLC(高级控制器)组成。LLC负责提供一套技能库,以供HLC在其策略中部署这些技能。LLC的训练分为三个步骤:首先,训练两个通用的基础策略,分别对应正手、反手两种主要打法;其次,通过添加奖励函数组件,在微调新策略之前调整训练数据组合;最后,评估新策略并判断策略是否展现出所需的特性。LLC中的每个低级技能策略都专注于乒乓球的特定方面,例如正手上旋球、反手瞄准或正手发球。除了训练策略本身,该方法还收集和存储了关于每个低级技能的优势、劣势和局限性的信息,由此产生的技能描述符为机器人提供了有关其能力和缺点的重要信息。HLC负责制定战略决策,例如回球的位置、击球的速度以及承担的风险程度。目前,HLC仅能执行简单的策略,是整个系统的初步概念验证。每次击球后,HLC会首先对当前的击球状态选择风格策略,以决定用哪个LLC回球。如果是发球,它会尝试将旋转分为上旋球和下旋球,并选择相应的LLC;否则,它必须通过在相应的LLC技能表中找到最相似的球状态,获得回球统计数据,从而确定哪种LLC表现最佳。生成候选LLC的短名单后,HLC通过加权选出最终的LLC。选定的LLC将以50Hz的频率与当前球状态进行对比查询,以确定机器人的行动。为了训练机器人,DeepMind收集了40分钟人类比赛数据,以及来自发球者的480次不同发球,作为乒乓球初始状态的种子数据集,包括位置、速度和旋转等信息。系统使用这个数据集进行练习并学习不同的技巧,如正手上旋球、反手瞄准和回球发球。初步数据集包含2600个初始球状态,另外独立收集了900个发球数据。通过在数据集上进行模拟训练,在现实世界中评估,并使用带注释的评估数据扩展数据集进行迭代循环,DeepMind最终在3个月里完成了7个周期的对拉(Rally)球数据集和2个周期的发球(Serve)数据集迭代,得到了1.4万个对拉球状态数据和3400个发球状态数据。谷歌DeepMind团队对乒乓球机器人的研究已经持续数年。例如在2020年,DeepMind曾提出一种无模型算法,能够通过以100Hz的频率控制机器人关节来回击乒乓球,在各种发球中实现了80%的回球率。2022年7月,谷歌发布机器人策略强化学习技术i-Sim2Real,通过深度强化学习实现高速、动态乒乓球,最长能让机器人与人类玩家互动超过4分钟不中断,击球340次。这个时候的机器人看起来还有点笨拙,只会左右移动正手接球。在去年9月的机器人乒乓球高速学习系统案例中,通过整合优化的感知子系统、高速低延迟机器人控制器等技术,谷歌团队已经实现在物理机器人上进行自主训练和评估。这时的机器人比起上一阶段已经灵活了许多。有的网友已经迫不及待想带回家了:“作为乒乓球业余爱好者,我很乐意在未来购买一台。”还有网友“隔空索敌”,呼唤特斯拉擎天柱:“你的对手来了!”也有一些质疑的声音出现。例如有网友认为它不够通用:“你能用自然语言问它为什么决定做某个动作吗?你能要求它加大打击力度或改变策略吗?如果你无法让机器人变得足够通用,那么为什么呢?最大的障碍是什么?”谷歌研究人员称,这个机器人乒乓球运动员的意义远不止乒乓球世界,其底层技术可以应用于从制造业到医疗保健的各种机器人任务,这些任务需要快速反应和适应不可预测的人类行为,潜在的应用范围很大。对于创建能够击败人类游戏玩家的AI模型,DeepMind并不陌生。从打败世界围棋冠军的AlphaGo,到全能棋类专家AlphaZero,DeepMind证明了AI在棋类游戏中的强大潜力。谷歌的这款乒乓球机器人虽然目前还未达到高级球员的水平,但在一步步的技术迭代中,未来很可能与国际顶尖选手们一较高下。实际上,AI、机器人等前沿技术已经在专业的赛事训练中落地。早在2020年,中国乒乓球学院就将AI发球机器人用在训练中,一个机器人可以同时负责三名球员,还会针对不同层次人群进行不同等级的训练。除了乒乓球,AI辅助训练也已经篮球、跳水、帆船、游泳等多个比赛项目的前期备战中得到使用,为运动员提供个性化、精准的训练指导。