Redian新闻
>
攀爬、跳跃、过窄缝,开源强化学习策略让机器狗能跑酷了

攀爬、跳跃、过窄缝,开源强化学习策略让机器狗能跑酷了

公众号新闻

机器之心报道

编辑:小舟

主打一个迅速。
跑酷是一项极限运动,对机器人特别是四足机器狗来说,更是一项巨大的挑战,需要在复杂的环境中快速克服各种障碍。一些研究尝试使用参考动物数据或复杂的奖励,但这些方法生成的「跑酷」技能要么多样但盲目,要么基于视觉但特定于场景。然而,自主跑酷需要机器人学习基于视觉且多样化的通用技能,以感知各种场景并迅速做出反应。

最近,一个机器狗跑酷的视频火了,视频中的机器狗在多种场景中迅速克服了各种障碍。例如,从铁板下方的缝隙穿过,爬上木箱,再跳到另一个木箱上,一连串动作行云流水:



这串动作说明机器狗掌握了贴地爬行、攀爬和跳跃三个基本技能:




它还有个技能:倾斜挤过窄缝:


如果机器狗未能克服障碍,它会多试几次:



该机器狗是基于一种为低成本机器人研发的「跑酷」技能学习框架。这个框架是由来自上海期智研究院、斯坦福大学、上海科技大学、CMU 和清华大学的研究者联合提出的,研究论文已经入选 CoRL 2023(Oral)。研究项目已开源。


论文地址:https://arxiv.org/abs/2309.05665
项目地址:https://github.com/ZiwenZhuang/parkour

方法简介

该研究推出了一种新的开源系统,用于学习基于视觉的端到端跑酷策略,以使用简单的奖励来学习多种跑酷技能,而无需任何参考运动数据。

具体来说,该研究提出了一种强化学习方法,旨在让机器人掌握攀爬高障碍、跳过大间隙、在低障碍下爬行、挤过狭小缝隙和跑步,并将这些技能蒸馏成基于单一视觉的跑酷策略,并以自我为中心的(egocentric)深度相机将其迁移到四足机器人上。

为了成功在低成本机器人上部署,该研究提出的跑酷策略仅使用机载计算(Nvidia Jetson)、机载深度摄像头(Intel Realsense)和机载电源来部署,不使用动作捕捉、激光雷达、多个深度摄像头和大量计算。

为了训练跑酷策略,该研究共进行了如下三个阶段的工作:

第一阶段:具有 soft 动态约束(dynamics constraint)的强化学习预训练。该研究使用自动课程让机器人学习穿越障碍物,鼓励机器人逐渐学会克服障碍。


第二阶段:具有 hard 动态约束的强化学习微调。该研究在这个阶段强制执行所有动态约束,并用现实动态(realistic dynamics)微调机器人在预训练阶段学到的行为。



第三阶段:蒸馏。在学习了每个单独的跑酷技能后,该研究使用 DAgger 将它们蒸馏成一个基于视觉的跑酷策略(由 RNN 参数化),该策略可以仅使用机载感知和计算部署到腿式机器人上。


实验及结果

在训练中,该研究为每种技能设置了相应的障碍物尺寸,如下表 1 所示:


该研究进行了大量的模拟和现实实验,结果表明,跑酷策略使低成本四足机器人能够自主选择和执行适当的跑酷技能,仅使用机载计算、机载视觉传感和机载电源即可穿越开放世界中具有挑战性的环境,包括爬高 0.40m(1.53x 机器人高度)的障碍物,跳过 0.60m(1.5x 机器人长度)的大间隙,在 0.2m(0.76x 机器人高度)的低障碍物下爬行,通过倾斜挤过 0.28m 的细缝(小于机器人宽度),并且可以一直跑步前行。



此外,该研究还将所提方法和几种基线方法进行了比较,并在模拟环境中进行了消融实验,结果如下表 2 所示:


感兴趣的读者可以阅读论文原文,了解更多研究内容。

参考链接:https://twitter.com/zipengfu/status/1701316023612219445

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
宝宝多大不会爬、不会走算晚?2 岁前发育里程碑进群领取NeurIPS 2023 | 扩散模型解决多任务强化学习问题AIGC日报丨Meta向创作者支付数百万美元打造AI聊天机器人;强化学习之父萨顿加入传奇程序员卡马克AI创企迪士尼玩起强化学习,新机器人有星球大战那味了强化学习之父入局AGI创业!联手传奇程序员卡马克,放话不依赖大模型北京内推 | 微软亚洲研究院数据知识智能组招聘强化学习方向研究实习生小鹏人形机器人首秀,明年或现身门店卖车;波士顿动力使用ChatGPT训练出导游机器狗;联想AI PC明年9月上市丨AI周报Anthropic创始人访谈:Scaling与强化学习,可解释性与AGI安全刺激,无人机竞速超越顶级人类玩家,强化学习再登Nature封面旧文明的社会组织(第三章摘要)小鹏想让机器人陪你打掼蛋从观察、思考到行动,深度强化学习大牛Pieter Abbeel谈如何驯服机器人直击稀缺高薪岗位!大模型AIGC与强化学习秋季研修班现在开启跑步者眼中的夕阳 (The Sunset in A Runner’s Eyes)最近一段时间我惨遭歧视!Transformer+强化学习,DeepMind让大模型成为机器人感知世界的大脑曝光!姚期智带领团队突破大模型“思维”框架,让机器思考更接近人类...设计师的世纪挑战:让机器赢得人心让机器人也有“触觉”,这个“冠军”计划3年内上市狂揽4k star,AI通过强化学习玩宝可梦,两万场后成功拿下Pride 里的男性自卑和自尊肇观电子冯歆鹏:五大技术让机器人看懂世界,AI视觉芯片实现颠覆式创新丨GACS 2023重磅课程再次升级,一次性搞定大模型多模态AIGC与强化学习 --《2023秋季AIGC大模型与强化学习前沿技术实战》 招生简章脑科学和学习策略专家:如何科学有效地和孩子谈成绩?MABIM:多智能体强化学习算法的“炼丹炉”Transformer+强化学习,谷歌DeepMind让大模型成为机器人感知世界的大脑语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路承载22倍于自身重量前行,垂直跳跃59厘米,用爆炸驱动的昆虫机器人来了人类首个沙雕视频数据集!FunQA:让机器成为喜剧之王三大关键词看2023安博会!安防巨头大模型混战,机器人机器狗看花眼《一念如初》&《牵手爱》波士顿动力机器狗能开口聊天了!ChatGPT加持,对话机智妙语连珠仅用7500条轨迹数据训练,CMU、Meta就让机器人「上得厅堂、下得厨房」北大具身智能团队提出需求驱动导航,对齐人类需求,让机器人更高效CMU机器狗,倒立下楼!发布即开源
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。