Redian新闻
>
耗时两年,谷歌用强化学习打造23个机器人帮助垃圾分类

耗时两年,谷歌用强化学习打造23个机器人帮助垃圾分类

公众号新闻

选自谷歌博客

机器之心编译

编辑:王强

以后垃圾分类这个活,可以交给机器人了。


强化学习(RL)可以让机器人通过反复试错进行交互,进而学会复杂行为,并随着时间的推移变得越来越好。之前谷歌的一些工作探索了 RL 如何使机器人掌握复杂的技能,例如抓取、多任务学习,甚至是打乒乓球。虽然机器人强化学习已经取得了长足进步,但我们仍然没有在日常环境中看到有强化学习加持的机器人。因为现实世界是复杂多样的,并且随着时间的推移不断变化,这为机器人系统带来巨大挑战。然而,强化学习应该是应对这些挑战的优秀工具:通过不断练习、不断进步和在工作中学习,机器人应该能够适应不断变化的世界。
在谷歌的论文《 Deep RL at Scale: Sorting Waste in Office Buildings with a Fleet of Mobile Manipulators 》中,研究人员探讨了如何通过最新的大规模实验解决这个问题,他们在两年内部署了一支由 23 个支持 RL 的机器人组成的群组,用于在谷歌办公楼中进行垃圾分类和回收。使用的机器人系统将来自真实世界数据的可扩展深度强化学习与来自模拟训练的引导和辅助对象感知输入相结合,以提高泛化能力,同时保留端到端训练优势,通过对 240 个垃圾站进行 4800 次评估试验来验证。
论文地址:https://rl-at-scale.github.io/assets/rl_at_scale.pdf
问题设置
如果人们没有正确分类垃圾,成批的可回收物品可能会受到污染,堆肥可能会被不当丢弃到垃圾填埋场。在谷歌的实验中,机器人在办公楼周围漫游,寻找 “垃圾站”(可回收垃圾箱、堆肥垃圾箱和其它垃圾箱)。机器人的任务是到达每个垃圾站进行垃圾分类,在不同垃圾箱之间运输物品,以便将所有可回收物品(罐头、瓶子)放入可回收垃圾箱,将所有可堆肥物品(纸板容器、纸杯)放入堆肥垃圾箱,其他所有东西都放在其它垃圾箱里。就如下面视频展示的:
其实这项任务并不像看起来那么容易。仅仅是捡起人们扔进垃圾箱的不同物品的子任务,就已经是一个巨大的挑战。机器人还必须为每个物体识别合适的垃圾箱,并尽可能快速有效地对它们进行分类。在现实世界中,机器人会遇到各种独特的情况,比如以下真实办公楼的例子:
从不同的经验中学习
在工作中不断学习是有帮助的,但在达到这一点之前,需要用一套基本的技能来引导机器人。为此,谷歌使用了四种经验来源:(1)简单的手工设计策略,成功率很低,但有助于提供初步经验;(2)模拟训练框架,使用模拟 - 真实的迁移来提供一些初步的垃圾分类策略;(3)“robot classrooms”,机器人使用有代表性的垃圾站不断练习(4)真实的部署环境,机器人在有真实垃圾的办公楼里练习。


强化学习在该大规模应用中的示意图。使用脚本生成的数据引导策略的启动(左上图)。然后训练一个从仿真到实际的模型,在仿真环境中生成额外的数据(右上图)。在每个部署周期中,添加在 “robot classrooms” 中收集的数据(右下图)。在办公楼中部署和收集数据(左下图)。
这里使用的强化学习框架基于 QT-Opt,实验室环境下的不同垃圾的抓取以及一系列其他技能也是使用该框架。在仿真环境中从简单的脚本策略开始引导,应用强化学习,并使用基于 CycleGAN 的迁移方法,利用 RetinaGAN 使仿真图像看起来更加逼真。
到此就开始进入 “robot classrooms”。虽然实际的办公楼可以提供最真实的体验,但数据收集的吞吐量是有限的 —— 有些时间会有很多垃圾需要分类,有些时间则不会有那么多。机器人在 “robot classrooms” 中积累了大部分的经验。在下面展示的 “robot classrooms” 里,有 20 个机器人练习垃圾分类任务:
当这些机器人在 “robot classrooms” 接受训练时,其它机器人正在 3 座办公楼中的 30 个垃圾站上同时学习。
分类性能
最终,研究人员从 “robot classrooms” 收集了 54 万个试验数据,在实际部署环境收集了 32.5 万个试验数据。随着数据的不断增加,整个系统的性能得到了改善。研究者在 “robot classrooms” 中对最终系统进行了评估,以便进行受控比较,根据机器人在实际部署中看到的情况设置了场景。最终系统的平均准确率约为 84%,随着数据的增加,性能稳步提高。在现实世界中,研究人员记录了 2021 年至 2022 年实际部署的统计数据,发现系统可以按重量将垃圾桶中的污染物减少 40%至 50%。谷歌研究人员在论文提供了有关技术设计、各种设计决策的削弱研究以及实验的更详细统计数据的更深入见解。
结论和未来工作展望
实验结果表明,基于强化学习的系统可以使机器人在真实办公环境中处理实际任务。离线和在线数据的结合使得机器人能够适应真实世界中广泛变化的情况。同时,在更加受控的 “课堂” 环境中学习,包括在仿真环境和实际环境中,可以提供强大的启动机制,使得强化学习的 “飞轮” 开始转动,从而实现适应性。
虽然已经取得了重要成果,但还有很多工作需要完成:最终的强化学习策略并不总是成功的,需要更强大的模型来改善其性能,并将其扩展到更广泛的任务范围。除此之外,其它经验来源,包括来自其它任务、其它机器人,甚至是互联网视频,也可能会进一步补充从仿真和” 课堂 “中获得的启动经验。这些都是未来需要解决的问题。
原文链接:https://ai.googleblog.com/2023/04/robotic-deep-rl-at-scale-sorting-waste.html

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
我想出个解决办法一个机器人餐厅项目惨败谷歌复用30年前经典算法,CV引入强化学习,网友:视觉RLHF要来了?思翁记梦ICLR 2023 | PromptPG:当强化学习遇见大规模语言模型谷歌用机器人大规模删除代码:二十多年积累了数十亿行,已删除5%C++代码5620亿参数,最大多模态模型控制机器人,谷歌把具身智能玩出新高度【2023CMEF】大零号湾骨科手术机器人专题高峰论坛:行业大咖齐聚,共话骨科手术机器人未来老外分享申请中国游戏版号经历,耗时两年如中大奖谷歌新作:计算机视觉遇见强化学习,复用30年前经典算法!超参数科技招聘:强化学习研究员、深度学习工程师、后台开发工程师等谷歌用ChatGPT训练AI?新的版权风暴来了!验证码拦不住机器人了!谷歌AI已能精准识别模糊文字,GPT-4则装瞎求人帮忙懒人福音!谷歌让机器训练机器,用大语言模型定制专属于你的家务机器人加州| 逐步推行新垃圾分类法, 有机物需分离!这个城市4月1日开始施行~ICLR 2023|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架《终结者2》成真了?这个机器人可以液化“越狱”……【最新】落实精细化管理、打造“五个一批”示范亮点……2023年垃圾分类将采取这些措施→看电影《风中有朵雨做的云》曾经的垃圾分类为何没有坚持?也说卡特总统汗毛直立!澳洲奶奶离奇失踪!当局手动清查3000吨垃圾找尸体!死因竟和她爱分类垃圾有关?!视觉RLHF要来了?谷歌复用30年前经典算法,CV引入强化学习习近平回信勉励上海市虹口区嘉兴路街道垃圾分类志愿者ICLR 2023 | 如何融合进化算法与强化学习打破性能瓶颈?WWW 2023|快手:通过强化学习提升用户留存南洋理工发布量化交易大师TradeMaster,涵盖15种强化学习算法迎战 ChatGPT,谷歌聊天机器人 Bard 正式开放测试谷歌用ChatGPT训练AI,新时代的版权风暴更复杂了!AI设计蛋白质新方法登Science!利用强化学习,直接根据预想优化结构最新出炉!ICLR 2023强化学习领域18篇论文盘点Dr Sun 2023 暑假基础物理化学 AP 物理化学 奥林匹克化学科技裁员大潮中,谷歌连食堂机器人都没放过...我的凡人时尚:观展随拍谷歌用MEMS开关,推动数据中心革命!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。