斯坦福华人团队炒菜机器人爆火:成本仅3万美元,滑蛋虾仁、干贝烧鸡轻松做!谷歌家务机器人拿放物品越来越溜,解放双手的时代真的来了?
北美华人论坛请访问:huaren.us或者点击下方“阅读原文”可下载官网APP
机器人管家包办家务的日子离我们越来越近了。
最近,斯坦福大学一个华人团队花3个月时间研发的机器人Mobile ALOHA因其出色的烹饪技能而在网络上爆火。
很多网友表示,有这样的神器,谁不想带一个回家,把自己从家务中解放出来呢!
如今,这款机器人的更多细节已经公布了,不仅可以烹饪菜肴、清洁平底锅,还可以乘坐电梯……经过训练目前这款机器人的操作成功率已经达到80%。
炒菜自然就很拿手了,滑蛋虾仁、干贝烧鸡、蚝油生菜等等都不在话下。
以滑蛋虾仁这一道菜为例,机器人在烧水的同时能够巧妙地完成打蛋、焯虾、搅拌等步骤,呈现出了高超的烹饪技能:
虾仁焯水:
炒菜:
在制作干贝烧鸡时,机器人能够将去骨鸡腿肉煎至两面金黄,加入干贝等调料后进行焖煮,最后撒上一撮葱花,美味即成。
色香味俱全,看着很诱人。
除此之外,还能浇花、扫地、煮咖啡、擦桌子,甚至帮忙刮胡子。
帮忙浇花:
煮咖啡:
它不仅可以自主操作,还可以支持全身远程操控。
最令人惊讶是,这款器人的成本只有32000美元!
这32000美元还包括采购下图这些机械装备:
并且它的软件和硬件全部开源。
电脑也不是很离谱的配置:只需要一台消费级笔记本电脑就可以了,显卡为Nvidia 3070ti GPU (8gb VRAM),cpu是 Intel i7-12800H。
在具体的机器人设计中,它们综合考虑了四个关键的因素:
- 移动:系统的移动速度可与人类行走的速度相媲美,大约每秒1.42米。
- 稳定性:当操作重型家用物品,如锅和橱柜时,能够保持稳定。
- 全身远程操控:所有自由度都可以同时遥操作,包括手臂和移动底座。
- 不受束缚:机载电源和计算
研究人员通过协同训练的方法,让Mobile ALOHA仅通过20-50个演示就能学会各种复杂的任务。
尽管这款机器人在硬件和软件方面都取得了显著进展,但该团队也表示,Mobile ALOHA仍存在一些限制:例如系统占用面积较大,固定高度的双臂难以触及较低的橱柜、烤箱和洗碗机等。未来工作将致力于解决这些硬件限制,并探索如何从高度次优的、异构的数据集中进行模仿学习。
论文地址:https://mobile-aloha.github.io/resources/mobile-aloha.pdf
Github页面:https://mobile-aloha.github.io/
总的来说,Mobile ALOHA在实验中表现出了强大的模仿学习能力,这充分证明了机器人在各种应用场景中的巨大潜力,同时也证明了机器学习在机器人领域的应用价值,为机器人领域的发展提供了新的思路。
华人热评
jennyjin:这才是干事实的工程师!点赞点赞点赞。家务机器人真的上市了,给我来一打!
CK:这才是机器人真正有市场的方向。鬼需要他们去画画弹琴啊。
artdong:那个鸡蛋炒虾看着不行啊。而且机器人还不能休了它,各位三思啊哈哈。
lnghng:看样子,我们将来养老真得有着落了。
abcery:应该列十大问题,能解决,就攻克了:
1,我饿了,请做好饭,摆在我面前,并清洗盘碟厨房
2,我起不来床了,请扶我起来上厕所
3,我拉床上了,请清理我,换内衣,并清洗被褥和清洗一切不干净地方
4,我摔倒了,人事不省了,请查看我的情况,及时发送求救信息
5,我来不及了,请现在把我背下楼,开车送到医院急诊室。
樱桃花:完全智能才行。这个还需要人操作和做饭打下手,实用性大打折扣。
iloveGelato:这就对了,就应该多搞点这种帮人干家务活的机器人,发明一堆抢人类工作的机器人有啥用。
筋斗云在飞:别说养老,这对我那个不爱收拾家的娃也是福音啊哈哈。
与此同时,谷歌DeepMind也不甘落后。
最近官宣的一系列进展,实用性也很强。
捡水果、拿可乐、摆牙刷……比起炒菜机器人一点不差。
先是一个主打提高决策速度的新模型,让机器人的操作速度(相比原来的Robotics Transformer)提高了14%——快的同时,质量也没有下滑,准确度还上升了10.6%。
然后再来一个专攻泛化能力的新框架,可以给机器人创建运动轨迹提示,让它面对41项从未见过的任务,取得了63%的成功率。
别小看这个数组,对比之前的29%,进步可谓相当大。
最后是一个机器人数据收集系统,可以一次管理20个机器人,目前已从它们的活动中收集了77000次实验数据,它们将帮助谷歌更好地完成后续训练工作。
最后,为了帮助机器人更好地理解人类下达的任务,谷歌还从数据下手,直接搞了一个收集系统:AutoRT。
这个系统将大模型(包括LLM和VLM)与机器人控制模型(RT)相结合,不断地指挥机器人去执行现实世界中的各种任务,从而产生数据并收集。
具体流程如下:
让机器人“自由”接触环境,靠近目标。
然后通过摄像头以及VLM模型来描述眼前的场景,包括具体有哪些物品。
接着,LLM就通过这些信息来生成几项不同的任务。
注意了,生成以后机器人并不马上执行,而是利用LLM再过滤一下哪些任务可以独立搞定,哪些需要人类远程控制,以及哪些压根不能完成。
像不能完成的就是“打开薯片袋”这种,因为这需要两只机械臂(默认只有1只)。
再然后,做完这个筛选任务以后,机器人就可以去实际执行了。
最后由AutoRT系统完成数据收集并进行多样性评估。
此外,谷歌还特别强调了安全性。其中就包括机器人不得伤害人类,不得尝试涉及人类、动物、尖锐物体或电器的任务等等。
未来,科学家们正在考虑将这些进展与 DeepMind 开发的自我改进模型 RoboCat 的见解相结合,希望探索出新的研究方向。RoboCat 能够学会在不同机械臂上执行各种任务,然后自动设计出新的训练数据以提高自身性能。
加州大学伯克利分校副教授、论文联合作者塞格·李维恩( Sergey Levine) 总结道,“我们相信,这些工具将改变机器人的训练方式,并加速该领域的研究进展。我们希望开源相关数据,并提供安全但受限的模型以减少障碍、加速研究。机器人技术的未来离不开机器人之间的相互学习,而这一切的前提,首先要求研究人员之间能够相互学习。”
2024年,机器人技术领域备受瞩目。许多专家预测,这一年度将成为机器人技术的元年,机器人将成为研究的重要领域。
机器人也更多的融入到了生活和商业情景。
比如,全球首家由机器人和人工智能处理订单和食物的餐厅已经在南加州开业,这家名为“CaliExpress by Flippy”的餐厅将由机器人厨师掌勺,颠覆传统餐饮模式。
来到餐厅的客人下单后,可以观看机器人从头到尾准备饭菜,顾客还可以对订单进行定制。
店里是Miso Robotics 研发的全球首款人工智能煎炸机器人Flippy,专攻汉堡、芝士汉堡和薯条烹饪,也为消费者带来了更加新奇的体验。
像这样能帮助人类干活的机器人,相信工业化之后会有大幅的成本降低。几年内可能会看到更多机器人参与家庭、商业活动的场景。
当然,机器人技术的发展也需要进一步探索和解决一系列相关问题,以实现机器人与人类和谐共处的目标。
本文由北美华人小编整理自北美华人e网、谷歌新闻、华尔街见闻、新智元、量子位等。版权归原作者所有,未经许可不得转载,否则将进行追究,图片来自网络。版权归原作者所有。如有侵权,请联系小编删除文章。
点击下方阅读原文即可下载北美华人e网论坛官网APP,仅限IOS用户。
微信扫码关注该文公众号作者