马斯克机器人大进化！全新技能解锁，启用端到端神经网络

公众号新闻

2023-09-25 04:09

梦晨发自凹非寺
量子位 | 公众号 QbitAI

马斯克的机器人大进化。

一年前首次上台时动作还略显僵硬，现在居然成了瑜伽大师。

还用上了自动驾驶系统同款的端到端神经网络架构，无需任何规则代码就学会分拣物品。

用马斯克自己的话说：

光子进，行为出。

网友表示：动作如此优雅流畅，很难相信视频是真的。

马斯克回复：执行器、传感器和整体机械结构更多升级还在后面。

有人注意到机器人脖子后面有个红色按钮，“如果机器人要统治世界了，别忘了按这个”。

对此，马斯克表示会致力于最大限度地提高安全性，用遥控器或手机就能轻松暂停机器人。

马斯克发这个视频，除了公布进展，更大的目的在于为机器人团队招聘，也展示了𝕏平台的招聘功能。

这次特斯拉机器人团队招聘各类硬件工程师及机器学习工程师、实习生，总计51个职位。

年薪范围在8万美元到36万美元（约人民币60万元-260万元）。

动图拆解

这次特斯拉擎天柱官方号只放出1分钟视频，没有更多技术细节资料。

但特斯拉机器人团队资深主任工程师Julian Ibarz透露，现在擎天柱已经能完成长期任务。

并且只要收集更多数据，就可以训练新的复杂任务，无需更改任何代码。

第三方观点中，最详细的是英伟达科学家范麟熙纯基于视频的长篇逆向分析。

他推测：

流畅的手部动作几乎肯定是通过模仿人类（行为克隆）训练出来的。

另一种选择是模拟环境中的强化学习，但通常会导致抖动和不自然的手部姿势。

至少有4种方法可以收集人类演示数据，其中最有可能的是远程控制。

可以参考斯坦福开源的ALOHA系统，可以控制机械臂把AirPods放到充电盒里。

另外三种方法是电影游戏常用的动作捕捉、深度摄像头和计算机视觉、VR模拟。

四种方法并不相互排斥，可以结合使用兼顾不同的优缺点。

神经网络架构，很可能是多模态Transformer。

图像、视频、动作、语言（不确定有没有）统一表征，其中动作部分需要将连续的信号转为离散的token，

最终每次输入一个视频token（或可选的语言token），输出动作token。

最接近的系统可以参考Google RT-1以及英伟达的VIMA。

波士顿动力的Atlas机器人只有简单的抓手，而特斯拉擎天柱有5根灵巧的手指，将来在日常任务中表现会更加出色。

不过也有人批评视频其实有约2-3倍的加速，只有机器人的时候看不出来，人类一出镜就比较明显了。

端到端架构：机器人的ChatGPT

端到端神经网络架构，特斯拉首先在自动驾驶FSD上实现——

前不久马斯克自己直播演示了一把自动驾驶去小扎家，引发轰动。

具体说来，端到端架构用在自动驾驶系统上，可以减少30万行规则代码，让运行速度快了10倍。

负责该项目的工程师Dhaval Shroff曾对马斯克说：这相当于车上用的ChatGPT。

Shroff这次对机器人的评价是“端到端，FTW”。也不知道FTW是指“For the win”还是“F* the world”。

就在刚刚，还有一段特斯拉汽车无导航情况下在湖边自动驾驶的视频传出，不过不确定是否运行了最新端到端架构的FSDv12。

One More Thing

这个周末，旧金山街头也出现赛博皮卡的身影。

预计在9月底，特斯拉将召开一年一度的AI Day活动，我们也会持续关注。

不知道这次又将带来哪些惊喜。

参考链接：
[1]https://x.com/Tesla_Optimus/status/1705728820693668189
[2]https://x.com/DrJimFan/status/1705982525825503282
[3]https://x.com/AviSchiffmann/status/1705743064336384506

— 完 —

「量子位2023人工智能年度评选」开始啦！

今年，量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项！欢迎扫码报名

最具影响力的年度智能商业峰会MEET 2024智能未来大会已启动！点此了解详情。

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

马斯克机器人大进化！全新技能解锁，启用端到端神经网络

梦晨 发自 凹非寺量子位 | 公众号 QbitAI

动图拆解

端到端架构：机器人的ChatGPT

One More Thing

梦晨发自凹非寺
量子位 | 公众号 QbitAI