Redian新闻
>
今年,是人形机器人的“iPhone时刻”吗?

今年,是人形机器人的“iPhone时刻”吗?

公众号新闻



作者:经纬创投主页君

来源:经纬创投(ID:matrixpartnerschina

最近,人形机器人变得非常火热。2023世界机器人大会近日在北京开幕,人潮涌动。同时,宇树科技、智元机器人等创业公司,相继发布了自己的人形机器人,当这些站立行走,能跑能跳的机器人真真切切地出现在人们面前时,把人们的期待推向了最高潮。

智元机器人的首款产品:远征A1。图片来源:智元

宇树科技的首款人形机器人产品:H1。视频来源:宇树
机器人一直是说起来容易,很科幻,但做起来非常难。哪怕是在不少工厂的流水线里,机器人还是很难适应很多复杂场景。不过自去年底,特斯拉发布了人形机器人Optimus(擎天柱)以来,人形机器人赛道就在逐渐升温。

特斯拉的人形机器人“Optimus”(擎天柱)
视频来源:特斯拉YouTube频道
那么,为什么人形机器人火了?现在到技术爆发的临界点了吗?相比于工业机器人(是一个比较成熟的赛道,更像传统机械设备),这一波大家对机器人的想象,与工业机器人有什么底层不同?
首先,我们总结先说结论,人形机器人赛道之所以变热,核心是智能泛化能力大幅加强,让通用机器人成为可能。以前机器人行业之所以迭代得很慢,是因为每学一套新动作,就需要重新编程一次,只是“机械的自动化”。而现在有了智能泛化能力的突破,甚至只需要语音控制,机器人就能实现新功能,这是从自动化到智能化的底层转变,机器人的通用性被大大增强。

英国机器人公司Engineered Arts的人形机器人Ameca,在接入Stable Diffusion之后,可以完成一些简笔画,比如画一只猫。图片来源:Engineered Arts
基于这个认知,我们还可以延展出很多新问题:
  • 当机器人触达技术爆发临界点,更智能的机器人能用在哪里?
  • 机器人是否要做成“人形”?
  • 训练数据是瓶颈,数据还能从哪里来?

今天这篇文章,我们就来探讨以上这些问题,不过人形机器人是一个高速发展中的新赛道,很多问题还没有准确答案,对于一些有争议的部分,欢迎在评论区聊聊,Enjoy:

人形机器人是一个大赛道,能带动众多细分赛道
以特斯拉机器人Optimus代表的人形机器人硬件全景图。图片来源:中信证券

01

当机器人触达技术
爆发临界点,更智能的机器人能用在哪里?
曾经,机器人是一个迭代速度不算太快的领域,现在的汽车工厂里已有很多工业机器人,并且有着几十年的应用历史,但基本都是非通用智能机器人。
其中的瓶颈在于,像工业机器人这样的非通用智能机器人(往往只是一个机械臂),是在特定场景里做特定任务,各种动作和反应的算法都是写定的,一旦遇到新的情况或环境,如果没有预先写好算法,就会立即变成“智障”。
如今有可能出现真正的通用机器人,这也极大扩展了机器人潜在的应用场景。以往工业机器人只能在流水线的单点上,比如拧好某个螺丝,或是组装好某个部件,但如今有了通用机器人之后,只需要让机器人学会安装逻辑和评估标准就可以了,并且它不仅可以拧好螺丝,当螺丝用完了还可以自己从仓库里取来,或是给机器人装上灵巧手,它就可以使用一些工具,来处理螺丝之外更复杂的事情。
此外,结合LLM我们还可以实现语音控制,只需要说出“请给我拿杯水”,先把语音转换成代码,再把代码转换成机器人的动作。这不是影视剧里很遥远的事情,而是正在发生的。今年谷歌发布了Robotics Transformer-2(RT-2),微软发布了“ ChatGPT for Robotics ”论文,给整个机器人行业带来了轰动。
今年的这些新进展,与以前“每做一套新动作,就需要重新编程一次”的机器人,有着天壤之别。未来无论是在工厂车间,还是商场、家庭,都很有可能出现一个通用机器人,它能适应不同的环节,不需要重新编程就能在不同任务之间切换自如。

目前,对于大多数通用机器人创业公司来说,第一目标还不是ToC,而是ToB,比如工业或是商业场景。先在B端场景中打磨好能力,再最终应用到C端,是不少机器人公司的计划。

很多公司都把汽车生产作为首要场景。汽车工厂规模很大,较早实现自动化,其中很多环节已经形成流水线用工业机器人替代,但仍有不少环节需要人工操作。比如在汽车工厂的总装车间,仍然需要大量人力,人形机器人可以替代这些环节,并非替代已经通过工业机器人实现自动化的环节。

智元的人形机器人应用在汽车工厂
如果按照马斯克的计划,特斯拉的第一批机器人主要在B端应用,替代那些危险、无聊、重复的工作,或是人们不想做的工作。第二批大规模使用的机器人,会拥有在现实世界中的导航能力,也是复用特斯拉电动车的视觉导航技术,无需特定指令也能做有用的事;第三批则是10年左右,人们可以在家里使用机器人。
除了汽车工厂,还有3C的组装、检测等环节;以及在商业场景中,比如零售业的货架管理、清洁等,也仍有需要大量人工的场景。随着社会老龄化及人力成本的攀升,将有不小的劳动力缺口需要填补。
当然,有些场景也并非一定需要人形机器人,而是根据需求来选择。比如宇树科技创始人兼CEO王兴兴曾说,四足机器人与双足机器人相比,具备更高的载荷能力和极强的平衡能力,也更易于控制、设计和维护,在工业端和消费端等都有广泛的应用场景,尤其能在一些危险场景代替人类进行作业。

宇树科技的机器狗可用于消防。图片来源:宇树科技

鸿海、软银投资的日本机器人初创公司Telexistence,可作为商超货架的补货机器人。
不过,今天的通用机器人,离真正商业化落地还有诸多障碍。最明显的就是成功率、执行速度和精度都还不太够。比如谷歌的RT-2比起RT-1,执行成功率提高到了80%,但在实机演示中,还是错误地识别了一罐柠檬味苏打水,说成了“橘子味”;以及被问到桌子上有什么水果时,机器人回答成“白色”,但实际是香蕉。谷歌解释说,因为WiFi临时中断,机器人使用了缓存的答案来回答。虽然80%的准确率在一些场景够用,但在另一些需要精度的场景仍然不够,比如一些精密仪器的操作等等。
当然,我们说了这么多具身智能、通用机器人,也并不是说原来的工业机器人领域就没有机会了,只是逻辑不同。在传统机械设备领域,仍有大量机器人零部件创新,和国产替代的机会。比如工业机器人的核心零部件减速器,就长期被日本和德国公司垄断;工业机器人整体的国产化率也仅有35%,特别是在大六轴、汽车3C、焊接等工业机器人细分赛道,国产化率都是偏低的,结合智能化仍然有成长空间与创新潜力。

02

机器人是否要做成“人形”?
在无数科幻影视作品中,人形机器人一直才是人们对机器人的终极想象,比起工业机器人,人形机器人是一种更高维的存在。但由于实现难度太大,一直不是机器人行业的主要形态,直到最近1年特斯拉的人形机器人发布,才成为市场焦点。
市场也存在很多质疑声:到底我们需不需要人形机器人?既然难度这么大,到底需要多少年才能在现实生活中落地?是否应该先从机械狗、多轮底盘+机械臂等形态入手,而不是一上来就做人形?
当然这个问题还没有答案,我们看到谷歌搭载RT-2的机器人,就是四个轮子作为底盘+一个机械臂,已经能实现很多功能,比如捡起小东西、开窗户或是垃圾筛选。这种单臂、轮式服务机器人不需要灵巧手(利用空心杯电机实现的仿人手设计)、不需要仿人腿的运动控制系统,也能实现很多家庭、工厂场景的功能。当然它也会有限制,比如不能上下楼梯。
Google的机器人就是轮式底盘+单臂+摄像头的形态
图片来源:Google Deepmind
当然,我们的观点是人形肯定是终极形态,因为我们相信最终机器人是会进入千家万户的。但根据不同场景需求,其他形态的机器人也会共存,比如不一定是双足双臂,更早到来的可能是轮式单臂。
人形的好处是:首先是应用范围。如果用终局思维来思考,人形机器人的应用范围肯定是最广的,因为人形才是最适合社会中所有场景的形态,我们所有的建筑、工具等等,都是基于人类的身形而设计的,所以无需改变场景来适应机器人,就能直接使用人类社会中所有工具。这也符合马斯克所提出的愿景,他希望今后人类不想干的事全都可以交给机器人来干,甚至发掘出目前我们还预料不到的用途。
比如最典型的,就是人类的腿和手,在仿生步态下,机器人的运动能力比传统履带、四轮、双轮机器人都有大幅提升,机器人可以上下楼,可以跳跃过障碍物等等。对于手来说,基于空心杯电机的灵巧手,可以实现双手配合和工具替换,这比起传统的工业机器人,能用更广泛的人类工具,技能更广。

特斯拉使用空心杯电机设计的灵巧手
图片来源:东吴证券
其次如果考虑交互,“人形”才能传递出的肢体语言、面部表情等等信息。比如在梅拉宾法则中,心理学家就在强调肢体语言的作用。肢体语言也最符合人类的认知,人类无需重新学习任何新东西,就能轻松理解机器人的动作。在结合大语言模型之后,能够更好的与人类交互。
例如英国Engineered Arts 公司的人形机器人Ameca,输入了大量真人表情数据,通过立体3D打印机制作出精确的模具,实现了生动的面部表情和肢体语言。
英国机器人公司Engineered Arts的人形机器人Ameca,能够在橡胶皮肤上表现出超过 62 种面部表情,这是Ameca著名的“苏醒时刻”。
我们都知道人形有这么多好处,但对人形机器人最大的制约,还是软硬件技术的高难度,小到每一个关节的设计,再到运动控制、对环境的感知等等,每一个环节都存在技术难题,综合在一起更是对系统的集成度、鲁棒性要求很高。
比如运动控制的标杆波士顿动力,已经成立了31年,历经被谷歌收购、被软银收购、被韩国现代集团收购,一直都在不断投入,虽然实现了“跑酷”等炫酷的功能,但背后是不计成本的投入、功耗极高、噪音很大,离量产落地还差很远。

波士顿动力的机器人跑酷演示
视频来源:波士顿动力YouTube频道
不过,如果一家公司把最终目标定位成人形机器人,不代表它的产品只有一款人形机器人。在高难度的技术研发中,无论是移动、抓取还是视觉感知等等,都可以在这个过程中迭代出新的产品,而最终把各项技术组合在一起,简单来说就是:人形机器人是最难的机器人形态,谁能做好人形,谁就也能做好其他形态的机器人。
总之,机器人的通用性和智能化是接下来的重点,但不一定非要是人形,当下还需要看场景需求。

03

训练数据是瓶颈数据还能从哪里来?
能否获得高质量且足够便宜的数据,是当下制约智能机器人发展的瓶颈,也是拉开公司之间竞争的重要手段。
前车之鉴是Everday Robots,它曾是谷歌的明星独立项目,但在今年2月被谷歌因成本控制而解散,并入谷歌其他部门。造成Everday Robots成本高昂的一个重要原因,就是数据采集成本过于昂贵。OpenAI曾经也有一个机器人部门,但后来放弃了,问题也出在数据收集上。
为什么采集成本这么高?主要是因为Everday Robots基于真实环境来收集数据。谷歌为了训练PaLM-E,用了13台机器人,收集了17个月,才拿到足够的数据量,如果是在更复杂的工业场景,数据采集成本会更高。
目前对于人形机器人来说,主流的数据获取手段有四种:
遥操作数据:这是目前最主流的方式,特斯拉等很多机器人公司都在使用。这种方式基于人工遥操作,先学习和分解人是怎么做到的,然后对应机器人要怎么做到。由于是真实世界的数据,所以数据质量最高,但数据采集成本也是最高的。

机器人的遥操作
模拟器数据:由于遥操作成本过高,更低成本的基于模拟器,来生产仿真数据也有越来越多人使用。一方面通过合成仿真数据可以大幅扩展数据集,此外仿真场景还可以去补充日常现实中比较少出现的任务。在一些任务中,比如导航或是抓取物品等,仿真表现不错,但在另一些对真实物理数据要求比较高的场景,比如在流体中的运动、或是物体破裂等等,还比较难在仿真里做到。但模拟器不是万能的,如何构建丰富的3D内容、如何设置合适的奖励机制等,也是这种方式所面临的问题,当然还有算力成本。
视频数据:鉴于线上视频网站中,有大量第一人称视角的视频,这些视频完全可以让机器人或者AI来学习,这些都是很好的人类真实活动的视频,通过这些图像来训练机器人的行为决策,可以快速且低成本的实现数据积累和泛化能力。目前学界和谷歌等大厂,都在尝试这种方式来加快训练。

模仿学习:这种方式还在研究中,就是让人直接在机器人面前演示一遍,机器人就学会了。比如在家庭场景中的一些动作,扫地或是把脏衣服放进洗衣机,可能只需要教几遍,不需要额外采集数据,也不需要动作捕捉。有不少相关的论文已经发表。

总之,具身大数据对于机器人来说是一个重要瓶颈,在缺乏具身数据的情况下,很难训练出真正好用的具身基础模型。
目前在每条数据获取的技术路径上,都有很多公司或高校在尝试,很多公司也是几种方式混合在一起使用,以最快的速度和尽量低的成本来获取高质量数据。
今年,机器人在真实环境中的规划、感知、决策、执行等能力大幅提升,通过语音直接控制成为可行,人机交互也大大增强。在这种智能化、通用性的发展趋势下,通用机器人的应用领域被大大拓宽,人形机器人的商业化也成为了可能。

展会上的仿生人形机器人
Ameca已经可以与人类互动,比如讨论音乐。2017年10月,Ameca成为沙特阿拉伯公民,这是世界上第一个获得国籍的机器人。图片来源:Engineered Arts
通用机器人还将带来工业制造能力的腾飞,从以前只能机械完成代码指令的工业机器人,变成能使用大量人类工具、载具的通用机器人。而在工业制造领域,无论是在机器人零件端,还是工业制造的应用场景、训练所需要的数据成本等方面,中国都更具优势。
在ITF World 2023大会上,英伟达创始人黄仁勋说,人工智能的下一个浪潮将是具身智能,即能理解、推理、并与物理世界互动的智能系统。而通用机器人,无疑是最理想的载体。

版权声明:部分文章推送时未能与原作者取得联系。若涉及版权问题,敬请原作者联系我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
冷却的不止季节(85)— 母女代沟老黄深夜炸场,AIGC进入iPhone时刻!Hugging Face接入最强超算,神秘显卡胜过A100喧闹的“人形机器人”:距“蓝海产业”还有多远?被黄仁勋和OpenAI接连点名,这家向量数据库公司终迎「iPhone时刻」|年度AI对话人形机器人哪家强?人形机器人成新风口!探馆世界机器人大会:"机器人+制造业"国产替代加速今年,是人形机器人的“iPhone时刻”吗? | 【经纬低调研究】人形机器人产业链摘要腾讯机器人实验室一号员工创业,人形机器人又添重磅玩家8大人形机器人参数对比来了!特斯拉、稚晖君的机器人究竟如何?|前哨分享zt应该是面向所有种族的需要帮助的穷孩子/平权法案携程推出生育补贴,每孩5万元/特斯拉人形机器人将亮相上海/华为智选车建汽车独立门店 | 未来周报nǚ hóng?nǚ gōng美国最大的航母博物馆参观记特斯拉人形机器人将在中国亮相;微软云营收不到亚马逊云一半;携程:员工生孩子补贴 5 万元 | 极客早知道对话OpenAI科学家:iPhone时刻还没有到来人形机器人产业链重点环节公司梳理向量数据库会是 AI 的“iPhone 时刻”吗?| 《架构师》9月刊开放下载LeCun爆粗口、马斯克哭笑不得,只因9个人形机器人开了场新闻发布会苹果下一个“iPhone时刻”,要看库克的刀法英伟达+苹果+信创概念股火了!工控"小华为"透露人形机器人布局【手机摄影活动】边走边拍AI 的「iPhone时刻 」,英伟达赢麻了,最贵的芯片性价比最高老黄发布最强AIGC芯片!内存容量暴增近50%,可运行任意大模型,“生成式AI的iPhone时刻已来”苹果:即将迎来一个新的“iPhone 时刻”?广发言 | 陈韫中:人形机器人或成通用人工智能的最大终端应用从偃师人偶到擎天柱:人形机器人的前世今生550多家机构关注,人形机器人最牛股爆热!这些优质高成长股被盯上人形机器人的未来,藏在人工智能的历史里人人拥有一只「大白」的未来离我们还有多远?聊聊人形机器人的未来|极客周末特斯拉人形机器人将亮相中国/初代 iPhone 或拍卖出5万美元高价/OpenAI被作家告侵权 | 灵感周报从成都大运会闭幕式,看人形机器人的技术跃迁AI之后下一个万亿大机会?人形机器人厉害了?仿生机器人大咖谈现状:说iPhone时刻有点早,诺基亚时刻刚刚好中国同俄罗斯的伙伴关系
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。