作者|武静静
编辑|赵健
“一个上午,接待了40多个投资人来现场,都是来看人形机器人的。”一位追觅员工说道。
有投资人指着正在表演咖啡拉花的机器人问:“这个动作的难度在哪儿?”另一边,一位自称开煤矿的老板指的旁边站立的另一台人形机器人问:“多少钱,怎么订?”
2023世界机器人上,以前只能在科幻电影中出现的人形机器人在现场表演起了各种技能。小米、追觅科技、优必选、达闼科技、宇树科技、大连蒂艾斯科技、星动纪元、理工华汇等很多公司都把自己的人形机器人搬到了现场。
这是2023世界机器人大会上热闹的一角。今年的大会,160家国内外机器人企业,600件机器人都在现场久违的大秀了一把肌肉。人形机器人抢走了大部分风头。全球知名的波士顿动力创始人Marc Raibert、日本知名机器人学者石黑浩都来了。人形机器人正在成为资本市场的新热点。一级市场,百度、经纬、高瓴、鼎晖、高榕、云启、真格、梅花创投等都在一线积极调研,前半年聊大模型的风投现在没有人不关心通用机器人。美国人形机器人创业公司Figure两个月就完成了两轮融资:7月获得了英特尔投资的900万美元投资;今年5月,Figure完成了7000万美元A轮融资,由Parkway Venture Capital领投。根据路透社报道,在5月融资时,Figure估值已经超过4亿美元。国内市场,曾经的华为天才少年稚晖君创立的智元机器人(Agibot)也正在受到一线基金的追捧,百度、经纬、高瓴、鼎晖、高榕等均参与了投资。近日,通用机器人公司月泉仿生也完成了一轮由北京北科中发展启航创业投资基金的独家投资。月泉仿生的核心业务是通用型仿生人形机器人及核心零部件的产业化。月泉仿生由吉林大学工程仿生教育部重点实验室任露泉院士团队创立。二级市场,人形机器人概念股都炒了几波。5月,马斯克在2023年股东大会上关于人形机器人Optimus的一番话,直接拉涨了一波A股机器人概念——赛摩智能20CM涨停,丰立智能在六个交易日涨幅近160%,直接引发了深交所的关注,要求说明股价涨幅较大的原因及合理性。为何人形机器人成为了香饽饽?投资人扎堆调研的背后,人形机器人面临哪些机会和挑战?1.特斯拉、小米、追觅
热火朝天的人形机器人
在2023年股东大会上,马斯克说,人形机器人Optimus对运动和力量的控制以及环境感知方面有显著加强,技术正在快速迭代。他预测,机器人的需求可能会达到100亿,甚至更多。如果以人类和机器人的比例为2:1,那么对人形机器人的需求可能会远远超过汽车的需求。马斯克的相信和投入点燃了很多人对人形机器人赛道的信心。特斯拉有可能会推动整个产业链走向成熟。梅花创投创始合伙人吴世春告诉「甲子光年」:“在新能源汽车产业链领域,特斯拉带动智能汽车产业链整体向前发展,它在上海的工厂带动了整个中国智能产业链的逐步成熟。下一个可能是人形机器人。”“这是好事,我们也在观察这个行业里哪些地方有投资机会,可能是整机、零部件或软件。”吴世春说。在特斯拉2022 AI Day活动上,特斯拉人形机器人“Optimus”首次亮相,并在现场完成了自主行走、转身、停止、挥手问候等动作。虽然在本届机器人大会中没有看到“Optimus”的身影,但在今年的世界人工智能大会上,我们在上海见到了一款在橱窗里的“Optimus”。甲子光年现场拍摄
“Optimus”采用了与汽车一致的计算机视觉、处理视觉数据、做出行动决策、支持通信交流的“大脑”,以及与特斯拉车辆相同的芯片,还搭载与特斯拉车辆同源的FSD电脑以及Autopilot相关神经网络技术,预计最终售价不超2万美元(约14.4万元人民币)。明势资本创始合伙人黄明明认为,电动汽车公司做人形机器人有先天优势。“两年前马斯克要做Tesla Bot的时候,很多人觉得他不务正业。但如果仔细分析特斯拉的技术栈会发现,机器人是电动汽车的自然延伸。车是第一代的四轮机器人,理想汽车今年年初确定的愿景不是成为全球最大的电动车企业,而是成为最优秀的人工智能和机器人公司。”他提到,认知型机器人是下一个巨大突破。“可能是人形,也可能是四足。现在我们在工厂、产线、物流已经有各种各样的机器人,但这些机器人的程序都是人类工程师写好的,动作是被我们固定好的。但是认知型机器人和自动驾驶一样,有感知、分析判断能力,有人机交互能力、对于3D世界的实时理解能力,以及精准的操作能力。”人形机器人的的任务泛化能力决定了它能走的多远。很多企业正在瞄准这个方向发力。智元机器人最近发布的具身智能机器人远征A1就是一款人形机器人,稚晖君称:“智元机器人致力于将先进的机器人和AI技术与人类生活以及生产制造紧密结合,未来让机器人成为人类的得力助手。远征A1未来可以在各种复杂场景下自主完成移动和操作任务。”前述提到的创业公司月泉仿生的机器人已经能够做到和人手相似的灵巧性。公司自主研发的类人仿生智能灵巧手在外力干扰下可以通过主动移动、屈曲、翻转等动作调整,以保持手持物体不掉落。“除了基础的抓握、按压等动作外,还可以完成27种不同的手部复杂精细操作,比如使用筷子夹取细小物体、涂抹护肤品、搅拌咖啡、刷手机、解扣子等。”据悉,月泉仿生智能灵巧手采用拉压体驱动技术,拥有极高自由度。同时内置了柔性传感器,具有触觉神经反馈。月泉仿生智能灵巧手,公司供图
月泉仿生CTO赵迪告诉「甲子光年」,目前关节型的人形机器人普遍只能进行抓取拿放,很难执行解扣子这种更复杂的动作。人形机器人要想真正服务人类,一个好用能干活的双手是必需的,因此在底层原理方面创新突破并提出全新的构型显得尤为重要。人形机器人运动方面,月泉仿生同样围绕着“仿生拉压体机器人”这一自主创新理论展开研究。赵迪提到,“正常情况下,一个关节最高可有6个自由度,但关节驱动机器人为了追求控制精度锁死了自由度,实际最多只有1~3个自由度,由此造成功耗水平也很高,是人体运动功耗水平的几十倍乃至上百倍。”据他介绍,月泉的仿生拉压体机器人能够克服传统关节驱动机器人的缺点,使机器人具备与人相似的运动特性,可以在具备较高运动自由度的情况下,能够兼顾稳定性,并且能实现关节刚度的快速自适应调节同时能使机器人实现与环境的安全交互,运动能耗指标仅为人体的一到两倍。同时,由于采用了新的驱动方式,月泉仿生的产品不再需要使用复杂昂贵的减速器,降低了成本。据了解,公司也自研了微电机和仿生材料,以匹配拉压体驱动方式的性能需要。在机器人大会现场,我们也看到非常多在展现各种技能的人形机器人。追觅把今年3月新发布的人形机器人带到了现场,这是一款身高 178cm,体重 56kg的机器人,全身共 44个自由度,其中单腿还有完整的6个自由度,可以完成单腿站立。此外,机器人身上还配备了深度相机,可以完成室内3维环境的建模,同时还集成了AI大语言模型,可以进行实时沟通对话。表演咖啡拉花的追觅机器人,图片来自追觅
追觅科技人形机器人负责人喻超告诉「甲子光年」:“人形机器人自主实现咖啡‘拉花’的难点在于,它需要在开放空间里与人进行交互,这意味着它所处的空间位置和运动轨迹会有许多不确定性,同时需要识别不同材质及尺寸的工具。要解决这些问题,就要搭载更多的智能模型、传感器,并在机械结构设计上做创新调整。”机器人公司宇树科技不仅带来了已经在行业场景中落地的四足机器人,也带来最新发布的人形机器人H1。甲子光年现场拍摄
这是一款能跑的全尺寸通用人形机器人,拥有全球近似规格最高动力性能,并配置有360°全景深度感知,行走速度大于1.5m/s,潜在运动能力大于5m/s,整机重量约在47kg左右。相关人员告诉「甲子光年」,H1会在下半年正式投入生产,价格在几十万元人民币以内。即使被人从侧面,后面踹一脚,H1都可以像人一样,稍微踉跄之后还能找到新的平衡,不会摔倒。一位机器人工程师告诉「甲子光年」:“实现这种功能并不是一件容易的事,背后用哪个数学函数大家都知道,但是能把它真正落地到产品中很难。”大家对小米的好奇更多集中在最新发布的四足机器人身上,去年发布的人形机器人“铁大”反而少有人在关注。据「甲子光年」了解,去年小米发布的人形机器人“铁大”由追觅制造,后者本身也是小米生态链中的一员,在高度马达等多个软硬件方面有一些经验积累。甲子光年现场拍摄
达闼把人形双足机器人“七仙女”小紫带到了现场,这款机器人身高165cm,体重65kg,全身采用了轻质高强度的碳纤维复合材料,拥有60多个智能柔性关节,由达闼全栈自研,搭载了海睿云端大脑操作系统,集成了机器人多模态人工智能大模型RobotGPT。现场还有一个人形机器人穿着球衣在表演定点投篮。达闼创始人兼CEO黄晓庆称,“七仙女”将在2024年正式发布,2025年规模量产。来自浙江大学控制学院机器人团队的同学也带着“悟空-4”人形机器人来到了会上。据了解,“悟空-4”可适应室外路面、草丛、泥泞路面等多种地形,最快运动速度可以达到6公里/小时,还能跳高0.5米,还可以可上下25度斜坡和10厘米台阶。在路面打滑和外部推力干扰等未知扰动下,可快速恢复平衡并保持稳定行走。浙江大学供图
“悟空-4”通过融合腿足运动技术与环境感知技术,实现了机器人的三维环境地图构建和自主动态导航。该项目导师是朱秋国和熊蓉,都是机器人领域的专家,长期从事腿足机器人、机器人智能感知控制、群体协作控制等研究,有深厚的理论与技术基础。清华大学交叉信息研究院和上海期智研究院所孵化的创业公司星动纪元也带着人形机器人产品来到了现场。这次,星动纪元的两款产品小星和小星MAX都进行了现场演示。小星在水泥地上、树林里、草地里、石子路上都能快速行走,且有一定的稳定性。甲子光年现场拍摄
这两款机器人产品背后,是公司自主研发的一系列软硬件技术:基于本体感知驱动器的人形机器人本体;使用自研高扭矩密度模块化关节以及一体化结构设计;以高强度合金、碳纤维和工程塑料等先进材料,保留美观外形,提高了结构的强度和稳定性;布局大语言模型,配以先进的力控算法,具备高动态性能的同时能更好地理解人类。从投资人追捧、头部科技公司入局,到创业公司和高校的创新研究,眼下,人形机器人正在多个方向齐头并进,迎来新的发展阶段。2.给人形机器人装上大脑
大模型是推动人形机器人走向热潮的另一重关键技术变量。OpenAI靠一己之力让人类迈进了通用人工智能的大门前。大模型的触角正在进入各行各业,与机器人结合之后,人类开启了对通用机器人可能性的新想象:只能聊天对话太局限了,能不能通过指令,自己拆解任务并执行到底?云启资本合伙人陈昱认为,大模型本质是软件能力,在数字世界中,与现实世界连接最好的载体实际上是硬件载体。“目前,我们更看重如何将大模型与机器人硬件结合,实现通用机器人的形态。”在他看来,具身智能让通用机器人已经看到了一个可能的路径,资本就是去给行业添一把柴火,经过五年到十年的大规模的投入,让它烧的更旺,最终实现通用机器人的商用化。陈昱提到,目前机器人侧研发关注的重点与以往不同:不再仅限于完成某一类特定工作,而是进一步完成多类型任务。比如过去,配送机器人负责配送、建筑机器人智能刷墙。但在通用智能化的大背景下,未来将有可能实现机器人灵活用工,比如工厂环境中的机器人既能拧螺丝、又能喷漆、还能完成零件组装。目前,不管是“具身智能”还是“通用人工智能”都是市场对2023年的人形机器人的新期待——通用人工智能对物理世界的价值需要有具身的实体来承载,并和真实的物理世界进行交互,才能更大范围的影响人类。线性资本投资总监辛未认为,大模型打开了通用机器人的可实现性。辛未提到,机器人的通用化,需要解决几个技术的问题:上层需要对任务做理解、定义、规划、拆分;中间需要能够强泛化的执行层来满足不同场景的任务执行;底层是相对成熟的机器人控制,再搭配上合适的硬件本体。“三个层级中,在大模型出来之前,我们认为顶层是最难实现的,而大模型的能力完全匹配了这一层的要求,使通用机器人具有变为现实的可能。”很多创业公司看中的也是技术驱动下,人形机器人的新能力可能会打开全新的需求,更靠近落地。宇树科技创始人王兴兴提到,在几年前,市场不看好人形机器人最关键的原因是,人类的控制技术没办法驾驭人形机器人这么复杂的机器人形态。如今,在大模型的技术发展下,AI的发展已经远超机器人需要的技术。“现在做人形机器人,借鉴现有的大模型技术,做一个小模型甚至中等模型就能用了,这让通用人形机器人技术层面迈过了一个鸿沟,未来几年,只要突破工程方面的问题,就可以让人形机器人可以发挥很大的生产价值,带来颠覆性的落地应用。”正在研究双足机器人的智能机器人公司逐际动力创始人张巍认为,人形机器人带来的机器人通用机会在于,既可以解决目前专业机器无法处理的问题,同时需要具备至少2-3个不同工种工人的能力,比如既能搬箱子,还可以拣货、进行质量检测等,它需要是一个通用的物理运动平台。相比国内,国外的进展更快一步,已经把大模型的能力从语言穿透到执行层。今年7月,李飞飞团队在网上公开了一个新的具身智能研究项目:接入大模型的机器人可以根据人类发出的语言指令,自己进行拉抽屉、拧瓶盖、称重苹果等动作。7月28日,谷歌DeepMind最推出的机器人模型Robotics Transformer 2(RT-2)也是这一方向研究的延伸。RT-2是一个全新的视觉-语言-动作(VLA)模型,可以从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令。RT-2表现出了更好的泛化能力——理解范围超出它所接触到的机器人数据的语义和视觉范畴,且能解释新指令并通过执行基本推理来响应用户命令。Google DeepMind的论文中介绍了Robotics Transformer 2(RT-2),一个全新的视觉-语言-动作(VLA)模型,它从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令,同时保留了web-scale能力。这些研究都为人类迈向通用机器人奠定了关键一步。国内,来自清华的团队也一直进行这一领域的研究。2000年图灵奖获得者、中国科学院院士、清华大学交叉信息研究院院长姚期智在论坛分享中提到,这种融合了大模型能力的新一代具身智能体需要具备三个特征:- 第一是身体,这部分需要有足够的硬件,比如传感器和执行器;
- 第二是小脑,可以主导视觉、触觉各种感知,来控制身体,完成复杂的任务;
- 第三是大脑,主导上层的逻辑推理、决策、长时间的规划,并以用自然语言和其他的智能体、环境交流。
如果具身智能为核心的通用机器人是未来方向,这个形态为什么一定是人形机器人?诚然,通用机器人不一定等于人形机器人,但目前,很多机器人从业者都提到,人形机器人是公认的最好的通用机器人形态。姚期智在分享中提到,目前,最好的通用机器人形态就是人形机器人,一方面人形机器人更能适应各种环境,另一方面,当前人类社会环境中的种种设计都是为人类量身定做,比如楼梯结构、门把手高度、杯子形状等,都是为人类形象所定制。所以,如果要打造一个有泛应用能力的通用机器人,人形是目前最好最适合的形态。真格基金合伙人刘元告诉「甲子光年」,他认为,人形机器人的产品定义和需求是有基础的,它在某种程度上与人类数百年前对机器人的期待就有些相似。纵观历史中各类技术的发展,很多新的产品都是对几百年前人类科幻作品中对未来生活的需求和解决方案的一种遥远回响。“几百年前,人类就想让机器人帮做家务。之后就有了洗衣机、微波炉、扫地机器人。可以说,科幻完成了人类对于需求的一个产品定义。”但他也提到,这个阶段很多公司一拥而上做人形机器人也有很大的跟风成分。3.大模型解决不了的问题还有很多
理想丰满的另一面是现实的骨感。对于正加速布局人形机器人赛道的科技公司而言,在把握当前机会的同时还要考虑更多现实的技术难题和商业化挑战。技术层面,正如谷歌、李飞飞等团队正在研究的一样,通用机器人领域也需要类似GPT-4这样的大模型,能够真正一步到位,把多模式能力融合在一起,真正统一具身智能的发展。但这并非易事,明势资本合伙人夏令告诉「甲子光年」,目前论文和一些demo展示的机器人与大语言模型结合偏重交互问题,但并不是解决交互问题后,人形机器人就变成了通用机器人。“因为即使基于人机交互完成高层次任务分解和规划,机器人仍需要控制和执行,包括在复杂地形的通用移动能力和高精度操作能力。这些能力对机器人来说仍有很大挑战。”夏令认为,在控制执行层面,大语言模型难以解决问题。“站在整个通用机器人的发展角度来看,大语言模型有贡献,但对底层控制和执行的影响有限。目前学术界采用AI驱动的方法,希望把强化学习的方式做底层的控制执行,但这和大语言模型并没有直接的关系。且强化学习的控制方法大部分还停留在学术研究阶段。”身在其中的企业也正在面对这些难题。宇树科技创始人王兴兴提到,机器人领域会出现自身的大模型。在他看来,大模型与机器人的融合是一个难点,一些通用大模型并的文字逻辑化和处理能力不错,但由于不是给通用人形机器人专门使用,所以这些大模型对环境认知和感知能力基本是零。而不同于大语言模型的数据集可以直接从互联网端获取,机器人的数据都是动态的数据集,需要在仿真环境中,获得动态模拟数据,也依赖于和物理环境的基础和交互,这些都需要一定的时间。对于未来的技术进展,王兴兴相对比较乐观,“目前英伟达已经在推进在仿真环境中的相关训练,从目前全球的热度以及目前人工智能行业的进展来看,不超过10年,会有显著性进步。”也有人觉得不会很快。德国慕尼黑工业大学教授Alois C. Knoll提到,接下来,机器人领域也需要慢慢的像大语言模型一样,一步步的集成仿真、建模、编程、人工智能等多项能力,走出自身的智能泛化能力。“人形机器人是目前见到的最难最复杂的机器之一,这个过程需要时间,可能会比AGI慢,可能不会快速地见到巨变。”与很多人都在推崇大模型给人形机器人带来颠覆性的机会不同,波士顿动力创始人Marc Raibert在演讲中提到,未来的机器人技术发展过程中,硬件工程和软件同等重要。“有些人认为软件可以克服硬件上所有的问题和限制,我并不赞同这个观点”。在他看来,只有最好的硬件设计师和软件性设计师倾力合作,才能够设计出世界上最好的机器人。以波士顿动力的人形机器人为例,在Atlas的硬件工程方面,公司做了大量工作——包括液压系统、多个专门的阀门、专用电池、负载等各个方面,把机器人的重量从170公斤缩小到90公斤,这个过程中,他们没有在机器人的功能上有任何妥协,反而提高了机器人的运动范围力量和速度。甲子光年现场拍摄
这是目前最现实的难点。尤其对于创业公司而言,平衡技术实现、性能和成本是关键能力。星动纪元CEO陈建宇称,目前星动纪元希望机器人能同时兼顾力量、速度、精度以及成本,但确实难以做到。“液压技术能让机器人的速度和力量都很强,但成本太贵;电驱动技术取决于如果用高减速比的谐波技术,但一旦精度比较高,承载也不错,灵巧性又会降低;而灵巧度上去了,成本比较低,但却要牺牲机器人的载荷和精度。现在很难兼顾所有情况,只能针对不同的应用场景,进行各要素的平衡。”此外,在安全性上,大语言模型胡说八道可能造成的影响不大,但一旦一台搭载大模型的机器人进入生活,就需要保证准确度和安全性,这些都是技术需要改进的方向。这些问题都需要人形机器人公司需在场景中不断试错才能找到解题思路。线性资本投资总监辛未告诉「甲子光年」:人形机器人目前可展示的 demo 都相对初级,无论是移动还是操作,在场景端真正用起来需要算法和硬件有强泛化性,这是其商业化的基础,目前人形还有科学侧的问题没有解决。“当然,我们既不能高估技术的短期效应,也不能忽视技术的长期进步,通用机器人已经变成大火的领域,无论是学术侧还是工业侧,更多的力量和资源涌入,我相信能在一定程度落地的商业化产品不远了。”明势资本合伙人夏令认为,对于今天想去做通用机器人的创业公司而言,类比自动驾驶的发展,找到可商业化闭环和可数据闭环的L2尤其重要。因为它具有真实的商业化价值,同时底层技术能够在商业化价值实现的基础上,实现数据飞轮,支持继续向L4的方向去发展。“如果你只有L2,没有去做L4的技术架构、野心及能力也是不行的。所以就是要心怀着一个L4伟大的梦想,同时要脚踏实地找到一个可商业化的L2。”技术、场景、成本、安全,机会和挑战正在同时到来,人形机器人正迈出了通往未来的关键一步。
(封面图来源:百度文心一格)
END.