对话王田苗：万亿市场之下，大模型+机器人还有四大问题未解决｜36氪专访

公众号新闻

2024-04-27 13:04

安全、实时、质量、成本等挑战，掣肘大模型+机器人的快速落地。

文｜黄楠

编辑｜袁斯来

来源｜硬氪（ID：south_36kr）

封面来源｜IC photo

今年3月，一段两分半钟的视频点击量破百万。没有太多花哨的情节，白色背景前，一个人形机器人遵照人类指令，递给对方苹果，归置好桌上的杯子和餐碟，并解释这样做的原因。

这段视频来自当红人形机器人初创公司Figure。成立不过两年，Figure估值已达26亿美元，其投资人包括微软、英伟达、英特尔、贝佐斯等，被戏称金主覆盖半个硅谷。

视频中，Figure机器人启动页面，出现醒目的“powered by OpenAI”。除了自己开发的神经网络技术，Figure这款产品背后显然有OpenAI的生成式AI支撑。

AI让人形机器人拥有新的可能。一个诞生于1950年的概念“具身智能”（Embodied Artificial Intelligence）进入人们视野。

在这一概念下，借助大模型，机器人感知、决策与交互提升，具备更强的自主学习能力和环境适应性。机器人赋予大模型现实的物理载体，让曾经的虚拟智能走进现实世界。

技术和现实的交织足以掀起广阔的想象，业界普遍认为具身智能将是一个万亿市场。

最近一系列的行业进展似乎给出了证明：2月份，Figure完成6.75亿美元融资；3月份，英伟达发布人形机器人通用模型Project GR00T，推动机器人理解自然语言，并观察人类行为模仿动作；同是3月份，斯坦福李飞飞团队发布开源“灵巧手”、成本仅2.5万美元；而在4月16日，波士顿动力先是宣布了数字液压驱动的双足人形机器人Atlas退役，不到12小时又发布了代表力量与灵活的全电驱动Atlas 001，展现出腰与脖的全向旋转机构及髋部球形关节……

一级市场的机器人项目投资火热，二级市场的核心零部件厂商、概念股也风起潮涌，人形机器人公司优必选上市后，市值一度超过千亿港元。

然而，“机器人+大模型”落地狂潮中，仍有保持谨慎乐观的少数者。北航机器人研究所名誉所长、中关村智友研究院院长王田苗就是其中一员。

北航机器人研究所名誉所长、中关村智友研究院院长王田苗

90年代初，中国工业机器人尚在萌芽期，王田苗已经进入一个和移动机器人相关的国家重大项目组中，研究无人驾驶技术。30多年过去，王田苗和团队研发出国内第一款获得许可证的医疗机器人，也成为硬科技领域低调但不可忽视的创业导师。

2020年，王田苗联合十五位科学家发起成立了“智友科学家基金”，一如既往，王田苗和团队希望发现和培育服务国家科技战略的早期硬科技项目。具身智能、机器人、机器人上游核心部件正是他关注的重要领域。

与硬氪交流的一个多小时里，王田苗语气中难掩对具身智能或将掀起产业变革的兴奋。中关村智友研究院已经覆盖包括高精度RV减速器、全真精密光学影像系统、力传感器柔性智能装备、具身智能AI通用机器人平台等软硬件方向。

但在行业沉浮三十多年后，王田苗早已习惯以冷静的目光审视狂热。以Figure发布的产品为例，“Figure机器人在视频中呈现的延迟时长约为2-3秒，它使用了Pipeline、管道型路线，即自然语言发送后、机器人大脑可以理解并生成指令，由指令来控制。当接入通用大脑后，其延迟速度约要乘以20倍。”王田苗告诉硬氪。

具身智能走过半个多世纪，某一款产品的爆火消弭并不会落地和商业化等现实性问题。一个温度骤升的行业需要这样的视角，才不至于在蜂拥而入的资本和宏大叙事中迷失。

围绕具身智能的机遇与挑战话题，硬氪对王田苗进行了专访，以下是本次交流（经编辑）：

有效的机器人通用基础模型还未出现

硬氪：对比上一代机器人技术路径，具身智能的革命性体现在哪里？

王田苗：具身智能强调和追求机器人泛化及大规模应用。第一，它通过嵌入大模型交互，使机器人能够听懂语言，理解客户的指示，并让具身智能体到相应的地方进行操作。第二是结构化的固定环境加上感知垂直大模型，能识别并重建环节，拓宽机器人使用的环境，提高智能化水平。因此，人们期待具身智能即大模型+机器人能够实现“一脑多机”或“一脑多型”的爆发。

硬氪：具身智能真正得到学术界、工业界、金融界重视是在这两三年。狭义来看，是否可以理解为让机器人通过自我学习进行认知和决策，从而完成相应的任务？

王田苗：从大语言模型的发展开始，我们可以看到语言处理领域的显著进步。传统的解决方法通常是依赖于知识图谱，并结合人为设计的逻辑以及多个小任务模型来解决问题。然而随着技术不断进步，尤其是AlphaGo在围棋领域的优秀表现，以及AlphaZero在蛋白质分析方面的突破，人们开始期待用一个通用模型的训练和微调，来解决所有问题。这也是为什么大模型被视为未来社会数字化、智能化、治理化的运行底座。

机器人作为人们改造世界的工具，具身智能概念诞生后，人们开始思考，机器人领域是不是也能诞生这样通用大模型。

目前工业机器人的装机总量约为300万台，每年世界60万台，中国占总量的一半、是30万台。有这样一个“通用大脑”后，就能大规模、高效率地泛化迁移应用，解决许多问题。

硬氪：那这个机器人通用模型现在出现了吗？

王田苗：目前还没有一个有效的模型出现。

以实时性问题为例。Figure机器人在视频中呈现的延迟时长约为2-3秒，它使用了Pipeline、管道型路线，即自然语言发送后、机器人大脑可以理解并生成指令，由指令来控制。当接入通用大脑后，其延迟速度约要乘以20倍。

硬氪：有什么解决方案？

王田苗：常见的解决方案是，为不同的任务设定多个小模型，并提供不同的参数训练，端到端减少推理成本。另外，将专用小GPU芯片置入到机器人中，也可提高任务实时性，目前特斯拉已在自动驾驶中尝试了这种做法。

硬氪：今年有哪些细分场景的模型值得关注？

王田苗：今年3月，李飞飞团队开发Behavior-1K，完成了对1000种日常活动的定义，并以房屋、花园、餐厅、办公室等50个场景为基础，标注9000多个拥有丰富物理和语义属性的物体。

接着到4月，特斯拉推出多模态大模型Grok-1.5v，利用端到端高速大模型FSD推理，有望连接数字世界与物理世界，解决自动驾驶边缘案例的在线迭代学习问题。

硬氪：业界对机器人“大脑+小脑”路线的关注度很高。大脑用大模型认知智能、人机交互以及相关场景的调动，小脑实时控制机器人本体，产生灵巧操作，随着大模型能力提升，是否有可能反哺给小脑，进而带动其感知、行为等能力提升？另外有关技能型劳动操作，会不会具有专业小模型，分别实现高效作业比如焊工、钳工、车工、打磨抛光、喷涂、装配、拆装等。

王田苗：这个问题正是目前学术界、产业界所关注，并且产生争议的地方。

大脑主要负责慢思维与推理，是智力的核心所在；而小脑则关联着对事物的反应敏感程度，更多涉及身体的协调与运动的控制。从逻辑上讲，人们希望今后机器人的大脑能越来越聪明、弱化小脑能力，力图通过大模型得以统一。比如大模型知道什么是苹果，也知道苹果可以饱腹，当我们向机器人提问“什么东西能吃”时，机器人就能自动取出一个苹果。但要真正实现它，现阶段仍有很多挑战。

在人类历史进化过程中，人类行为的智能进化远远先于语言智能的进化。这可能意味着语言、视觉感知、触觉感知以及行为等智能在大脑图谱中并不是同一个位置，很可能是由不同模型所驱动的。莫拉维克悖论也揭示了这一现象--电脑下棋容易、感知和行动智能方面却面临挑战，这通常表现为顶层智能的智能程度高、精度差、反应慢，而底层智能的智能程度低、精度高、反应快。

硬氪：更具体看，还有哪些问题是没有解决的？

王田苗：首先是如何让机器人的“大脑”更聪明。现阶段机器人在解决复杂环境感知、动作生成、灵巧操作等问题时存在局限性。尽管大模型增强了其学习、语义理解、推理及判断能力，但在从理解、推理、判断、执行到运动系列过程中，还涉及其他多种模型算法和软硬件协同的问题，包括感知智能模型、行为智能模型以及原有智能控制理论，如MPC模型预测控制与WBC全身协调控制等。

问题一：机器人基础大模型RFMS问题

同时，Scaling laws（尺度定律，这一定律表明，模型大小、数据集大小和用于训练的计算浮点数，与模型的性能存在线性相关。）能否在机器人基础大模型中复现尚未可知，这些技术的开发和迭代本身具有难度，再加上周期较长、投入高，短期内要突破关键技术仍面临着不小的挑战和风险。

问题二：智能进化与大小模型问题

第三是要解决具身智能大模型与硬件的融合、配合问题。人形机器人的整机结构复杂，仅零部件就超过5000个，从理解指令到执行任务，都是极大的工程量。

因此有观点提出，在机器人的智能层、感知层、动作层中分设Agent，由Agent来调用工具解决具体问题。

问题三：具身智能的体系结构问题

最后就是落地环节。机器人产品化过程需要用时间来产生并验证价值，如果说研究具身智能的出发点是为了降低时间成本或提升效率，进而实现生产力的飞跃，而非为了取代人类工作，那么基于场景的融合打磨与迭代至关重要。

问题四：劳动型具身智能研发优先应用的领域问题

硬氪：要实现专业和通用，过程中的难点是什么？

王田苗：软件方面的挑战主要是真实、实用、海量数据的产生与训练问题。其中，数据收集尤为关键，机器人所需的数据不仅涵盖互联网数据和视频采集数据，更需要包括众多物理环境中的真实交互数据，这些模拟生成的数据是难以替代的。

此外，数据对齐也是一大难题。语言模型能够学习并生成人类能理解的语言，但在机器人领域，我们面临着海量未标注的异构行为大数据，这使得语义与数据的对齐变得异常困难。其中还涉及到语义歧义问题、模型可能产生的幻觉的安全问题，以及标准化测试平台和训练完成后安全使用评价问题等。

另一方面就是效率与成本问题。从仿生机器人的发展历程来看，自1997年日本本田推出的Asimo人形机器人，到2008年波士顿动力的大狗机器人，再到后续活蹦乱跳的人形机器人，甚至从特斯拉人形机器人到Figure人形机器人，我们确实见证了具身智能在大模型、感知、算力等方面有了重大突破。

然而，不能忽视的是，具身智能在结构、驱动、动力等真实能力方面，尚未实现根本性的突破。其中，行为智能成功成本，与“行为数据采样学习次数”乘以“每一次训练成功的成本”得到的结果相比，其比值仍然远远小于1。这导致具身智能的载体性物种在灵巧性、成本性、能源维护性、使用体验安全性等方面仍存在诸多挑战，距离通用机器人走向千家万户还有距离。

此外，实时性和推理速度也是当前具身智能面临的重要问题。目前基于大模型的机器人控制周期在线决策最快也需要50ms，一般延迟达1-5秒，这远远无法满足目前工业应用中对机器人要求10ms以下，最好在3ms的要求。

硬氪：在机器人和AI结合中，有哪些比较关键的成本？

王田苗：机器人结构复杂，核心零部件决定了其精度、稳定性、负荷能力等重要性能指标，其中技术难度最高分别是减速器、伺服系统和控制器，占成本的60-70%。加上传感器等其他零部件，都会增加机器人的制造和后期维护的成本。

此外，为了解决实时性问题，需要大量GPU算力与训练的能耗。有研究测算，每个token（1000 token约为750个单词）的训练成本通常约为6N（N为参数的计量单位），推理成本约2N，即推理成本相当于训练成本的三分之一。

机器人的三大主导方向

硬氪：面向开放场景的泛化问题，技术上该怎么解决？

王田苗：从具身智能的体系结构出发，对机器人下达拿水杯的指令时，这是意图；机器人会将其分解为具体的运动步骤，包括视觉范围内看到水杯、接近、拿起，一系列动作由感知模型和操作模型协同完成，当机器人后续面对多任务场景时，理想状态下它能够利用先前的经验进行复制泛化，减少对编程水平和质量要求。

现实生活中，由于所有的视觉感知都是变化的，人机交互、任务规划、动作轨迹和操作模型需要应对突发性事件，由此也有想法提出，每一层都应有一个具身代理，再根据特定任务产出领域大模型。

硬氪：具身智能会优先在哪些场景中落地？

王田苗：从广义来看，将机器人和大模型运用在社会上，我坚信会从商务、工业、最后再进入消费环节。

其中，商务场景包括物流（室内外与低空）、出租、药店、超市、清洁、接待等，更容易率先取得突破性进展；第二类是工业与农业，工业包括汽车、核工业、化学药品、医院传染病处置、电池回收拆装等，农业则包括种植、采摘、分拣、屠宰、上下料、预制菜、包装等；最后才是消费场景，例如打扫、炒菜、陪护、养老、打扫房间、护工保姆等。

硬氪：在产品形态上是否有创新空间？

王田苗：当然。一方面，有工业界和理性的企业热衷于用新技术、新形态去探索专业化的新应用，他们注重技术的实用性和对专业领域的适用性，希望通过不断的技术创新来推动业务发展。

另一方面，大部分学者或怀揣梦想的创业者则认为通用大模型+人形机器人是未来的发展方向，更关注技术的前沿性和未来潜力，相信技术将为人类社会带来革命性的影响。

二者有所不同，前者注重应用上的创新性，后者是完全颠覆性的创新，两条路线哪一条率先走通，都离不开市场检验。我们看到，在物流、清洁、无人出租车等场景中，并没有人形机器人的身影，包括焊接、喷涂等环节中多有应用。市场和供求关系紧密相关，家庭环境更关注其智能化、情感化、安全化，工业场景更强调效率、准确率和成本，场景约束不同，两类场景会刺激不同类型的机器人及其核心零部件创新。

硬氪：如何看待机器人接下来要重点突破的发展趋势？

王田苗：当下有三个主导方向。

第一是攻克核心零部件，包括高动态、高精度、高扭矩的驱动单元，刚柔耦合的新材料灵巧手，人工肌肉与电子皮肤，低成本的生物传感器，上游正向设计的电机或减速器等。

第二是夯实垂直应用并通过出海获得利润，特别是面向具有连锁店或生产服务属性的中小微企业，提供服务应用。

第三是拥抱大模型。包括大脑机器人基础大模型，具身代理Agents，低功耗专用小模型算力GPU与编译器，以及生成式数据动作库；同时，关注小脑实时技能操作、行为智能控制和实时安全评测等方面的技术进展；免编程与安全算法，通用机器人与人形机器人应用App的开发也是重要一环；此外，数据服务--垂直模型专用技能数据服务公司，“劳动”派遣运营服务公司等也有望成为产业链中不可或缺的一方。相信大模型和机器人会是未来大国可持续竞争力的发展焦点。