哈工深聂礼强：多模态大模型是具身智能发展的关键动力丨具身智能十人谈

2024-07-14 06:07

没有多模态大模型的“大脑”，“身体”只是一个无智能的机械装置。

作者丨陈鹭伊

编辑丨岑峰

具身智能的“智能”如何体现？

这是雷峰网-AI科技评论启动“具身智能十人谈”栏目以来，在拜访这一领域的诸多研究者时最常提到的话题之一。

具身智能，简而言之，是指将智能系统与物理实体相结合，使其能够感知环境、进行决策并执行动作的一门技术。其关键词是“具身”，即不仅仅是抽象的算法和数据，而是要通过物理形态与世界进行交互。

然而，要实现真正的“智能”，具身智能系统需要一个强大的“大脑”来支撑其复杂的决策和学习过程。这里的“大脑”并非生物学意义上的器官，而是指一种能够处理和理解多模态信息的高级计算模型——多模态大模型。这种模型能够整合视觉、听觉、触觉等多种感官数据，以及语言、指令等抽象信息，为机器人提供更为丰富和全面的环境理解能力。

2022年11月，ChatGPT的问世展现了大型语言模型（LLM）的突破，不仅激发了对大模型在各行各业应用的无限想象，也将“具身智能”推到了聚光灯下，引发了对机器如何更自然地与人类及环境互动的深入探讨，激发了新一波多模态大模型研究的浪潮。

自然语言处理（NLP）是大模型底层核心技术之一。哈尔滨工业大学是NLP研究的老牌工科强校，大模型研究技术积累十分雄厚。哈工深自研的自主可控的多模态大模型——九天，受到业界的广泛关注。九天具有模态覆盖面广、多模态数据集十分顶尖、模态联系能力强、可扩展性强等显著特点，在多项评测指标中表现颇佳。九天对视频-文本处理部分和图片-文本处理部分相关论文获 ACM MM 2022的最佳论文奖。

哈工深的多模态大模型与具身智能研究由聂礼强教授领衔，他过去15年的科研专注于多模态内容分析与理解，深信多模态感知、融合和理解的重要性。他意识到传统机器人自主决策能力弱，而多模态大模型虽擅长理解决策却无法与物理世界互动。这启发了他将两者结合，以机器人为躯干、多模态大模型为大脑，实现优势互补。

有观点认为，多模态大模型技术将推动机器人“大脑”快速升级，其进化速度远超机器人本体，或将在未来2至3年内越过技术成熟点，进入规模化产业落地阶段。

近日，AI科技评论拜访了聂礼强教授，与他探讨了具身智能领域的研究趋势、产学研一体面临的挑战等话题。以下即为AI科技评论与聂礼强就具身智能这一话题的访谈实录，限于篇幅，AI科技评论进行了不改原意的编辑：

"大脑"驱动具身智能发展

AI科技评论：您如何看待最近的具身智能热潮？当大家在研究和讨论具身智能时，究竟有哪些技术期待和应用期待？

聂礼强：具身智能热潮是人工智能大模型技术与机器人技术的结合产物。人工智能中大模型技术的突破，为机器人提供了新的“大脑”，而机器人与物理世界的互动也为大模型带来了新的着力点，两者相互促进、优势互补。

具身智能领域的研究趋势也在不断改变。在大模型赋能的起步阶段，一些工作是把人工智能领域的新成果直接用在机器人上，但不够深入。例如，多模态大模型常见的模态是视觉与文本，但机器人接触的信息更广——视觉、听觉、触觉、人的指令、机械臂的位姿等等，未来大模型需要去适配具身智能任务在物理现实世界感知交互的特点，把丰富的多种模态信息统筹融合起来。

近期大模型驱动的具身智能的研究也逐渐深化，正从初步应用转向深度融合，尤其是机器人运动控制的集成，这是技术发展的关键，也是一大挑战。随着研究的深化，我们期待大模型能更全面地理解和控制机器人的身体，实现更深层次的物理交互。

如果具身智能领域的挑战都得到了有效解决，其应用潜力是巨大的。具身智能应用可以把智能体融合到智能制造、服务业等各个垂直领域，比如工业巡检、家政服务等，让具身智能引领全新的制造业、服务业等产业升级。随着技术的成熟，其应用场景将更加广泛。

AI科技评论：多模态大模型在具身智能中扮演着怎样的角色？

聂礼强：多模态大模型是具身智能机器人的“大脑”，至关重要。它位于发展的上游，为机器人提供智能。没有这个“大脑”，下游的机器人“身体”也只是一个失去智能的机械装置。性能强大的多模态大模型，正是推动具身智能领域向前发展的关键动力。

多模态大模型超越了单一模态不足以应对复杂的实际场景的限制，极大地提升了机器人的感知与理解能力，使机器人能够更准确、全面地理解复杂场景和任务。此外，多模态大模型在大规模数据预训练后学习到了丰富的人类知识，赋予了机器人自主规划决策的能力。

多模态大模型还优化了人机交互。让机器人能通过语音、手势等多模态信息准确人类意图，让我们与机器人之间的交互更自然。多模态大模型强大的泛化能力也为机器人的自主学习能力打下了基础，帮助机器人适应多变任务，在向成为具有自主学习和适应环境变化的能力的真正意义上的智能体迈了一大步。

我认为多模态大模型作为“大脑”影响着机器人的方方面面，其对机器人的上游赋能打通了具身智能落地的关键阻碍，是具身智能领域进步的的源头活水。

未来趋势：人性化与协作

AI科技评论：您认为多模态大模型在具身智能领域的未来发展有哪些趋势？

聂礼强：多模态大模型在具身智能领域的未来发展将带来革命性的变化，使AI系统在与物理世界的互动和理解方面更加人性化。可预见到以下几个关键趋势将在未来几年塑造这一领域：

多模态感知：模型将无缝整合触觉、嗅觉等多种感官信息，提供更全面的环境理解，接近人类的感知能力。
模型轻量化：开发高效的多模态大模型架构，利用模型压缩和知识蒸馏技术，提高具身系统的灵活性和效率。
迁移与少样本学习：具身AI将展现在迁移学习和少样本学习方面的进步，快速适应新任务而无需大量数据训练。
基底技术发展：模型将更好地连接抽象知识与物理现实，推动常识推理和因果理解的突破，增强长期记忆和持续学习能力。
自然交互能力：提升人与AI机器的交流直观性和上下文感知能力，使机器人能够进行复杂对话，解释环境和行动。
世界模型构建：创建全面的内部世界表示，用于具身AI的规划、预测和决策。
神经形态计算融合：多模态大模型与神经形态计算方法结合，模拟生物神经网络，提高能源效率和适应性。

这些趋势预示着，未来具身AI系统将通过多模态大模型在理解和与世界互动方面更加接近人类，开辟广泛应用和领域的可能性。

AI科技评论：您认为多模态大模型目前面临的最大的挑战是什么？

聂礼强：目前多模态大模型的最大的挑战是如何在保持连贯性、效率和伦理考虑的同时，整合和对齐多种数据模态。不同模态如文本、图像、音频和视频具有独特的特征，对齐它们是一个根本性难题，需要通过预训练、微调和架构设计等手段来实现有效共享表示。

大型多模态模型所需的计算资源需求随规模和模态的增加呈指数级增长，引发了可扩展性、可访问性和可部署性的问题，可能会限制模型的普及。

数据质量和多样性也是一个重大障碍。获取大规模、高质量且无偏见的多模态数据集既耗时又昂贵的过程。

模型的复杂性也使得确保可解释性和可理解性变得愈发困难。这对于模型在关键应用中的可信度至关重要。

最后，多模态大模型在伦理好社会影响方面也面临挑战。如错误信息、深度伪造和隐私侵犯等问题，需要制定相应的保障措施和伦理指南，更需要各方面的关注和合作。

学术与产业的共舞

AI科技评论：您如何看待当前学术界与产业界在具身智能研究方面的合作？

聂礼强：具身智能研究需要学术界的基础研究和创新思维与工业界的落地经验和数据相结合，共同克服复杂的科学和技术挑战。最近1-2年的具身公司，不少是高校孵化的。高校孵化公司的增多显示了学术界在推动技术商业化方面的关键作用。

政府的支持为校企合作提供了动力，通过鼓励校企联合申请项目，提供了必要的经济和平台支撑。联合实验室的建立促进了学术与工业的深度融合，加速了知识的交流和创新。

为加强合作，我们需要进一步对齐学术研究与产业需求，开发标准化的具身智能研究平台和协议，以及培养能够连接两界的人才。作为教育者，我们有责任培养学生在知识、技术和研究方法上的跨界能力。

总体来看，学术界与工业界的合作在具身智能领域展现出巨大潜力，通过政府支持、联合实验室和研究与需求的对齐，高校和企业将共同推动具身智能的创新发展。

AI科技评论：具身智能在学术界和工业界的前景如何，您及团队有哪些具体的研究案例？

聂礼强：具身智能在学术和工业界均备受青睐，开辟了前沿的交叉研究新径。无论是AI研究者还是机器人研究者，都在积极探索这一领域。工业界对大模型赋能机器人的挑战和应用前景持乐观态度。

（若愚·九天项目无人厨房场景技术验证）

哈工深在具身智能领域有显著研究进展，如若愚·九天项目，它在无人厨房场景中实现了技术验证，突破了多模态大模型驱动群体智能等关键技术。我们成功结合了多模态大模型与机器人实体，开发了具备感知、交互、规划和行动能力的机器人系统。

这一过程中，我们面临了多模态信息融合、复杂任务规划和精确动作控制等挑战，每个步骤都需要细致研究。例如，大模型必须有效处理多种模态信息，机器人“大脑”需要准确规划任务，而“小脑”则要负责精确的动作执行。这些研究成果为具身智能的应用提供了坚实的基础。

AI科技评论：哈工深在具身智能领域有什么样的未来发展规划？

聂礼强：目前，基于哈工深目前在多模态大模型、机器人的研究基础，我们制定了系统的具身智能研究规划，包括智能体的感知、规划、操作、群体协同等多个方面，涵盖机械臂、无人机和人形机器人等各种智能体形态。

总之，具身智能是一个充满前景的研究领域，哈工深将继续推动科技创新和人才培养，力求为学术界和工业界做出更大贡献。

大脑+小脑范式的产业实践

AI科技评论：若愚科技曾提出“给机器人装上大脑”的口号，您如何看待大脑和小脑的协同关系，以及未来的研究方向？

聂礼强：若愚科技是从哈工深孵化出去的一家高科技公司，强调的是机器人认知系统（大脑）与运动控制系统（小脑）的协同工作。多模态大模型九天负责处理理解、感知、规划和决策任务，而小脑则执行精确的物理运动和交互。这种协同确保了机器人能够根据高层指令进行具体控制，并将执行反馈回大脑以调整策略，对适应性和稳健性至关重要。

若愚未来的研究将集中在加强这种协同作用上，集成模型规划与低级控制算法，包括开发错误修正和在线学习机制，使大脑能够根据小脑的执行结果快速调整，对长序列任务规划进行优化，并通过多模态感知和自适应学习提高机器人的感知和决策能力。此外，若愚还将探索如何利用大脑的高级理解能力来提升小脑的性能，如通过语义理解指导抓取规划或轨迹优化。

AI科技评论：若愚科技在多模态大模型和具身智能方面有哪些创新和突破？是如何将多模态大模型技术应用到产品中的？

聂礼强：若愚科技在多模态大模型驱动的具身智能上的开发上取得了突破，创新性地实施了大脑-小脑范式，整合了自然语言处理、视觉感知和行动规划，使机器人在多个领域具有智能“脑”。

核心技术包括增强检索大模型去幻觉规划，允许机器人根据自然语言指令自主执行复杂任务，如无人厨房中的订单处理和上菜协调。在3D感知上，使机器人能在无需预注册的情况下理解和操控复杂环境中的物体，显示出高灵活性和鲁棒性。

若愚科技还实现了通过扩散模型驱动的模仿学习，使机器人能够学习复杂技能而无需编程。这些技术被集成到我们的九天机器人“大脑”中，支持多模态交互，并通过标准化的以云+端交付方式，通过API+DK(SDK)，与产业链伙伴合作，应用于食品加工、分拣、组装和3C产业等。

若愚已经在特种领域部署了“九天”机器人，利用模仿学习高效执行商业任务。未来，若愚将根据场景需求，推动多智能体规划的产品化，实现多机器人协同下的业务闭环。

AI科技评论：您如何评价目前具身智能技术在实际场景中的应用效果？

聂礼强：具身智能技术已在多个领域展现显著效益。在制造业，它提升了机器人的互动能力，增强了生产效率和灵活性，减少了人为错误。物流和仓储领域中，具身智能机器人通过自主导航和深度学习算法，优化了物品分类和搬运流程，提升了物流速度并降低了成本。

服务业也见证了具身智能的效益，如酒店和餐饮业中的迎宾、点餐和送餐机器人，它们提升了顾客体验并节约了人力成本。尽管存在技术成本、环境适应性及伦理方面的挑战，具身智能技术在实际场景中的应用效果是积极的，展现出广泛的前景，但仍需持续改进与优化以适应不断变化的市场需求。

更多内容，点击下方关注：

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

哈工深聂礼强：多模态大模型是具身智能发展的关键动力丨具身智能十人谈

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。