我们距离一个能完成“从桌子上拿瓶水”任务的机器人还有多远？

2023-07-14 04:07

语言是思维的边界，大语言模型的出现让机器人掌握语言充满可能性，它近一步拉平机器人和人类在思维认知层面的差异，一个听懂指令并根据命令去行动的通用型机器人，仿佛距离我们变得越来越近。

但云启合伙人陈昱认为，语言模型只是人类思维模型的一小部分，现阶段AI可能还无法完成从桌子上拿瓶水这样的简单动作，因为数字世界和物理世界之间存在脱节，这是需要长期关注和解决的问题，最终希望通用机器人真正能完成各种通用任务。

AGI+机器人会诞生在哪些应用场景中？实现真正的通用机器人还要面临哪些困难？大模型想要渗透进机器人的感知、规划、决策、控制、驱动层面，将会面临哪些算力和数据的挑战？机器人一旦有了“意识”对社会伦理会带来哪些影响和变革？近期，云启、青腾汇、腾讯科技共同举办的「云启·浪潮AGI+系列沙龙」深圳场，邀请来自投资、学术、企业层面的专家，共同探讨《AGI+机器人的创新与挑战》。

丨嘉宾

桑煜 云启前沿科技组投资人

毕盛 华南理工大学大数据与智能机器人重点实验室

岳玉涛 集萃深度感知技术研究所创始人、所长（青腾未来科技学堂校友）

严启凡 大方智能联合创始人

丨核心观点

①在算法中，我们可以将整个世界及其规律比作一片巍峨的山脉，而小模型训练的数据可能只是其中一个小山包，无法看到小山包之外的东西。大模型实际上提供了对整个山脉地形的抽象信息，而不是具体的地理数据。这些抽象信息基于自然语言和符号进行训练。因此，大模型的辅助可能解决边角场景（corner case）、OOD泛化性问题

②路径规划和导航等相对简单的任务，只要环境是固定的，机器人表现得很好。但是当环境复杂时，问题就比较棘手了。随着大量数据的可用性，机器人能够更好地在复杂环境中切换任务，并灵活调度执行任务，也许在一些复杂场景下，可以取得更好的结果，但是这需要大模型和大数据的支持。

③无论我们在深度学习方面做得多好，实际上在避障和导航这样的精确运动方面，深度学习的结果并不理想。因为深度学习更适合做意识形态判断，而在精确场景中，感知传感器仍然是关键。

④在传统的机器人系统中，也面临实时性和计算能力的要求。可以对算力进行分层：机器人的控制和驱动方面，对实时性的要求比较高，而对于规划方面的要求则相对较低，只需一些嵌入式的系统就可以实现。因此，在操作时，可以会对这两个方面进行分离。

以下为本场论坛的整理：

桑煜：我叫桑煜，跟云启合伙人陈昱一起覆盖机器人、智能车方向的投资，我之前在AI大厂工作，经历了上一波AI赋能百业的发展热潮，可惜落地程度有限，今天新一代AGI的发展让我们看到了突破天花板的可能性。AGI 赋能的行业里面有一个行业是比较特殊的，就是AGI+机器人，因为现在的 AGI 还停留在虚拟数字世界中，未来的大方向是怎样让AGI走进现实世界、去跟物理实体做交互，这方面有非常巨大的想象空间。AGI +机器人的方向能够有哪些新技术变革和新应用机会就是我们本次圆桌讨论的主题。我们很荣幸邀请到了分别来自高校、研究院和产业界的三位嘉宾。下面请几位嘉宾简单地介绍一下自己。

严启凡：我是来自于深圳大方智能的严启凡，负责技术和产品，大方智能是一家做建筑机器人的公司。最近几年我们比较受关注，因为建筑行业在国民产值占比是最高的但工作环境恶劣、劳动力老龄化严重，我们希望用机器人解决这些问题。

毕盛：大家好，我是华南理工大学的毕盛，我做一些科学科研和教学的工作，我在机器人方向做了很多年的研究，也是最早做仿人机器人的。

岳玉涛：大家好，我叫岳玉涛，我的技术背景是计算物理，计算物理就是用信息世界里面的模型和计算来解决物理世界里的具体问题。我是集萃深度感知技术研究所的创始人和所长，主要方向是多模态感知、雷达视觉融合以及AGI和机器意识。

桑煜：先从底层技术开始聊起，大模型目前在语言、视觉模态上构建了"Foundation model"（基础模型），取得了超乎人们想象的效果，涌现出了思维链和超强的泛化能力，我们很兴奋能够把这些技术点应用到机器人上。然而，机器人是个系统工程，单看机器人算法的技术栈大致分成感知、规划、决策、控制、驱动。大模型如何应用在其中？如果放长眼光，大模型会对机器人算法的技术栈有哪些颠覆？

岳玉涛：感知就像人类有眼睛和耳朵一样。这个机器人具备摄像头、雷达等感知技术，通过这些技术来观察和感知周围的环境。然而，关于机器人感知技术，尤其是与大型模型相关的问题，在社会、学术界和行业中存在不同的观点和认知。我所提到的只是其中一种观点。

在机器人的感知中，存在一个长期问题，即边角场景（corner case）及分布外（OOD）泛化性问题。对于常见场景，如果有大量的数据进行充分训练，算法可以很好的识别。但对于罕见的场景、意外事件或常见情况的变体等，情况就变得更加困难。

举个例子来说明，之前在台湾花莲发生的一起事故中，一辆小型货车翻车，车顶朝向特斯拉车辆。特斯拉的算法在训练过程中可能见过许多不同角度和形态的车辆，但可能从未见过或很少见过车辆翻倒后以车顶朝上的状态。因此，算法无法识别它并避免碰撞。这就是边角场景（corner case），也就是这种情况。

之前在感知领域很难处理这种情况，有一种观点认为，这涉及到常识、常识世界模型和常识推理的概念。在算法中，我们可以将整个世界及其规律比作一片巍峨的山脉，而算法训练的数据可能只是其中一个小山包，而无法看到小山包之外的东西。然而，在某些情况下，小山包之外的东西可能会影响任务的执行。

从我的视角来看，大模型实际上提供了对整个山脉地形的高阶抽象信息，而不是具体的地理数据。这些抽象信息基于自然语言和符号进行训练。例如，当我们看到一辆车时，它有数百万、数千万甚至数亿个像素点，这是基本的数据。但是当我用几个字母"car"来描述时，这就是自然语言的描述，是对信息进行高度压缩的表达方式。在这种信息层面上，模型对几乎所有人类所见过的东西都有了了解，可以构建出关于世界和知识结构的模型。因此，大型模型的辅助可能显著提高感知图像的泛化性，解决边角场景（corner case）、OOD泛化性问题。这就有点像从感知到认知的过程，将基本数据与高度抽象的信息和知识结合起来。

具体而言，当这两者相结合时，对于解决边角场景（corner case）、OOD泛化性问题，会带来一系列的好处。例如，感知的可靠性将得到显著提升，无论是目标检测和跟踪，还是更复杂的语义分割等任务，其准确率都可以大幅度提高，甚至可能颠覆传统认知。我注意到已经有一些学者和企业正在尝试类似的项目，我们也在进行相关的研究。

第二个可能是拓展感知的范畴，例如不仅限于简单的单帧图像感知任务（如目标检测和追踪），而是针对视频或更复杂的行为，这些行为涉及更强的相关性和复杂性，例如复杂行为识别。在这种情况下，大型模型的辅助可能显著提升感知行为层面的准确性。这只是引发讨论的一些初步想法，欢迎批评指正，谢谢。

毕盛：我想简要谈谈我对此的感受。最近，我们对多模态领域特别是视觉语言导航（Vision Language Navigation）这个研究方向产生了浓厚的兴趣。这个方向目前非常热门，我们也已经投入了一段时间的研究工作。从理论角度来看，我们更倾向于进行工程方面的研究，将研究成果应用到实际场景中。因此，我们参考了一些国外顶尖团队的方法，并尝试将其应用到我们的研究中。

然而，我们遇到了一些问题，这可能与模型的通用性有关。数据集在深度学习人工智能研究中是一个重要的挑战。解决数据集问题对于取得良好的研究结果非常关键。在选择数据集时，我们参考了李飞飞老师等团队在这个领域的工作，并借鉴了他们的论文。他们提供了一个仿真环境用于模型的训练，其中训练数据集主要涉及智能家居和家庭场景，例如沙发、桌子等。他们的目标是通过语言指令实现机器人在家庭环境中的导航。我们进行了一些实验，使用他们提供的仿真模型进行训练。

然而，如果我们希望真正实现应用，就需要使用真实的训练数据。因此，我们购买了三维扫描相机将房间的场景扫描成三维图像。我们在实验室周围的场景建立了3D模型，并将其导入到训练好的模型中进行测试。然而，初始效果并不理想，路径规划并不准确。

我们发现实验室的场景与家庭场景存在差异，因此我们不得不寻找一个类似家庭场景的地方。最终，我们找到了一个实验室的一楼大厅，其中有沙发和桌子。我们首先建立了该地点的地图，使用三维扫描相机将整个房间的三维图像扫描出来。在这个场景中，我们成功地进行了导航。例如，当给机器人下达指令时，我们可以告诉它沿着沙发走到某个地方，或者沿着玻璃门走到门口。机器人会生成一条路径。然而，在机器人按照路径行走时，它不能完全依赖视觉，而是完全依赖深度学习。我认为，视觉导航在模糊的环境中是可行的，但在精确的场景中仍然存在困难。因此，我们结合了视觉和激光的方法。我们将环境分成许多网格，在每个网格点上使用视觉信息，但在点与点之间的行走方向上使用激光。然而，这需要进行一些标定和实验。尽管成功率并不是特别高，大约在60%到70%左右，但我认为这样的效果对于研究来说是可以接受的，但在应用方面还需要进一步努力。

我认为，现在有了更大的模型，将来在这方面可能会有更好的表现。在视觉语言导航方面，我对理论的了解一般，我们主要是借鉴其他团队的方法，并尝试将其实际应用。他们主要在仿真环境中进行数据集测试，使用的都是大型模型。实际上，我们主要使用他们训练好的模型进行部署。这是我的感觉，同时也觉得随着ChatGPT的发展，随着模型规模的增大，机器人将能够像人一样通过经验来穿越复杂环境。

我觉得这是有可能实现的，虽然我不确定现在是否已经实现了，可能有一些专家可以给我们提供一些建议，这是我的观点。同时，我也认识到，无论我们在深度学习方面做得多好，实际上在避障和导航这样的精确运动方面，深度学习的结果并不理想。因为深度学习更适合做意识形态判断，而在精确场景中，感知传感器仍然是关键。人类在穿越狭窄空间时并不需要精确的距离感，但是机器人通过激光传感器可以准确地测量与障碍物的距离。然后通过感知来完成穿越。人类则凭借经验来穿越，不需要知道靠近障碍物的具体距离。

我认为这也是因为模型训练数据量的限制。所以，我们目前通常是结合感知和认知来处理这些精确运动。此外，我认为在机器人研究方面，任务级规划给我们提供了很好的思路。以前我们主要研究路径规划和导航等相对简单的任务，机器人在这方面做得很好，只要环境是固定的，机器人表现得很好。但是，当环境复杂时，问题就比较棘手了。但是，现在随着大量数据的可用性，机器人能够更好地在复杂环境中切换任务，并灵活调度执行任务的场景。也许在一些复杂场景下，可以取得更好的结果。但是这需要大模型和大数据的支持。这只是我的一种认识，我们还没有在这方面取得进展，只是期待OpenAI等机构在大模型的发展方面能够带来新的突破。

桑煜：感谢毕老师还有岳老师的精彩回答。有一种观点认为大模型压缩了互联网上的信息，压缩信息、寻求信息高效表征的最终结果是产生了像人一样的抽象理解和思维链能力。这个能力如果用得好，我相信机器人不用那么依靠精确的传感器，而是用边走边看的方式进行感知和导航，在corner case的处理上会有很大的进步，也给我们场景端带来了很大的想象空间。所以这个场景端的问题抛给严总，你们现在聚焦在建筑场景，如果机器人+ AGI 的技术再往前走一步，你们现在遇到的哪些客户的痛点需求，有可能是能够有一个质的变化去实现的？

严启凡：是的，刚才你也提到了类似思维链的概念。实际上，我一直很难理解思维链是什么。对于人来说，思维链可能就是逐步将事情完成的一种逻辑思维过程。现在我们认为人工智能也有这种趋势，它也可以逐步进行推理，当然可能需要人类提供一些提示或所谓的步骤。所以我在思考，我还没有弄清楚它是否是一个真正的思维链，还是只是类似于我们平常编程的一步一步操作。比如，如果我要写一个算法，我会先列出数学公式，然后逐步进行转换成算法的步骤。

现在机器人面临的一个问题是，它的任务需要提前规划。可能我们需要预先导入地图生成路径，并将整个规则告诉机器人，让它按照规定执行任务。比如，作为一个兼容机器人，我可以告诉它沿着墙壁顺时针方向完成施工，并询问它是否需要处理门窗等问题。

这种交互方式可能比之前预先生成整个路径进行施工更加人性化，也更加方便和便捷。我认为这是一个很好的方向，基于目前的情况，而且像感知、决策规划、控制和驱动等方面，人工智能在感知和控制角色上有着巨大的前景，令人兴奋。但是在控制和驱动方面，机器人还存在很大的差距。特别是机器人，因此我们对多模态模型感到兴奋，因为如果有一天它真的将嗅觉、触觉等所有模态整合起来，那将非常有趣，我们真正能够像人一样感知所有信息。不过，这方面可能需要更长的时间，我们也希望未来的发展能够实现这一目标。因为这方面的数据收集并不像文本或图像数据那样容易，我可以在互联网上轻松找到大量这样的数据，然后回来工作学习。所以对于机器人行业来说，实际落地可能会遇到可预见的可操作方向和困难。

桑煜：几位嘉宾的从业经历中接触过服务机器人、工业机器人和自动驾驶等等。你们觉得会因为AGI带来哪些变化？有没有一些新的场景、新的功能会出现？

岳玉涛：对于新场景，我个人最感兴趣的是数字伴侣和数字永生。

之前有很多公司都做这类项目，但它的体验可能并不理想，现在大模型技术使得各种可能性变得很大。我觉得数字伴侣是满足人们的刚性需求的一个方向。现在技术上已经可以做出一定程度的虚拟人物，或者像刚才嘉宾提到的一些文学作品中的角色，比如杨过等。

另外一个场景是数字永生，它涉及到智能、思维、记忆和意识的数字构建和存续。这本来是个非常科幻的话题，最近我们组织了一个小圆桌讨论，有来自人工智能、神经科学、信息科学、物理学、哲学等不同领域的人参与，得出的初步结论是数字永生已经到了可以在技术层面上严肃探讨的程度。其中涉及到几个非常有意思的方面，例如为什么这种场景现在实现的可能性变得更高了，这是因为我们对人的智能和意识有了更深入的理解。人的大脑有860亿个神经元，它们之间存在连接。当外部感官刺激进入大脑时，不同的区域会被激活，如果这些区域形成广泛的交互，就会产生意识的体验。我们知道可以使用"系统1"和"系统2"来描述人的思维模式，系统1是一种简单的响应模式，而系统2是一种基于结构化知识的分析和逻辑推理模式。在机器学习层面上，如何实现类似“系统2”的智能，我个人认为这是最具颠覆性和突破性的问题，也是最难解决的问题之一。

大模型通过从海量数据中构建知识和知识之间的结构来解决了这个问题。如果你反过来问，为什么人会说AI可以做一些事情但不理解这个词的意思是什么？为什么会有理解和不理解之分？在心理学等领域有很多研究。我们观察到在语言模型中，这种知识和知识性的结构形成了一种层次化的理解能力。虽然具体的形成机理至今还是个谜，但现在已有若干证据和研究表明，代码训练可能是大模型产生这种能力的过程，大模型中某个（或某些）特定的神经元担任特定的知识节点或推理功能。然而，如果我们真的进入数字永生的场景，我认为可能会面临的几个主要技术挑战：

一个是记忆，即如何提取已存在于大脑中的记忆信息，并将其转化为模型的训练数据和输入，这可能是一个较大的挑战。

另一个是结合多模态实时感知的模型，比如把接收到的感知信息进行压缩、处理和抽象等可能问题并不大，但不管是记忆信息还是实时感知信息，让这个模型的行为表现在性格、习惯、思维方式及相应的学习更新能力上与其原型真人高度吻合，是一个很大的挑战。

第三个至于拟人化的意识体验，即如果你是一个数字永生体，你可能会感觉自己仍然是自己，仍有意识体验，只是某些方面的感觉可能会有所不同。我相信这种意识体验在技术上完全可以实现。

总之，这两个场景，数字永生以及虚拟伴侣，是目前大模型应用层面上最令我兴奋的两个点。

毕盛：在机器人领域，多模态的大型模型是一个热门的话题。然而，在我们实验室进行导航时，我们面临着较高的失败率。我认为，如果我们能够进一步丰富VR细分模型，无论是在实验室还是家庭等各种场景，我们都能够实现更好的导航效果。这对我来说是一个非常有趣的点，因此我认为大型模型能够使机器人更具灵活性，能够更好地适应复杂的生活环境，这一点非常重要。

另外，在工业机器人领域，以前需要对机器人进行精确的标定。例如，当机器人需要抓取瓶子时，它必须能够正确识别并抓取瓶子。然而，如果机器人具有一定的意识，对于服务方面，它需要更好地理解复杂的环境。举个例子，如果一个瓶子中的水已经被喝了一半，而我不在场，机器人可能需要将瓶子扔进垃圾箱。下次再有人需要使用时，因为水没有被动过或喝完，机器人可能会根据以往的经验进行相应的处理。此外，这种情况不仅仅局限于水，将来可能还会出现其他类似的情况，比如樱花茶、矿泉水等各种物品，机器人都能够识别并正确处理。并且，在抓取机器人的位置时，它知道如何将水放置在相应的位置。我认为这种情况类似于人类的行为。举个例子，如果我来清理桌子，我可能会考虑将水放在哪里，可能没有人告诉我，但基于以往的经验，我可以处理这个任务。

我认为，如果机器人能够实现这种意识，它将能够更好地为人类提供服务，而大型模型为这种可能性提供了支持。在工业领域，尤其是柔性装配等需要灵活性的领域，机器人是不可或缺的。正如您所提到的，柔性装配的标定是一个挑战。在这种情况下，机器人需要具备自适应和个性化的能力。而服务场景更是如此，因为服务场景涉及与人的互动，因此具备千人千面的特性将得到充分发挥。此外，岳老师还提出了一个更高层次的问题，即未来人类与机器人之间的人际关系，以及未来社会的发展方向。这个问题在伦理层面上也值得我们深入探讨。

桑煜：刚才大家也多次提到了数据的问题，机器人数据应该如何收集，收集哪些？。如果我们希望实现相对泛化的应用场景，可能还需要跨越多个领域进行数据收集，这并不容易。我想向大家请教一下，是否在工程和科研方面已经出现了一些解决方案来应对这些问题。

岳玉涛：我有两个观点。首先，我认为大模型实际上在很多情景下缓解了对数据的需求量。大模型的基础层被称为基座模型或基础模型，它是一种跨模态预训练模型。通过将大量信息和知识嵌入到这个模型中，我们可以在此基础上执行特定的下游任务，并满足训练所需的数据和质量要求。相比之下，如果基于这个基座模型来训练下游任务，所需数据的规模和质量要求可能会小得多。这是第一个观点。

第二个观点涉及数据方面的我们自己的体验。我们发现跨模态的问题变得越来越清晰和重要。例如，我们可以进行跨模态的标注，并应用一些数据增强技巧，以更好地使用这些数据并实现目标。

似乎直到出现了基座模型和ChatGPT等技术，大家才意识到不同模态之间的信息共性是如此强大。以GPT-4的非多模态版本为例，它是在所有训练数据都是文本和符号的情况下训练出来的，但可以执行一些代码段，绘制出图形如独角兽、房子和狗等。也就是说，在文本模态中，已经蕴含了相当的空间概念和几何概念，实际上可以对应到视觉模态或其他激光雷达等模态的信息。

因此，在某些情况下，例如对于难以采集或标注的雷达数据，我们可以进行跨模态的标注，比如利用视觉结果来标注雷达数据。我认为这种方法可以对数据起到一定的帮助作用。

严启凡：这个问题涉及到我们在建筑领域中的管线。实际上，在施工环节中，这种场景的数据相对较少，因为大部分数据可能是在家庭建设完成之后产生的。由于这个领域相对较小众，我们可能需要自己进行一些详细的标注和采集工作。然而，我刚刚听到岳老师提到的一点，大模型的基座模型实际上减少了对数据标注的需求量。因此，我们可以利用更多的小样本来实现这一点，因为一些知识结构已经存储在基座模型中，包括迁移的方式。我们可以结合大模型的基座模型来实现特定的小众场景数据，并减少对数据的需求量。

我认为这对我们来说是非常有意义的，因为我们目前确实面临这样一个问题，我们作为一家小公司，无法承担如此高昂的成本来获取丰富的场景数据，而大模型的基座模型对我们来说确实是一件非常有意义的事情。

第二个问题是关于仿真。我个人认为，仿真现在应该能够解决百分之八九十的问题，但要做到精细保证的成本非常高。所以，并不是说我们无法实现1比1的数字仿真，而是成本太高了。在实际场景中，我的车轮可能会打滑，受到光线干扰等等。但是，要精确建模这样的场景并保证细节，代价很高，或许可以考虑大模型是否能提供一些解决方案。因为我还没有仔细思考过，所以还需要进一步探讨。

桑煜：严总的回答也体现出了机器人公司在应用场景落地的一些商业思考，考虑成本，考虑怎样是整体优化的解决方案。我接着引出下一个相关的问题，机器人很多时候对关键任务上的延时要求非常低，这其实跟大模型的本身会有一些冲突，大模型大在参数量，需要用更多的内存、更强的算力，往往不符合机器人应用的低功耗原则。这也是机器人+AGI落地的一个难点。请教一下大家看到了哪些技术上、工程实践上的解决方法。

严启凡：我先讨论一下最传统的做法。至于如何使用大模型来解决这个问题，或许我等一下可以听听两位老师的看法。在传统的机器人系统中，我们也面临实时性和计算能力的要求。实际上，这个系统是分层的。刚才也提到了在机器人系统中，基本上可以从感知、决策、规划、控制和驱动等几个大方向进行分析。

对于控制和驱动方面，它对实时性的要求比较高，而对于规划方面的要求则相对较低，只需一些嵌入式的系统就可以实现。因此，在操作时，我们基本上会对这两个方面进行分离。

对于实时性要求较高的部分，我们会赋予其在实时核心上运行的权限，无论是从硬件架构还是软件架构上都会进行分层。而对于感知方面，其规划要求并不高，它可能会运行在更高计算能力的架构上，以弥补这种分层的趋势。但未来如果真的想将大模型的能力赋予机器人系统，可能还需要依靠从事基础工作的研究人员，他们可以压缩模型、进行量化处理，或者减小模型的体积，使其能够在本地端或云端运行，同时确保带宽足够大。这可能需要研究云基础设施或模型基础设施两个层面的人员来考虑。我们希望能够坐享其成，只需使用一下即可。

毕盛：近年来边缘计算在技术领域备受关注，人们希望将边缘计算应用于机器人。在过去的十年中，我们主要在手机处理器单元（MPU）层面上进行边缘计算的开发，涉及了许多模型部署，例如活动检测、Lite等。而近年来，我们开始在单片机上进行深度学习研究，我也在一个小型的单片机上运行了一个较小的深度学习模型。然而，我认为这些深度学习模型应该是相对较小的。过去，我们在MPU层面上的开发主要是基于移动网络，例如谷歌的MobileNet等框架。国内的一些公司也在进行类似的工作，这是七八年前的事情了。现在，我们有了MCUNITE这样的技术，他们实现了很多数学化和理论化的抽象，以提取关键内容并实现稀疏性搜索。他们在压缩裁剪和剪辑MCU相关网络方面有很多数学知识。由于我们也使用了一些现成的网络模型，所以在机器人端，我们首先从计算端开始，从单片机到MPU，再到云端加速卡，都有计算的解决方案。

实际上，我们有计算方案，但关键是在机器人端，可能需要进行一些切分。正如严总刚才提到的，我们在运动过程中使用单片机进行基层开发，甚至使用实时操作系统，如主ITS等。在控制机器人运动时，我们需要确保任务切换的延迟在七八毫秒内，这样才不会出现问题。因此，我们将一些角色层面的功能放在应用层上，就像刚才严总所说的那样，感知和认知都在利用CPU，但操作系统层面上的虚拟地址管理单元（MMU）和内存管理单元（MIU）并不理想。以前有一些实时操作系统，如Webworks，但使用起来成本较高，对我们来说是个挑战。以前的工业机器人通常使用这种系统，可以实现工业实时控制，但现在单片机的频率已经提高到700兆赫兹、800兆赫兹甚至878百兆赫兹。所以没有必要再使用那种操作系统了，我们可以直接采用较小规模的Preempt-RT系统。然后在决策层面上，即开发层面，包括决策和感知认知，虽然在应用层面上有一些不足，但实际上也可以实现一定程度的边缘计算需求。

当然，我认为需要进行一定的切分。例如，对于大型模型，即使进行了压缩，要在真正的MPU层面上运行仍然非常困难。因此，如果你是处理超大型模型，可能还需要考虑边缘端和云端的划分。在机器人任务中，例如在机器人导航过程中，我建议无论模型大小如何，都让它在边缘端进行运算。不要将边缘计算与云端协同，因为如果网络中断，机器人将无法工作。

但是在一些角色指导方面，例如在机器人导航过程中，他可能需要意识到环境的某些变化，我认为在这种情况下可以与云端进行通信。例如，当环境发生变化时，可以使用大型模型进行环境识别，然后根据不同的环境切换导航方法。因为我认为不同环境下的导航方法是不同的，特别是对于非常深的走廊场景。

在这种情况下，使用激光定位可能不太适合，而应该使用回环检测，让机器人能够知道自己是否在原地。我认为环境感知是一个很复杂的问题，但根本上不需要进行定位，只需向前运动即可，进行相对定位，沿着墙壁前进。但是当机器人离开该环境并进入另一个环境时，它可能需要切换任务。那么，如何认知环境的变化呢？在这种情况下，可能需要与云端进行通信，使用大型模型进行环境感知。因此，我认为在机器人导航过程中，不要切分导航过程本身，这时候应该进行边缘计算。但是在切换环境时，应该转向云端计算，所以需要有一种结合的方式。这是我个人的观点，我认为这个领域还有很多挑战等待解决。

岳玉涛：我可以分享一点关于神经网络剪裁和轻量化的观点和实践经验。请设想我手中拿着一个球，并将其扔出去，球落到某个地方。球的轨迹可能是非常复杂的，需要大量的数据和坐标来描述，尤其是从古代人的角度来看，他们不知道这种轨迹，需要使用复杂的坐标系统。然而，现在我们知道了牛顿的第二定律——F=ma（力等于质量乘以加速度），这个简洁的公式足以非常精确地描述整个轨迹。这表明在很多情况下，简约性是存在的，即使用很少的元素就能够描述复杂的现象。这个原理在神经网络中得到了证实，传统的许多网络具有很高的稀疏性。

举个例子，假设我们有一个准确率为95%的模型，该模型有100万个参数。通过剪裁，我们可以剩下5万个参数，甚至在某些情况下，只剩下1万个参数，然后再执行同样的任务，准确率可能只降低1到2个百分点。也就是说，即使剪去了大部分参数，模型仍然可以基本上执行原始任务。在这个过程中，一个关键的问题是如何进行剪裁，即选择哪些节点和层进行剪裁。在这个过程中，我们需要找出哪些节点能够保持原有的特性和能力。这方面的方法非常多样，但有时候其实非常简单的随机剪枝这种方法反而效果更好。

在我们的探索中，我们采用了一种称为量化因果的方法。通过量化从一个节点传递到下一个节点的因果关系，在执行矩阵乘法和其他运算的过程中，如果因果关系比较强，我们就保留该节点；如果因果关系比较弱，我们就剪裁掉该节点。这种因果关系是可计算的，可以用信息领域的方式进行度量。根据这个依据进行剪裁时，我们发现在许多场景下，这种方法优于其他剪裁方法，尤其是，这种方法具有很大的鲁棒性，可以适用于各种不同的网络。之前的情况可能是某种剪裁方法适用于某个网络，另一种剪裁方法适用于另一个网络，但我们的实践表明量化因果的方法可以适用于多种不同的网络。以上是我们自己进行的一些小实践，希望能对您有所启发。

桑煜：刚刚我们讨论了很多关于严肃场景和技术的问题，接下来这个问题更偏向于人类社会的终极畅想。通用智能的机器人是否会出现，需要多长时间？目前，人与机器的相处方式相对和谐，但有一天，是否会出现像《黑客帝国》中机器人与人类对立的情况？

严启凡：我认为这个过程实际上是相当遥远的。正如我之前所提到的，目前在文本和图像等领域，我们已经取得了突破，但在例如嗅觉以及其他更多的多维、多模态方面，我们还没有看到明确的发展路径。

另一方面是关于能源消耗的问题。机器人显然可以比人类更强壮、更有益，具有更大的能量。如果我们能够实现可控核聚变，这种能量是可以实现的。然而，在计算能力方面，大家应该也都听说过，人脑只有约10瓦的功率，可能每天吃一碗饭的能量就足够满足它的需求。但是如果要处理大型模型的大量海量信息，实际上就会面临一种奇怪的状态。

因此，我一直认为神经网络只是一个网络，我不知道它与真实的神经系统有什么关系。人脑的神经似乎具有自己独特的工作机制，不能仅仅依靠一些简单的梯度算法或类似方法来实现这样的网络。所以，对于这个问题，我觉得它还是相当遥远的。这就是我的看法。

毕盛：我个人认为，在设计机器人时，我们有机器人的三大定律，其中第一条定律规定机器人不能伤害人类，机器人必须听从人类的指令，而第二条定律则约束机器人必须保护自己，除非这种保护与第一条定律产生冲突。然而，我不确定这些定律是否真正能够限制机器人的行为，也无法确定其能否完全约束机器人。

目前人工智能的发展确实很迅速，尽管我并不从事人工智能的前沿研究，很难对其进行准确评估。一些权威机构和一些顶尖人士，如OpenAI的专家们，提出了一些关于人工智能的危险性的观点。但是我们也无法进行准确评估，就我个人而言，对于像严总所持的观点，认为人工智能没有机器人那样的智能，我觉得有些草率。然而，在人工智能领域，我们也无法准确评估其发展到何种水平。

我认为，随着大型模型的应用，我们将能看到机器人在不同层面上发挥其功能。对于这种情况，我个人无法给出确切的确定性，只是觉得人工智能能够帮助人类更好地生活，这已经是很好的了不是吗？

岳玉涛：谈到机器人的三大定律以及能否控制机器人的问题，我认为无法控制机器人，这是因为存在一个基础概念，即计算不可约性。当一个系统的复杂性超过一定程度时，总会存在一些状态，超出计算能力的范围，即无法涵盖的状态。因此，对于这个问题，我个人认为无法控制机器人。

关于桑总提出的问题，就像科幻作品中的机器人一样，我个人预测实现机器人的时间期望值是20年，标准差是10年，大致范围是10至30年。为什么会这样呢？有些人认为进展很快，尤其是大型模型已经非常强大，但也有些人持悲观态度，认为还有许多问题没有解决。我相对而言比较中立，认为大型模型未来的发展面临三个半关键问题需要解决。

首先是多模态感知和物理世界的交互闭环能力。虽然GPT4已经有了多模态版本，但具体的效果如何，我们目前还没有明确的了解。况且，目前的大模型突破仍限于信息世界的模态。我认为，一旦多模态感知与物理世界发生交互，实际上这个挑战是相当大的。解决这个问题可能需要更长的时间，而不是三五年的时间。这是第一个问题。

第二个问题是任意多步逻辑推理。之前的旧版本如GPT-3几乎没有逻辑推理能力。从去年11月30日发布的版本开始，逻辑推理在两三步以内的准确率很高，但超过两三步、四五步后，错误率就显著增加。到了GPT-4版本后，它在五六步、七八步的独立推理方面的准确率还是相当高的，但再复杂一些就无法处理了。这其中存在一些底层的限制和问题导致了这种现象的出现。

例如，自回归的方式和逐个生成令牌的方式限制了它的复杂逻辑推理能力，或者称为任意多步逻辑推理能力。就像人类解数学题一样，个人也会犯错，但人类有一套逻辑推理体系，可以进行反向检验和相互校验，建立了现在这样高水平的科学技术体系，这些都建立在严密的逻辑推理之上。如此复杂的体系，人类可以建立起来，但GPT尚未达到这个程度。

第三个问题是自主训练和自主学习。目前的训练方式是针对一个版本进行训练，然后将其固定下来。它只能在输入的令牌集合内具有类似于短时工作记忆的能力，有一些灵活性。但实际上它无法自我更新，除非人为地使用新的数据集进行再次训练。而人类可以在观察和学习的过程中不断更新大脑中神经元之间的连接权重，这是同时进行的。与我们现在的GPT训练方式基于反向传播的梯度计算来更新不同，人类大脑没有反向传播。所以，这是第三个限制，即自主更新学习。

最后，还有半个问题是意识的问题。有人认为它是一个终极难题，但我个人觉得它只能算是半个问题。更多的问题反倒在对“意识”这个概念的定义和理解的模糊性上。如果我们将意识所表现出的各种行为以及意识机制中的几个构成要素拆解开来看，我认为现有的技术就几乎已经能够完整构建出来。

因此，如果我们解决这三个半问题，我认为可能需要几十年的时间，而不是几年。同时，我对技术方面持乐观态度，相信这些问题都会被解决，虽然可能需要相当长的时间。当那种特别牛的智能体出现时，它是否会威胁到人类、是否能够约束它，这是一个更为深入的话题，可能需要更长的时间来探讨。

来源：腾讯科技

作者：周小燕、赵杨博

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章