大模型能带来通用机器人吗?
在ChatGPT和其他大模型在NLP和CV领域取得空前成就之后,机器人大模型在2023年变成很多人关注的问题。开发一个通用目的的机器人,一个能够在任何家庭或办公环境中胜任并稳健执行各种有趣任务的机器人,可能是AI和机器人领域共同的终极目标。鉴于大模型在NLP和CV领域的成功,类似的成功范式可能真的可以帮助这一目标在机器人行业实现。
但最近一段时间,随着看项目推项目,说服自己再说服别人,一系列问题一直绕着我的脑袋转:2023年具身领域智能越来越火背后的驱动力是什么?是算法上有什么突破吗?为什么做CV的人近几年很多都转到Robot Learning?堆数据的方式在机器人领域真的可行吗?LLM和VLM的进展大多在于机器人感知和决策层面,但对机器人的执行并没有很大的影响,那如何解决执行可靠性的问题呢?在机器人领域,不得不面对的是终端执行层面的短板以及对可靠性的高要求,到底大模型这个在CV和NLP领域的成功范式是否可以应用到机器人领域?
直到前几天在浏览Twitter的时候,一篇Nishanth J. Kumar的文章“Will Scaling Solve Robotics?: Perspectives From Corl 2023”(通过在非常大的数据集上训练大型神经网络是否是解决机器人问题的可行途径?)直击我的一系列问题,我也迫不及待地将这篇文章翻译出来分享给大家。
这篇文章的主要内容来自于CoRL2023一个Workshop:Deployable@CoRL2023的一个辩论环节。辩论参与者都是Robot Learning和机器人控制领域的大佬(有的要称为巨佬)。这个辩论的议题是:Is scaling enough to deploy general-purpose robots?(大模型方法是否适用于机器人行业?)正方辩手:Sergey Levine@UCB,Chealse Finn@Stanford,Russ Tedrake@MIT;反方辩手:Stefan Schaal,Scott Suindersma@BD以及Emo Todorov@UW。主持人:王小龙。
考虑到易读性的问题,在听了两遍视频内容的基础上,我对Nishanth J. Kumar的原文做了一些再编辑,感兴趣的读者可以在reference部分找到辩论的Youtube视频和B站视频以及Nishanth J. Kumar的文章链接。
1.辩论参与者的简介
2.正方观点
3.反方观点
4.其他相关论点
5.一些想法
1. 辩论参与者简介
认为大模型方法可以在机器人领域奏效的正方辩手都是Robot Learning领域的大佬:
Sergey Levine目前是UC Berkeley电气工程与计算机科学系的副教授,同时是RAIL(Robotic AI&Learning Lab@BAIR)实验室主任。除了在Berkeley的教职,Levine也是Google Brain的研究员,他也参与了Google知名的机器人大模型PALM-E,RT1和RT2。他在UC Berkely完成了计算机科学博士学位,师从Pieter Abbeel。
Chelsea Finn是Stanford计算机科学与电气工程系的助理教授。她的实验室IRIS通过大规模的机器人互动研究智能,并与SAIL(斯坦福人工智能实验室)和ML Group(机器学习团队)有合作关系。他还在谷歌的Google Brain团队工作。她对机器人和其他智能体通过学习和互动来发展广泛智能行为的能力感兴趣。他在UC Berkely完成了计算机科学博士学位,师从Sergey Levine,本科毕业于MIT。
Russ Tedrake是麻省理工学院(MIT)的电气工程与计算机科学、航空航天学以及机械工程的教授,是计算机科学与人工智能实验室(CSAIL)机器人中心的主任,也是MIT团队参与DARPA机器人挑战的领导者,是MIT Robot Locomotion Group的负责人。Russ还担任Toyota Research Institute (TRI) 副总裁。Russ于1999年在密歇根大学安娜堡分校获得计算机工程学士学位,并于2004年在MIT获得电气工程和计算机科学博士学位,师从Sebastian Seung。Russ Tedrake在控制领域有很多工作,近些年,他的主要研究兴趣在于把系统理论的方法应用到操控机器人上。
认为大模型方法无法直接应用于机器人领域的辩手大多是机器人控制理论和基于模型控制领域的大佬:
Scott Kuindersma是波士顿动力公司的研究科学家,也是Atlas团队的负责人。此前,他曾是哈佛大学的工程与计算机科学助理教授,是Harvard Agile Robotics Lab的主任。他曾在MIT的Robot Locomotion Group进行博士后研究。他的工作重点是利用最优控制算法在移动机器人中实现高性能的行为。
Stefan Schaal是一位德国/美国的计算机科学家,专攻机器人技术、机器学习、自主系统和计算神经科学。他曾担任USC计算机科学、神经科学和生物医学工程的教授,同时也是德国马普所的创始所长。Stefan Schaal提出了DMP方法,在机器人学习领域有很大的影响力。这位是基于模型控制领域的巨佬。
Emo Todorov是UW运动控制实验室的副教授兼主任,他引入了最优控制作为生物运动的正式解释框架。他是MuJoCo物理引擎的主要开发者。Emo Todorov在MIT完成了他的博士学位,曾在UCL的盖茨比计算神经科学单位做博士后研究,他是2004年斯隆神经科学奖学金的获得者。重点是开发更强大的最优控制方法,并将其应用于更难的问题。他的研究重点是对动物和机器人的复杂运动控制,开发更强大的最优控制方法。
2. 通过在非常大的数据集上训练大型神经网络可以解决机器人问题(正方观点)
Scaling在CV和NLP领域被验证有非常好的效果,那么在机器人领域也同样可以取得好的效果:Chelsea Finn指出,最近,通过在极大的数据语料库上训练大型模型,取得了前所未有的惊人效果以及“涌现”能力,GPT4-V和SAM这样最新模型的效果有目共睹。训练大型模型的基本方法是通用的,它并不是针对NLP或CV领域独有的,既然它被证明在一些领域有效,那么它理应对其他领域(比如机器人)也有效。
目前已经有很多进展可以证明Scaling在机器人领域很可能会有效:Chelsea Finn提出DeepMInd近期的RT-2工作,可以证明单一模型在大量机器人数据上训练可以得到泛化能力;Russ Tedrkake指出最近的Diffusion Policies论文也显示了令人惊讶的能力;Sergey Levine指出他的团队在构建和部署导航用途的机器人通用基础模型方面取得了不错的进展。虽然这些工作都比较初期,使用相对较小的模型和相对较少的数据进行训练(和GPT4比),但似乎有些苗头是扩大这些模型和数据集会指向更好的机器人学习结果。
数据、算力和基础模型的进展是机器人行业应该抓住的浪潮:这里的主要思想来自Rich Sutton的一篇很有影响里的论文:AI研究的历史表明,相对简单、能够随着数据规模扩大的算法总是胜过那些复杂却无法随数据规模扩大的算法。Karol Hausman在早期的职业演讲中提出的一个很好的类比是,对数据和算力的改进就像一场浪潮,这是技术进步的结果。无论人们是否喜欢,都会有更多的数据和更好的算力。人们可以选择顺应这场浪潮,也可以选择忽略它。对机器人行业,顺应这场浪潮意味着利用在NLP和CV领域已经取得成功的大规模预训练这套方法用于机器人任务。
大型模型是机器人获得“常识”能力的最佳途径,而这种能力贯穿整个机器人学:Russ Tedrake还提到了一个观点,“常识”几乎贯穿了所有的机器人任务。以一个例子来说,想象一下一个机器人的任务是将一个杯子放到桌子上。即使忽略寻找和定位杯子的困难,这个任务本身也充满了许多微妙之处。如果桌子上一团糟,机器人必须先移动其他物体以腾出空间。如果杯子掉到地板上,机器人需要捡起它、重新定位,并将其放回桌子上。如果杯子里有液体,机器人还必须小心,以免它洒出来。这些看似小问题实际上经常发生,而且它们通常是任务成功与失败之间的关键因素。通过在大量数据上训练大型模型,我们可以使机器人具备这种“常识”推理的能力,从而更好地完成各种任务。
3. 通过在非常大的数据集上训练大型神经网络无法解决机器人问题(反方观点)
虽然关于将Scaling作为解决机器人问题的实际方案的争论有很多。有趣的是,几乎没有人直接否认将这种方法应用在机器人领域,理论上可能奏效。相反,大多数论点可归结为以下两种情况之一:(1)认为这种方法在实践中简直是不切实际的,以及(2)认为即使它确实有点奏效,也不会真正‘解决’机器人学。
(1)认为这种方法在实践中简直是不切实际的
目前没有大规模的机器人数据,而且也没有明确的获得途径:数据问题几乎是每个大规模机器人学研究中的最大问题。互联网上有大量的CV和NLP数据,但完全没有任何机器人数据。快速收集庞大的机器人数据集需要时间、金钱和合作,即使能做到也无法与互联网上拥有的海量CV和NLP数据量相比。CV和NLP之所以能获得如此多的数据,是因为它们有一个令人难以置信的‘数据飞轮’:几十亿人连接并使用互联网。收集一个非常大的机器人学数据集相当困难,无法获得大数据集可能会使这种扩展方法在机器人领域的应用变得无望。
机器人有不同的实体:收集非常大的机器人学数据集的另一个挑战是,机器人有各种各样的形状、大小和形态。发送给波士顿动力Spot机器人的输出控制动作与发送给KUKA iiwa机械臂的动作完全不同。机器人实体的多样性意味着可能需要针对机器人的类型来收集数据,这使得上述数据收集问题变得更加困难。
机器人面对的人类环境变化极大:要使机器人真正‘通用’,它必须能够在任何人类可能希望将其置于其中的实际环境中操作。这意味着在可能出现的任何家庭、工厂或办公楼中操作。收集到所有人类生活空间的数据集似乎是不切实际的。目前的做法是只收集一部分空间的数据,其余的将由泛化来处理。然而,我们并不知道这种泛化能力需要多少数据才能启动,而且它可能也是不切实际的庞大。
在如此大规模的机器人数据集上训练模型可能会消耗大量算力:毫无疑问,训练大型基础模型是昂贵的,无论是从金钱还是能源消耗的角度。GPT-4V,OpenAI目前最大的基础模型,据称耗资超过1亿美元,消耗了5000万千瓦时的电力。这远远超出任何学术实验室目前能够承受的预算和资源,而机器人大模型训练需要消耗的算力、能源和资金可能会再次激增一个或更多数量级。谁又能最终承担的起呢?
(2)即使它在CV/NLP中效果一样,也不能解决机器人学问题
99.X%可靠性问题:Google Robotics的Vincent Vanhoucke提出了一个断言:大多数机器人学习方法无法用于任何实际任务,原因是现实世界的工业和家庭应用通常需要99.X%以上的准确性和可靠性。机器人学习算法目前尚未达到这一水平。大多数学术论文中呈现的结果最多达到80%的成功率,这和99.X%的门槛看似接近但有本质区别:从99%往100%需要的努力是呈指数级增长的,这可能需要Scaling以外一整套全新的技术。
即使在CV和NLP领域,现有的大型模型也无法达到99.X%,但这并不妨碍这两个领域已经可以有很好的应用,ChatGPT偶尔一本正经胡说八道并不会产生很大的负面影响。但对机器人行业,即使Scaling套路可以让机器人行业达到NLP行业现有成就,也不意味着机器人可以被实际部署到人类环境中。纯软件应用和涉及硬件应用对可靠性和准确性的要求有本质区别,硬件系统单次失效成本远高于软件系统,意味着对硬件系统的可靠性要求远高于软件系统。
自动驾驶行业的经验:自动驾驶汽车公司尝试过这种方法,但尚未完全成功。许多自动驾驶汽车公司,比如特斯拉,尝试通过在大量数据上训练这样一个端到端的大模型来实现5级自动驾驶,他们拥有训练模型所需的资源,资金和数据。特别是特斯拉在实际部署的10几万辆汽车中,不断收集并注释数据。尽管如此,特斯拉迄今尚未能生产出5级自动驾驶系统。这并不是说他们的方法根本不起作用,它能够处理大量驾驶情况,然而,它远未达到99.X%的可靠性。
此外,数据似乎表明特斯拉的方法比Waymo或Cruise表现得差得多,后者都使用更模块化的系统。这或许证明了大规模机器学习方法很难克服99.X%问题。此外,考虑到自动驾驶是通用机器人学的一个特殊案例,特斯拉的案例应该让我们对大规模模型方法作为机器人学的完整解决方案产生怀疑,特别是在中期。
机器人任务Long-horizon的问题:机器人的很多任务都需要经历一系列正确的动作,而这些任务通常都是长期的(Long-horizon)。比如,想要用一个机器人制作一杯茶,需要依次进行很多步骤,如烧水、倒热水、放茶包等。如果我们训练一个模型,让它根据图像输出电机扭矩指令,那么在这个简单的任务中,我们可能需要以每秒40次的频率发送扭矩指令给7个电机。假设这个泡茶的任务需要5分钟,那就需要发送 7*40*60*5=84000 次正确的扭矩指令。这还仅仅是针对一个静止的机械臂的情况,如果机器人是移动的,或者有多个机械臂,问题就更加复杂了。对于大多数任务来说,随着时间的推移,误差往往会逐渐累积,这就是为什么即使是能够生成长篇文本的大型语言模型(LLMs),也无法完全创作连贯的小说或故事的原因之一:对真实预测的微小偏差会随时间累积,最终导致在长时间尺度上出现极大的偏差。因此,即使是性能相当不错的模型,也可能在解决这些长期任务方面面临很大的挑战。
4. 其他相关论点
稳健地部署基于学习的方法
机器人领域反对基于学习的方法的一个常见论点是缺乏理论保证和可解释性。人类目前对神经网络理论知之甚少,他的运行原理是黑盒,我们不太清楚它们为什么学得好,更重要的是,我们对它们在不同情况下会输出什么值没有任何保证。另一方面,在机器人学中广泛使用的大多数经典控制和规划方法都内置了各种理论保证。在确保系统安全性方面,这些通常非常有用。
针对这一点,Sergey Levine指出,大多数控制的保证对机器人面临的任务并不是那么有用。正如他所说:“self-driving car companies aren’t worried about controlling the car to drive in a straight line, but rather about a situation in which someone paints a sky onto the back of a truck and drives in front of the car”,从而混淆了感知系统。Sergey Levine的观点是:参考自动驾驶的经验,费劲的不是车辆的controller,而是应付现实世界的复杂性。
此外,波士顿动力的Scott Kuindersma谈到了他们如何在他们的机器人上部署基于强化学习的控制器,并通过严格的模拟和实际测试获得他们所需的信心和保证。总的来说,虽然人们认为理论保证和可解释性是重要的,并鼓励研究人员继续努力研究它们,但他们并不认为学习系统缺乏保证就意味着它们不能被稳健地部署。
部署人机协同系统
Emo Todorov指出,现有成功的机器学习系统,如Codex和ChatGPT,之所以表现良好,仅因为人类与其交互并清理其输出。以使用Codex进行编码为例:它的目的不是直接生成可运行、无错误的代码,而是作为程序员的智能自动完成,从而使整个人机团队比单独操作更高效。因此,这些模型不必达到99.X%的性能阈值,因为在部署过程中人类可以帮助纠正任何问题。正如Emo所说:“人类是宽容的,物理则不是”。
Chelsea Finn对此表示基本认同,强调所有成功部署和有用的机器学习系统都需要人类参与,这可能是已部署的机器人学习系统需要采取的操作方式。在机器人领域也是类似,让人类参与机器人操作并非像在其他领域那样简单,但这可以解决机器人行业面临的99.X%的问题。
不需要收集那么多真实世界的数据来进行扩展
关于如何克服真实世界数据的瓶颈,无需实际收集更多真实世界数据的问题,其中一些人认为快速、逼真的模拟器可能在这里非常关键,在模拟环境中训练机器人策略,然后将其转移到真实世界(Sim2Real)。另一组人认为,人们可以利用现有的视觉、语言和视频数据,然后只需“撒入”一些机器人数据。谷歌最近的RT-2模型展示了如何使用在互联网规模的视觉和语言数据上训练的大型模型,然后仅在较小的机器人数据集上进行微调,可以在机器人任务上产生不错的性能。
将基于模型的控制和基于学习的方法结合起来
波士顿动力的Scott Kuindersma提到:基于模型的控制有助于学习(反之亦然)。他坚信在短期到中期内,实现可靠的现实世界系统的最佳途径涉及将学习与经典方法结合起来。一些论文探讨了经典控制和规划与基于学习的方法结合使用如何使能比任何系统单独更多的功能。总体而言,大多数人似乎认为这种“中间道路”非常有前途,特别是在短期到中期内,但在长期内,纯学习或某种暂未发现的全新方法可能是终极答案。
通过大规模数据集来扩大学习的方向
尽管有关大模型能否完全解决机器人学的各种争论,大多数人似乎都同意在机器人学习中进行大模型尝试是一个值得探讨的有前途的方向。即使它不能完全解决机器人学,它仍然可能在一些我们一直陷入困境的难题上取得重大进展。此外,正如Russ Tedrake所指出的,小心谨慎地追求这个方向可能会为我们提供有关通用机器人问题以及当前学习算法以及它们为何效果如此良好的有用见解。
不要忽视经典控制等其他方向
即使是扩展方法的最热心支持者也明确表示他们不认为每个人都应该在此工作。在同一个篮子里放入整个机器人学习社区的所有鸡蛋可能是个坏主意,特别是考虑到有很多理由相信扩展不能完全解决机器人学。经典机器人技术已经取得了相当大的进展,并导致了许多成功和可靠的部署:推动它们前进或将它们与学习技术结合使用可能是正确的方式,特别是在短期到中期。
更加关注移动操作和易于使用的系统
Vincent Vanhoucke提出了这样一个观察,即今年CoRL的大多数论文都局限于桌面操作。虽然桌面上有很多困难的问题,但当机器人移动时,事情通常会变得更加复杂,尤其是其相机视野。另外,Sergey Levine观察到LLM之所以如此令人兴奋并得到广泛采用,很大程度上是因为它们非常易于使用:特别是对于非专业人士来说。人们不必了解训练LLM的细节,也不必进行任何繁琐的设置,就可以提示和使用这些模型进行自己的任务。大多数机器人学习方法目前远未达到这一点。它们通常需要对其内部运作有相当深入的了解才能使用,并涉及非常重要的设置。也许思考如何使机器人学习系统更易于使用和广泛适用,可能有助于提高这些方法的采用和潜在的可扩展性。
更加坦率地对待那些不起作用的事情
许多机器人学习方法并未充分报告负面结果,这导致了许多不必要的重复努力。此外,也许从期望其有效但实际上效果不佳的事物的持续失败中可能会出现模式,这可能会为学习算法提供新的见解。目前没有足够的激励让研究人员在论文中报告这样的负面结果,但大多数人似乎都赞成设计出一种。
应该尝试做一些全新的东西
有一些人指出当前的所有方法,无论是基于学习的还是经典控制论,在许多方面都是不令人满意的。每种方法似乎都有一些缺点,很可能有一套完全不同的方法最终解决了机器人学,需要学界继续探索。
5. 一些感想
最近大半年,中国创投圈、机器人产业圈、学术圈都处于主动或被动亢奋状态。投资人圈:在2023年仅有的几个赛道里,具身智能无疑是最热门的赛道。曾经的文娱、消费、Web3投资人争相出手,火急火燎贴上具身智能标签,各种所谓“水下”项目流窜在投资人的微信和短会里;机器人产业圈:一个2022年还在谷底的行业,到了2023年坐过山车一样来到了风口浪尖,一些反应快的,已经迅速华丽转身具身智能或人形机器公司。学术圈:要说这波风口里,最“遭殃”可能是清华、北大、上交的助理教授们,听说有投资人在清华门口某咖啡馆,冲了5万块的会员卡,专门约教授;甚至远在北美的Robot Learning领域的学者也时不时被国内投资人轮番约聊,当然,我也是其中之一。
当然,不同背景和知识体系的人相互交流是件好事,信息和知识的流通可以让大家对通用机器人可行性和可能性的认知进一步对齐。但在这有点浮躁的现阶段,早期投资的模糊正确要怎么寻找?看的好的团队,估值都很高;谈到落地场景,又是一声叹息;当然还有推项目内部会遇到的各种问题。在连着一个月每周出差,当天来回式的出差之后,身心俱疲的投资人还是决定做回公众号主理人。
在看待通用机器人这个大方向,我有一个非常坚定的观点是,学术界和大企业可以不对终端产品的交付负责,但作为创业公司,如果没有机器人终端交付的思维,是无法生存的。机器人本质上是一个蓝领,他的价值来自于他对特定任务的完成。如果一个创业公司,一味描绘他在算法上有多牛,而忽视硬件和系统整合能力,缺乏产品交付视角,那注定无法在机器人行业成功。
在达到通用机器人的道路上,还有诸多科学问题没有解决,它并不是个两三年内可以看到的东西。我们梦想的那个Robot在成为现实之前,首先它得先是个机器人,然后才有可能成为一个通用机器人。什么意思,具身智能决策-感知-执行,三个环节现在最大的短板不是决策和感知,而是执行,涉及到机器人执行,得去一个个场景的啃,没有细节的交付能力没有客户愿意为产品买单。硬件在场景解决上的容错率很低,这个可能是涉及硬件的AI和纯软件AI最大的区别。
这波机器人的浪潮,所有人的目标都是通用机器人(通用机器人不等于通用人形机器人),但这个目标更像是一个北极星,如果一味仰望星空,注定成为炮灰。机器人作为蓝领,他的创造者既要脚踏实地,又要仰望星空。作为这个赛道的投资人或创业者,期待我们都能在仰望星空和脚踏实地之间,寻找一个立足点。欢迎戳下面二维码加我微信交流。
References:
文章链接:
https://nishanthjkumar.com/Will-Scaling-Solve-Robotics-Perspectives-from-CoRL-2023/
辩论Youtube链接:
https://www.youtube.com/watch?v=pGjzxdD2Sa4&list=PLtF7v_W_CG5oG_lhI9tA1g4dPJKBOWDsA&index=15
辩论B站链接:
https://www.bilibili.com/video/BV1Fe411Q7LX/?buvid=eeeecaf224e24d5355e4f2b30e01b1eb&from_spmid=tm.recommend.0.0&is_story_h5=false&mid=Ix4uUgtYPoSO4bojX7ArLA%3D%3D&p=1&plat_id=122&share_from=ugc&share_medium=iphone&share_plat=ios&share_session_id=8F6706AB-25CC-42D0-BA09-20D9C10AD7AE&share_source=WEIXIN&share_tag=s_i&spmid=united.player-video-detail.0.0×tamp=1699840234&unique_k=0P7cmuU&up_id=1560961
其他参考资料
https://irislab.stanford.edu/
https://groups.csail.mit.edu/locomotion/russt.html
https://scottk.seas.harvard.edu/
https://homes.cs.washington.edu/~todorov/
https://stefan-schaal.net/
原创不易
快来戳一下”关注“给些鼓励吧!
欢迎“点赞”“打赏”“在看”三连!
微信扫码关注该文公众号作者