专访优必选庞建新:在大模型时代推动机器人智能化|GAIR live
作者 |吴彤
编辑 |麦广炜
“大模型怎么融进人形机器人里?”这是庞建新最近一直在琢磨的核心问题。
作为优必选副总裁、研究院副院长,庞建新正领导团队,将大模型技术应用于人形机器人的多模态感知和决策规划中,提升人形机器人智能化水平。
在从业的近三十年里,他的专业背景横跨语音处理、计算机视觉,再到人形机器人技术;从中科大的博士,到中国科学院深圳先进技术研究院的PI,再到优必选的技术高管,他的职业生涯,已然是中国智能科技崛起的一个缩影。
现如今,大模型的横空出世,除了让庞建新看到了一些可能性,更多是冷静。
他坦陈,“因为在技术快速发展时,整个技术路线和应用场景还存在不确定性,但同时也正是国内人形机器人企业快速发展的最佳时期。”
这是一种强烈的矛盾感。
在谈及大模型技术对人形机器人智能化进程的影响时,庞建新提出了自己的见解。
他认为,大模型技术的核心是其能够融合大量知识和数据,这对于人形机器人领域来说是一个巨大的机遇,但同时也带来了新的挑战。比如如何将大语言模型技术(可理解为“大脑”)与人形机器人的“小脑”(控制大模型)和“本体”结合,以及如何处理大语言模型可能产生的“幻觉”问题等等。
而要落到实际操作层面,庞建新表示,优必选的策略是双管齐下,既要一种分层结构的解决方案,同时也不能放弃端到端的解决方案。
前者是将大模型分为处理知识、常识推理的“大脑”层,指导动作规划的“小脑”层,以及直接与控制相结合的动作执行层。这种分层解耦的方法,使得每一层都可以专注于其特定的任务和数据需求,提高了技术的应用效率。
后者则是从感知直接到控制的全过程,这种方法导致数据获取更为复杂,却能够提供更为直接的解决方案。
针对大模型与机器人智能化现状,庞建新说了四个字:百花齐放。
“当下人工智能和人形机器人技术的结合正处于一个开放性问题的时期。”这正是当下人形机器人从业者的乐趣所在。而换句话说,这也意味着目前技术尚未开始收敛,仍需在一些小规模场景中进行实验和测试。
今年2月,优必选与新能源车厂的合作,正是他们在多模态感知决策技术应用实训方面的一次尝试。庞建新坚信,大模型技术将是推动未来技术进步和产业化的关键。
近期在与雷峰网-AI科技评论的对话中,庞建新分享他对于大模型技术推动人形机器人智能化进程的见解,以及国内企业如何在技术快速发展的背景下把握机遇。
以下为对话(经编辑):
4月8日(周一)20:00-22:00,雷峰网将举办主题为「大模型时代,机器人的技术革新与场景落地」的线上圆桌论坛,届时庞博士将分享更多前沿观察。
雷峰网:能介绍下您的研究背景吗,是什么激发了您对AI与机器人技术结合的兴趣?
庞建新:我本科是在中科大,这段时期专注于语音信号处理,而科大讯飞正是在我所在的语音实验室孵化出来的。后来我又在中科大完成了计算机视觉方向的博士学习。
2011年,我加入中国科学院深圳先进技术研究院,一边做科研,一边做产业。因项目合作,参与到与腾讯公司的合作中,研发了名为“小Q”智能机器人的产品系列。也就是那时候我正式从AI研究转向机器人研发,将人工智能与机器人相结合。
当我2015年加入优必选时,我专注于将人工智能技术与机器人融合,推动机器人技术的研发和应用落地。
所以总结来说,我的经验涵盖了语音处理、视觉识别到机器人技术等多个领域,这些都是当前人工智能和机器人发展的关键领域。
雷峰网:为什么看中了优必选?加入已经近十年时间了,这种专注来源于什么?
庞建新:我加入优必选确实有一段奇妙的经历。
2014年,在前海深港青年梦工厂开业典礼上的一次展览,我和团队代表中国科学院深圳先进技术研究院,展示了我们的产品,而优必选的展位就在隔壁。
后来我了解到,优必选在做国内自主研发的人形机器人,也了解到了公司创始人周剑对于人形机器人的愿景和梦想,发现这个与自己的梦想高度契合,所以选择加入了优必选。
那时候,我住在宝安西乡,每天往返近100公里,到龙岗上班。因为我加入公司比较早,参与了公司早期和中期的多个项目,将这些技术转化为公司的众多产品。这就是热情所在。
实际上我从未真正离开过工业界。在我加入中科院之前,曾在一家外资企业从事计算机视觉算法的研发工作,后来这家企业在国内科创板上市。我在中科院的工作中,一半的精力用于技术转化,孵化了几个有影响力的产品,另一半则致力于前沿科研。这些年来,我的工作始终围绕着如何将最新技术转化为实际产品。
雷峰网:自2015年加入优必选以来,你眼中的公司经历了哪几个发展阶段?
庞建新:优必选从未局限于单一的技术研发或产品开发。公司始终坚持技术和产品同步发展的战略,这也是优必选吸引我的地方。我认为,只专注于技术可能会导致与实际应用脱节,而只关注产品则可能失去技术优势和市场竞争力。
在2015年加入优必选后,在 CTO 熊友军博士的带领下,我们共同推动了研究院的成立,目的是将技术研发和产品开发紧密结合。
我们公司内部要求,研究院除了支持产品进行技术研发,还要投入资源跟进最新技术,根据技术发展趋势和未来场景中可能遇到的关键技术进行研发。
从2016年开始,优必选着手研发大型人形机器人,并以此平台为基础,将技术成果转化为各业务线的产品支持。公司始终坚持两条腿走路的策略,不偏重任何一方。
优必选在技术投入上非常聚焦,始终思考机器人技术的未来发展趋势和应用场景。基于这些长期趋势和应用场景的考量,公司有针对性地寻找和研发适合的技术。因此,优必选很少会受到外部研究热点的影响,而是坚持沿着既定的技术发展路径和应用场景进行研发。
雷峰网:研究成果转化为实际产品,您有哪些心得?
庞建新:科研人员往往专注于技术创新和独特性,以解决科学问题为导向,追求学术上的突破和理论上的完备解或最优解。
而在工业产品开发中,我们更多的是寻找和解决已经存在的关键问题。目标是找到与工业场景、成本、软硬件匹配度以及研发周期最相匹配的解决方案。这意味着在工业界,我们需要更多地考虑产品的实际应用和市场的需求。
此外,在面向产品或特定场景的工作中,还需要建立一套标准化的思路。这涉及到如何将场景中的各种元素数字化、标准化或规范化,确保技术的长期积累和持续改进。
尽管科研和工业界的目标和思路有所不同,但解决挑战的方法和路径在本质上是类似的。
雷峰网:以大模型这个热点技术举例,业界对其的广泛关注始于2022年底,当时ChatGPT的发布引发了众多讨论。在优必选是什么时候讨论大模型?
庞建新:我们对大模型技术的重视可以追溯到更早的时期。优必选在2022年,甚至在2021年上半年,就已经注意到了大模型技术的潜力。
最初,大模型技术主要应用于视觉领域,许多国内外的科研机构和大型企业都在探索,如何利用视觉大模型进行识别和检测。
随着时间的推移,当语言大模型开始出现时,优必选内部已经开展了类似的项目,并在内部开展了小规模的研究项目来深入探索这些技术。
到了2023年和2024年,优必选迅速将这些技术应用到了机器人领域。通过自身的研究,优必选在技能上也进行了一些创新应用,将大模型技术融入到产品开发中,提升产品的性能和智能化水平。
这次,优必选Walker S与百度文心大模型进行深度融合,进行任务调度应用开发,快速构建了任务规划与执行能力,并完成柔软物体操作和物体干扰分拣等任务,也是这种技术应用的一次体现。
雷峰网:您认为当前市场对机器人的需求主要集中在哪?是否有特定的场景,为您的技术和产品研发提供了启发?
庞建新:在大模型技术出现之后,整个行业对大模型及其在各种场景中的应用提出了明确的需求。因为大模型技术正在重塑我们的生产方式,改变了生产力的构成。
人们可能会思考,是否可以通过人形机器人结合大模型技术,来解决工业制造中的问题?打造教育领域的潜在应用?
传统上,计算机教育可能侧重于采用编程的教学方法,但随着大模型技术的发展,我们现在可以探索低代码甚至零代码的方式来解决问题。这可能为教育带来新的范式,使得更多人能够通过使用这项技术来满足他们的生产力需求。
除了工业制造和人工智能教育,优必选也在探索大模型技术在人机对话、康养以及其他应用场景中的潜力。
雷峰网:国内外对于机器人的较量到了什么阶段?对于AI前沿技术的把控会最终是如何影响大机器人开发上?
庞建新:国内外在机器人的研究思路上存在一些区别。中国企业的研究思路更加面向实际应用场景,而海外企业,如OpenAI等,在得到大量资金的支持下,能够进行更多开放式的科学研究。
中国学术界和产业界曾经经历过一段跟随阶段,尤其是在大模型等技术领域跟随欧美的研究趋势。
但中国的跟随步伐相对紧凑,尤其在面向产品应用开发方面。尽管在某些领域,如芯片和GPU等与大模型密切相关的技术,中国可能会面临一些挑战,但我认为这种跟随是必须的。
因为在技术快速发展时,整个技术路线和应用场景还存在不确定性,当前正是国内机器人企业快速发展的最佳时期。
雷峰网:国内有哪些企业在机器人和大模型结合方面做得比较好?
庞建新:从全球范围来看,大模型与具体行业的结合还处于非常早期阶段。尽管大模型技术取得了很多进步,但它在商业应用方面的转化还处于早期。
当技术进入平台期,真正的应用才会开始。也就是说,目前技术尚未开始收敛,当技术开始收敛时,才意味着它真正准备好进行大规模应用。目前可能还处于小规模场景或特定场景的实验和测试阶段。
此外,大模型技术发展迅速,但应用仍面临一些挑战,如算力和数据的高要求,以及效率、成本和幻觉等问题。
雷峰网:在AI+机器人领域,未来几年可能会出现哪些颠覆性的技术变革?除了大模型技术之外,还有哪些值得关注的发展趋势?
庞建新:仿真技术可能是未来人形机器人领域一个潜在的颠覆性变化。由于人形机器人控制和操作相关的数据难以构建,仿真技术的发展将对人形机器人领域产生重大影响。通过高效的仿真技术,我们可以构建大量用于人形机器人应用的数据和虚拟场景,这对于人形机器人技术的进步非常重要。
当前阶段,人工智能和人形机器人技术的结合正处于一个开放性问题的时期。
无论是在高层决策应用、底层控制,还是场景构建和仿真等方面,都呈现出多样化的发展态势。虽然已经在特定场景中看到了一些成果,但这些成果是否足够泛化,是否能够在人形机器人上直接进行使用,仍然是一个挑战。
总之,AI增强人形机器人领域正处于一个充满活力和创新的时期,未来几年可能会出现多项颠覆性的技术变革。仿真技术、大模型以及其他AI技术的发展,将为人形机器人领域带来新的机遇和挑战。
在这个百花齐放的阶段,我们需要持续关注技术的发展动态,并积极探索如何将这些技术应用于实际场景中。
本文作者 吴彤,长期关注AI4S,欢迎添加微信 (icedaguniang)互通有无。
|GAIR live 圆桌预告
4月8日(周一)晚间8点~10点,雷峰网将举办一场主题为「大模型时代,机器人的技术革新与场景落地」的线上圆桌论坛。
本次论坛的嘉宾有:南佛罗里达大学孙宇教授、武汉大学李淼教授、逐际动力张巍博士、优必选科技庞建新博士。
“全球人工智能与机器人大会”(GAIR)始于2016年雷峰网与中国计算机学会(CCF)合作创立的CCF-GAIR大会,旨在打造人工智能浪潮下,连接学术界、产业界、投资界的新平台,而雷峰网“连接三界”的全新定位也在此大会上得以确立。
经过几年发展,GAIR大会已成为行业标杆,是目前为止粤港澳大湾区人工智能领域规模最大、规格最高、跨界最广的学术、工业和投资领域盛会。
GAIR Live作为雷峰网旗下视频直播品牌,旨在输出新鲜、深度、原创的大咖访谈与对话内容,打造辐射产、学、研、投的特色线上平台。
|AI+机器人相关资料
1,Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliabilityhttps://gairdao.com/doi/10.1142/S2972335324500029
2,《对话南佛罗里达大学孙宇教授:当大语言模型用于机器人任务规划丨IJAIRR》https://mp.weixin.qq.com/s/vrTMsssLQvmI11kX38Jvog
更多内容,点击下方关注:
微信扫码关注该文公众号作者