具身智能占领中国硅谷?1.23万AI学者集结海淀,填补全球百亿人形机器人空缺
新智元报道
新智元报道
【新智元导读】这几天中关村的小伙伴们都发现了:这里已被机器人占领!机器人和各色生物们纷纷登场表演,让在场观众们目瞪口呆。
这几天的中关村,已经被机器人占领了!
在2024中关村论坛年会的会场前台,这两位美女机器人的出现,把央视主持人都惊到了。
逼真的动作,灵活的手指,连口型都是搭配的,两位美女机器人给到来的游客们耐心介绍着AI主题日的相关信息,在人群中分外吸睛。
往里走,还能喝到服务机器人为我们贴心制作的精致咖啡。
往这儿看,这个家伙在给我们表演摘果子。
展会之外的广场上,一只机器狗在围观群众的众目睽睽之下现场炫技。作揖、双腿站立、打滚撒娇,这套动作一气呵成,可谓是相当熟练。
给你比个小心心
四脚朝天撒娇
当然,开幕式上更是少不了它们的同台演出,引得在场观众一阵欢呼。
机器狗dancer们,随着音乐节奏灵活扭动。
给观众们作个揖,动作整齐划一。
全体都有:卧倒——四脚朝天——卖萌!
机器人大爆发,大佬们炉边对谈
要说2024年最爆火的科技现象,人形机器人敢说第二,没人敢说第一。
Sam Altman力推的人形机器人Figure 01,马斯克的叠衬衫擎天柱,波士顿动力划时代登场的电动机器人Atlas纷纷登场,视频一出即成全网爆款。
国内这边,优必选去年年底上市,已成人形机器人第一股;工业版人形机器人Walker S,已经进厂打工了;宇树H1,直接火到了国外,让OpenAI联创Karpathy大呼想要。
诸位「明星」机器人的登场,大有寒武纪大爆发之势。
最近,医学博士、人类免疫学家Derya Unutmaz表示,当前AI技术产生最大影响三个领域,是生物技术、机器人技术和教育
外国网友们也纷纷感叹:我们正处于AI和机器人奇迹的风口浪尖,然而大多数人甚至还没注意到。
在中国,已经有数以千计的人形生物诞生!
如今业内已公认,造完大模型后,AI的下一个浪潮就是具身智能。
2023 ITF World半导体大会上,老黄就表达了这个观点
在特斯拉2023年年度股东大会上,马斯克也表示,人形机器人将是今后特斯拉主要的长期价值来源。
大模型与机器人的融合,直接让后者长出了「脑子」。这种超能进化,带来的是能理解、推理、与物理世界互动的智能系统,给我们以无限的想象空间。
国内的大咖们,对此是如何看待的?
就在几天前的2024中关村论坛年会「人工智能主题日」未来人工智能先锋论坛上,来自星动纪元、傅里叶智能、智元机器人、银河通用机器人、宇树科技、小米等业界大佬开启了具身智能的炉边谈话,分享了众多令人受益匪浅的精彩观点。
「具身智能十问」
瞅一瞅近期圈内的技术发展,只能用「震撼」二字形容了。如此之震撼,以至于不少大佬已经公认,在未来的5到20年内,AGI一定会到来。
不过,在数字世界里,我们有可能实现AGI吗?或者说,AGI必须通过具身智能才能实现吗?
「人工智能主题日」未来人工智能先锋论坛组织了具身智能圆桌对话,业界的诸位大咖,分享了自己对此的观点。
AGI必须通过具身智能来实现吗?
回答这个问题的第一位嘉宾,是ACM会士李航老师。
李航老师介绍说,我们现在看到GPT大模型,其中一个重要的特点就是通用性。尽管以LeCun为代表的专家,对这条技术路线并不看好,但在李航老师看来,通用的人工智能一定会实现。
因为沿着应用层发展,所有任务和评测标准都很清楚,在这种层面下,就一定能开发出这样的AI。然而,并不是说所有这些和人的智能相关的特点或能力,我们就一定能实现。
人智能的三个特点——情感、创造力和自由意志,AGI不一定能去覆盖。AGI的定义标准,往往是从功能的角度去定义的。
人最本质的智能,是一个生命现象,这个未必在未来能靠AI技术去实现。
而具身智能,更跟机器人相关,包括硬件、软件的结合。届时,它们不仅会完成数字空间里的任务,还会完成物理世界里的任务,相信在未来,它们将达到或超过人的能力。
李航老师认为,具身智能的两大重要特点,一个是有自主性;二是依靠与环境交互积累经验,得到不同的训练数据构建的模型,在机器人身上涌现出不同的智能;三是具备多模态能力,拥有五感的具身智能可以完成更加智能的任务。
每个机器人智能体的数据实际上是不同的,基于不同的数据,就能构建不同的模型,产生不同的智能。
如果要进入物理世界,最重要的就是视觉听觉嗅觉。未来的具身智能,应该是结合多模态技术,从而完成智能性的任务。
在银河通用机器人创始人、智源具身智能研究中心负责人王鹤老师看来,具身智能与非具身智能非常互补,他们的全集才是AGI。
中国有一句老话,读万卷书,行万里路。如今的互联网上的信息对具身智能来说,就是读万卷书,让它了解了人类的思维和对图片的感知,但它无法代替行万里路。
而人类的身体力行、在真实世界里的劳作,都不可能通过读书、看图、看视频来替代。即使看10个小时视频,也无法学会怎么骑自行车。
而具身智能,就赋予了智能体与物理世界交互和在交互中学习的能力。这种能力,是无法通过看图/看文这样的数字世界和典型的数据模态及经验而获得的。
非得是人形吗?
还有一个有趣的问题就是:具身智能必须是人形吗,必须是双足吗?靠机器狗,可不可以实现具身智能呢?
对此,傅利叶智能创始人兼CEO顾捷表示,具身智能的最终形态,一定是人形的。对此,整个硅谷都达到了共识。英伟达GTC大会上,出现的也全是人形形态的机器人。
不过,高矮胖瘦、用什么驱动这样的细节,目前还很难统一,但大家都在朝人的形态开始做收敛,朝这个方向努力。
宇树科技创始人兼CEO王兴兴也表示,如今人形机器人是大家公认的机器人形态。
虽然他也认为,对于具身智能或AGI,机器人形态不是特别重要,但大家都比较喜欢这种心态,受到整个社会的公认。
做数据采集的时候,人形机器人就可以去人生活的各个地方,做跟人一样的动作,比如开车、散步、跟人或机器人交互等等,这些都更加接近跟真实人类的交流。
所以,当下具身智能人形机器人,可能是相对最合适的路径,它虽不是唯一路径,但确实是效率比较高的方法。
先有鸡,还是先有蛋?
智源研究院院长王仲远又提出一个有趣的问题。
我们都知道,具身智能是系统的工程,既涉及硬件也涉及软件,但硬件和软件的发展速度是不匹配的。
如今,大模型虽能思考,但指挥不动本体。所以,我们是该先让硬件达到一定水平,迎来具身智能蓬勃发展,还是该脱离本体,独立分开发展具身智能呢?
顾捷表示,这个问题,可以参考是先有APP还是先有智能手机。
我们需要先让智能手机打电话,有了开放平台和接口,先收集数据,然后才能做AI。
具身智能的本体还不够结实时,能干的活很少,在此基础上开发具身智能是难度较大的。当然,如果本体开发得很好,大脑却没有跟上,应用场景也会受到制约。
正确的做法是,先从本体迭代切入点,再加入基本应用,达到一定程度后,再将本体做比较大的收敛,然后就会出现应用的蓬勃发展。智能手机发展到现在的形态,也是如此。
同样,王兴兴也认为,有实体的具身智能是实现AGI的唯一途径。
如果脱离实体,目前的大语言模型与物理世界的理解是远远不够的,这也就是为什么,如今很多顶尖AI学者提出要做世界模型。
特斯拉的无人驾驶,也是采集的真实数据训练,而非虚拟数据。因为虚拟数据中,实时与物理世界交互的数据太少。
他做出这样的预言——
我觉得本体反而是实现AGI非常重要的渠道,个人觉得,AGI很可能诞生在机器人公司。
可以先从进厂打工开始
王仲远还提出,自己通过调研发现,不少具身智能的专家,是从自动驾驶领域转过来的。
从现有的功能模块来看,二者确实非常相似,包含环境感知、规划决策以及最终控制这几个模块。
特斯拉通过电动车收集了海量数据之后,开始了训练端到端的自动驾驶大模型,甚至可能实现真正意义上的L4,甚至更高层级的无人驾驶。
这条路径有可能实现吗?
星动纪元创始人陈建宇表示,如今的自动驾驶特斯拉,应该是最好的一个标杆。
自己是从2015年开始做自动驾驶的,上一波热潮来临时,其实有两个问题非常严重。
第一,就是大家一窝蜂上来就要做L4,做Robotaxi,都以为两三年内能搞定,但实际上要困难得多。
第二是,当时AI还并未发展到如今这个阶段,ChatGPT之类的大模型还没诞生,做决策、执行和控制时,完全没有AI的办法。
两者叠加,导致这段时间自动驾驶的发展曲折。
但特斯拉就成功避开了这两个问题,做到了L2、L3、L4的渐进式发展。
因此,具身智能也不需要一上来就做走进千家万户的家用机器人,可以先进工厂,从容易的场景开始。
而且,我们要坚定地拥抱AI。一些短期工程做Demo的方法,未来可能很难长远。
数据怎么办?
不过,具身智能和无人驾驶不太一样的地方在于,无人驾驶面临的基本是特定的场景,但具身机器人要解决的场景极多,包括家庭场景、流水线场景等。
如此多的场景,就导致数据采集很不容易,因此现在许多模型都在基于仿真数据。
仿真数据是否可以代替真实数据呢?
王鹤表示,当前具身智能最大的瓶颈,就是缺乏数据。特斯拉FSD,就是利用了百万车主上亿小时的驾驶数据,进行模仿学习的。
然而很可惜,人形机器人并不存在这样的数据。并没有上百万群众会自发地买一个机器人,用遥控器指挥它做事。这种数据集在地球上还不存在。
所以要实现具身智能数据0到1的突破,最实际的方法就是通过物理仿真,把现实世界的物理规律通过图形学的引擎,真实仿真摩擦力、接触力、光线追踪渲染等,制造一个模拟真实世界训练的数字训练世界,这也是英伟达系列工作背后的初衷。
当未来,机器人在我们的世界充分存在的时候,也就有了在真实世界交互的数据闭环,成为具身智能的源头活水。
陈建宇表示赞同,并且表示,仿真的优势非常快,靠英伟达的GPU,可能一天就能采集到相当于真实世界上百万年的数据。
仿真的一个劣势是,很难准确搭建很复杂的场景,这时只能靠真实世界采集,但这样速度就会受限。
所以,在前期,我们只能从仿真里拿出稍微简单一点的场景,让机器人快速学习。当它们能做复杂场景时,我们就需要在真实世界里采集数据了。
海淀重磅押注具身智能
作为AI发展的下一个浪潮,具身智能深度融合了LLM、机器人等多学科技术,正加速推动智能经济到来。
最关键的是,具身智能甚至关乎着,实现AGI的终极目标。
为了抓住这一机遇,海淀区在27日发布了《打造全国具身智能创新高地三年行动方案》(以下简称《行动方案》)。
这是全国首个最全面、最细化,且仅针对「具身智能」单一领域,而发布的《行动方案》。
由此可见,海淀全力押注具身智能的重要性,不言而喻。
《行动方案》明确指出,到2026年,将初步建成全国具身智能原始创新策源地、应用示范新高地和产业加速集聚地。
也就是说,力争在2年多的时间里,海淀要成为我国参与全球具身智能竞争的核心力量!
《行动方案》将重点聚焦LLM和机器人整机,具体从以下六大方面展开。
一是,源头创新突破行动。
具身智能的最终目标是,通过LLM的赋能,让AI机器人可以在物理世界中,形成交互、自主学习的能力。
而构建一个完整的机器人,需要具备以下三大要素:本体、大脑,以及小脑。
其中「本体」就是机器人身体的物理呈现,而注入LLM的「大脑」能让其听懂人类语言、交流,「小脑」则负责控制身体运动。
AI机器人的设计从人脑运作方式得到启发
因此,AI具身智能的发展,先要从这些技术源头上,取得创新突破。
关于「大脑」的训练,多模态LLM是让机器人听懂、看清、并理解、分解执行任务的关键。
当前,国内诸如文心4.0、商量5.0、Step-1V等多模态LLM已取得了重大突破,未来还需进一步追赶世界技术前沿。
另外,面向工业、金融等垂直领域,更需要开发专用的LLM系统。
在「大脑」将语义信息转化为动作之后,就需要「小脑」控制身体,去完成高难度、高精度的任务。
这主要取决于控制算法的进化,其中便涉及到步态平衡、动力学模型、控制框架等等,与此同时,还要实现「大小脑」协同。
除此以外,推进机器人的「脑身系统协同」,也至关重要。
简单来说,「脑身协同」就需要提升机器人在物理世界的模拟能力,以及从数字世界迁移到物理世界的能力。
举个栗子,机器人看到桌子上的苹果,并将其递到你的手中。
这个过程,就需要大脑识别桌子上的物体,然后将信息传递给小脑,以控制身体在物理世界中的移动。
所以,未来企业还需要加强在数字世界模拟能力、数字到物理世界迁移技术的研发,并优化其在不同领域中的应用。
二是,本体产品领跑行动。
接下来,就是机器人本体,即「身体」的综合性能的全面提升,还有很长的一段路要走。
市面上,人形机器人已然占据了一大份额。
正如前面所述,当机器人走向落地时,人形不一定是最好的形态。
比如,四足机器人的典型代表——机器狗、还有工业机械臂、餐饮酒店中轮式送餐机器人等「多元形态的机器人」,更加适合自身的场景应用。
也就是说,需要根据实际的应用场景,去研发多元的机器人「本体」。
而若是提升「本体」整机性能,还需要从机器人的每个部件,去攻关。
包括伺服电机、传感器、关节、机器视觉、灵巧手等一系列关键模块化组件。
最重要的是,芯片、操作系统等底层技术,也需要逐一破解,以打造国际先进的多形态机器人。
三是,创新平台赋能行动。
具身智能的发展还需要多方位的平台提供技术支撑,以及产业孵化地。
当前,可以看到许多科研机构,包括企业都在做机器人开发,却有时难以将其应用,创造出的成果只能停留在研发阶段。
这就非常需要,一个能够提供「共性技术」支撑的平台,降低社会的研发成本。
不可否认,让机器人能够以人类的思维方式,与物理环境互动,并自主完成任务,还是比较困难的。
而我们所见的各种炫酷的demo,其实很多都是,机器人在特定场景中完成目标,而遇到未见过的场景时,就无能为力了。
之所以出现这一问题,关键还是「数据样本不够大」,它们无法涌现出真正的智能。
一般来说,训练机器人完成任务的通常做法是,在一个虚拟环境中,不断优化算法,再将其投入现实世界。
就像ChatGPT等大模型在喂了足够体量的数据之后,才能展现出强大的涌现能力。
机器人同样如此,没有足够的「数据样本」,很难获得真正的智能。
不排除,机器人已经有了一些智能的体现,比如踹倒后的机器人能够自主站起来,并非依靠编程而是训练所产生的「应激反应」。
但是,在「大脑」智力这方面的涌现,还未真正见到。因为,它涉及了很多维度,诸如语言、图片、视频等。
另外,数据的收集,还与机器人本体也有关联。
有的机器人手是三指、四指,甚至五指的都有,因此传感器数量多少,也就决定了数据维度获取的不同。
由此,不同数据样本训出的模型,最后机器人涌现的能力、方式都存在差异。
所以说,机器人真正智能的实现,需要有数据。而如何去创造数据,成为一个难题。
对此,海淀打造了一系列平台,比如「具身智能创新中心」,为企业提供训练环境,以便获取实时数据。
此外,还有端到端的仿真平台、实测验证场景等平台、实测验证场景等,破解了企业数据获取难题。
同时,海淀还将打造一系列产业创新孵化平台,以加快提升样机研发、检验测试、中试服务、生产制造等产业公共服务能力。
四是,应用场景示范行动。
面向科研、工业、消费、巡检等场景,让具身智能走向开放应用。
并且,未来还将打造一批可复制、可推广的具身智能应用示范工程。
五是,产业集群建设行动。
现在,海淀在区域北部温泉科技园三期,将打造一个机器人小镇,为企业提供了办公、以及开放测试环境。
由此,企业的聚集,能够有更多交流,进而形成竞争力的产业集群。
六是,生态雨林打造行动。
最后一个行动,将从四个方向开展。
首先是,培育一批具身智能改高端人才,打造具身智能人才社区。
其次,强化金融赋能效应,加大市级基金对具身智能投资力度。
然后,还要探索制定标准规范,鼓励优势企业参与国际/国家标准、行业标准制定,提升具身智能科技伦理治理能力。
最后,还要加强开放合作交流,支持建设具身智能开源社区,举办具身智能论坛、峰会、大赛等活动,形成开放合作的产业生态。
当然,除了亲自牵头之外,海淀区还通过首次「人工智能主题日」,把从事具身智能领域研究和生产的高校和企业汇聚到了一起。
在这里,突破性的成果展示,以及前沿性的演讲讨论,不仅可以激发一波又一波的讨论,让更多的人了解到具身智能的进展。
而且,还能让校企们藉此发现与自己志同道合,或者细分方向正好互补的伙伴,进而展开一轮全新的合作。
海淀AI学者1.23万,占北京八成
那么,为什么最新的《行动方案》,最先由海淀区提出并发布?
这是因为,这里不仅有硬核的科技力量、丰富的AI人才,还有完善的应用场景,专业的平台支持,具备了发展具身智能产业得天独厚的优势。
而且,海淀区是北京国际科技创新中心核心区,更是北京市AI和机器人产业的创新高地。
就人工智能发展方面,海淀聚集了14家全国重点实验室、3家新型研发机构,21所AI本科高校。
而且,拥有89位AI TOP2000全球顶尖科学家和产业领军人才,还有1.23万AI学者,占北京市八成。
海淀的大模型企业超过了90家,且数量持续增长,其中有36款LLM通过备案,占全市七成,在全国率先形成AI大模型产业集聚区。
还有,1300家集聚企业占全市七成,提供了全产业链部署芯片、框架、大模型、数据技术与处理服务。
与此同时,海淀在算力、数据、算法等基础设施方面,完成了全面的布局。
新增3500P算力已部署就位,为LLM场景应用落地提供充足的「燃料」。
而在机器人领域,海淀更是具备了超前沿的科研、产业优势。
一方面,清北、北航、北理、中科院等一批高校院所和专家人才,已经在机器人领域做出的诸多的研究。
另一方面,近200家机器人企业占全市40%,包括10+家人形机器人本体企业,占全市50%还要多。
下一步,海淀将凝聚各方力量全力保障方案的落地实施,在具身智能共性技术服务平台建设、重点企业培育与引进、推进应用场景落地、打造具身智能特色园区等方面持续发力,加快形成具身智能创新发展的良好格局。
可见,海淀区在推动具身智能的产业集群发展和创新升级,已万事俱备。东风已至,蓄势待发。
智元机器人联合创始人、上海人工智能研究院院长宋海涛表示,如今全球80亿人口,核心的生产力创造,还是来自于我们的智慧群体。仅仅是完成全球的生产力创造,我们就至少需要100亿台人形机器人。
诚如马斯克所言,征服浩瀚宇宙,一千亿台人形机器人在等着我们。
微信扫码关注该文公众号作者