Redian新闻
>
生成模型构建交互式现实世界模拟器,LeCun觉得非常酷

生成模型构建交互式现实世界模拟器,LeCun觉得非常酷

公众号新闻

机器之心报道

编辑:陈萍、小舟

Meta 首席 AI 科学家 Yann LeCun 非常看好世界模型,希望创建一个能够学习世界如何运作的内部模型。近日,UC 伯克利、谷歌 DeepMind 等机构的研究者用生成模型来构建交互式现实世界模拟器,对于世界模型具有积极意义。


基于互联网数据训练的生成模型彻底改变了文本、图像和视频内容的创建方式。有研究者预测,也许生成模型的下一个里程碑是能够模拟人类体验世界的方方面面,比如在公路上如何驾驶汽车,又比如如何准备饭菜。

现如今,借助非常全面的真实世界模拟器(real-world simulator),人类可以与不同场景和物体进行交互,机器人也可以从模拟经验中进行学习,从而避免出现物理损坏的风险。

然而,构建这样一个真实世界模拟器的主要障碍之一在于可用的数据集。虽然互联网上有数十亿的文本、图像和视频片段,但不同的数据集涵盖不同的信息轴,必须将这些数据集中在一起才能模拟出对世界的真实体验。例如,成对的文本图像数据包含丰富的场景和对象,但很少有动作,视频字幕和问答数据包含丰富的高级活动描述,但很少有低级运动细节, 人类活动数据包含丰富的人类动作但很少有机械运动,而机器人数据包含丰富的机器人动作但数量有限。 

以上列举的信息差异是自然的且难以克服,这给构建一个旨在捕捉现实世界真实体验的真实世界模拟器带来了困难。

本文中,来自 UC 伯克利、Google DeepMind、MIT 等机构的研究者探索了通过生成模型学习真实世界交互的通用模拟器 UniSim,迈出了构建通用模拟器的第一步。例如 UniSim 可以通过模拟「打开抽屉」等高级指令和低级指令的视觉结果来模拟人类和智能体如何与世界交互。

  • 论文地址:https://arxiv.org/pdf/2310.06114.pdf

  • 论文主页:https://universal-simulator.github.io/unisim/


本文将大量数据(包括互联网文本 - 图像对,来自导航、人类活动、机器人动作等的丰富数据,以及来自模拟和渲染的数据)结合到一个条件视频生成框架中。然后通过仔细编排沿不同轴的丰富数据,本文表明 UniSim 可以成功地合并不同轴数据的经验并泛化到数据之外,通过对静态场景和对象的细粒度运动控制来实现丰富的交互。

下面视频演示了 UniSim 如何模拟具有长交互视界的示例,视频显示 UniSim 一口气模拟了机器人八个动作指令:

UniSim 对人类动作的模拟:

UniSim 对 RL 策略的模拟部署如下所示:

对于这项研究,Meta 首席 AI 科学家 Yann LeCun、英伟达高级研究科学家 Jim Fan 等业界人士进行了转发。LeCun 给出一个「Cool」字的评价。

Jim Fan 表示,这项工作非常有趣,视频扩散模型被用作了数据驱动物理模拟,其中智能体可以规划、探索和学习最优行动,并且无需接触机器人硬件也不会造成损害。可以说 LLM 不仅是一个 OS,还化身为完整的现实模拟器。

论文一作、UC 伯克利博士生 Sherry Yang 表示,「学习现实世界模型正在成为现实」。

模拟现实世界的交互

如下图 3 所示,UniSim 能够模拟一系列丰富动作,例如厨房场景中洗手、拿碗、切胡萝卜、擦干手这一系列动作;图 3 右上是按下不同的开关;图 3 下是两个导航场景。

对应上图 3 右下的导航场景

对应上图3右下的导航场景

在长程模拟方面,下图 4 是一个 UniSim 自回归地顺序模拟 8 个交互的例子:

除了支持丰富动作和长程交互,UniSim 还支持高度多样化和随机的环境变换,例如移除顶部毛巾后显示的对象具有多样性(下图 5 左)。

UniSim 在真实世界迁移的结果。UniSim 的真正价值在于模拟现实世界,图 7 显示了 VLM 生成的语言规划,UniSim 根据语言规划生成的视频,以及在真实机器人上的执行情况。

除了测试 UniSim 在真实世界的迁移能力之外,本文还进行了基于模拟器的评估,结果如表 2 所示:

用于强化学习的真实世界模拟器

实验还评估了 UniSim 在模拟真实机器人执行各种动作方面的质量如何,机器人通过重复执行低级控制操作约 20-30 个步骤来左、右、下、上移动端点 。表 3 显示,RL 训练显着提高了 VLA 策略在各种任务中的性能,尤其是在指向蓝色块等任务中。然后,本文直接将在 UniSim 中训练的 RL 策略零样本部署到真实机器人上,如图 8(底行)所示。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
GPT-4不知道自己错了! LLM新缺陷曝光,自我纠正成功率仅1%,LeCun马库斯惊呼越改越错Agent4Rec来了!大模型智能体构成推荐系统模拟器,模拟真实用户交互行为百度何俊杰:用大模型构建多元AI原生应用生态,推动产业升级与经济增长|WISE2023商业之王大会卷积网络又行了?DeepMind推翻Transformer最强传说,LeCun怒赞LeCun引战,LLM根本不会推理!大模型「涌现」,终究离不开上下文学习马斯克:逆境塑造了我,我的痛苦阈值变得非常高!MIT惊人证明:大语言模型就是「世界模型」?吴恩达观点再被证实,LLM竟能理解空间和时间纽大具身智能新进展:靠视觉反馈学会开罐头,任务成功率提高135%,LeCun点赞芝加哥大火LeCun又双叒唱衰自回归LLM:GPT-4的推理能力非常有限,有两篇论文为证自动驾驶独角兽如此造假,LeCun都服了资管基础|三周掌握摩根大通“模拟交易&风险管理” 及“资产配置模型构建“双项目,一站式直通华尔街!斯坦福公开十大主流模型透明度!Llama 2位列第一,GPT-4透明差,LeCun炮轰:盈利完全理解DeepMind创始人:生成式AI只是过渡,AI未来将获得自由,交互式AI将改变人类研究称AI绘画碳排放仅为人类画家1/2900,LeCun转发引领创新!新药开发中器官芯片模型构建与应用论坛谷歌最新研究:可交互式动态图片生成,细节逼真!浪漫不会老AI实时解读大脑信号,7倍速还原图像关键视觉特征,LeCun转发达標博后招募 | 清华大学​交互式人工智能课题组招聘NLP方向博士后黑翼资产-邹倚天:从信号挖掘到模型构建,全流程AI拓宽量化边界长篇小说《如絮》第一百七十九章 旧金山-2006年 最后的飞行AI读脑成真,延迟仅0.25秒!Meta里程碑新研究:MEG实时解码大脑图像,LeCun转赞博士申请 | 英国布里斯托大学沈俊潇老师招收交互式人工智能方向全奖博士生辞别再无相见日吴恩达加入图灵三巨头混战,炮轰Sam Altman:AI监管「不会管不如不管」,LeCun转赞GitHub 基于大语言模型构建 Copilot 的经验和教训大神用 Scratch 手搓 RISC-V 模拟器,成功运行 Linux 内核图灵奖得主吵起来了,LeCun:Bengio、Hinton等的AI灭绝论是荒谬的Hinton和LeCun再交锋,激辩LLM能否引发智能奇点!LeCun:人类理解能力碾压GPT-4语言、机器人破壁,MIT等用GPT-4自动生成模拟任务,并迁移到真实世界GPT-4作弊被抓!吉娃娃or松饼打乱顺序就出错,LeCun:警惕在训练集上测试李强总理谈如何当好县委书记,讲得非常透彻!开放模型权重被指将导致AI失控,Meta遭举牌抗议,LeCun:开源AI社区如火如荼
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。