国际科技财经博客移民网络热点娱乐民生时事公众号

>

UCSD、MIT等华人团队教机器狗感知3D世界！搭M1芯片，爬楼跨障无所不能｜CVPR 2023

UCSD、MIT等华人团队教机器狗感知3D世界！搭M1芯片，爬楼跨障无所不能｜CVPR 2023

公众号新闻

2023-05-19 02:05

新智元报道

编辑：编辑部

【新智元导读】用苹果M1芯片思考，还能自己遛自己的机器狗，你见过吗？

最近，来自UCSD、IAIFI和MIT机构的研究人员，用一种全新的神经体积记忆架构（NVM），教会了一只机器狗感知三维世界。

利用这项技术，机器狗可以通过单一的神经网络实现爬楼梯、跨缝隙、翻障碍等等——完全自主，无需遥控。

不知道你有没有注意到狗背上那个的白盒子？

里面搭载的是苹果的M1芯片，负责运行机器狗的视觉处理任务。而且，还是团队从一台Mac上拆下来的。

不难看出，MIT的这只机器狗可以轻松地爬过了横在自己面前一段树枝，毫不费力（基本上）。

长了4条腿的MacBook？

众所周知，对于机器狗，以及其他有腿的机器人来说，想要翻越不平整的道路，可谓是困难重重。

路面状况越是复杂，就有越多的障碍无法被看到。

为了解决「部分可观测环境」问题，目前SOTA的视觉-运动技术通过帧堆叠（frame-stacking），将图像通道连接起来。

然而，这种简单的处理方法远远落后于现在的计算机视觉技术——后者可以明确地模拟光流和特定的3D几何形状。

受此启发，团队提出了一种神经体积记忆架构（NVM），可以充分考虑到三维世界的SE(3)等变性（Equivalence）。

项目地址：https://rchalyang.github.io/NVM/

与以往的方法不同，NVM是一种体积格式。它可以将来自多个相机视图的特征体积聚合到机器人的自我中心框架中，从而让机器人能更好地理解周围的环境。

测试的结果显示，使用神经体积记忆（NVM）对腿部运动进行训练后，机器人在复杂的地形上的表现要明显优于之前的技术。

此外，消融实验的结果显示，神经体积记忆中存储的内容捕获了足够的几何信息来重构3D场景。

现实世界中的实验

为了在模拟之外的不同现实世界场景中进行验证，团队在室内和室外场景中都进行了实验。

当机器狗发现有障碍物突然出现在自己面前时，直接就会选择绕开。

在满是石头的地面上，走起来好像也没什么问题，虽然比在平地上还是要费力一些的。

相对于自身来说比较大的障碍，努努力也还是可以翻过去的。

采用此前的识别控制技术，小狗后腿对距离判断明显出现了误差，一脚踩沟里翻车了，失败。

采用MIT提出的NVM之后，小狗过沟，稳稳的幸福，成功！

采用此前的识别控制技术，小狗第一脚就踩空了，狗头抢地，失败。

采用MIT提出的NVM之后，小狗四平八稳地走过了矩阵。

腿部运动的体积记忆

使用以自我为中心的摄像机视角，本质上是一个处理「部分可观测环境」的问题（Partially-Observed）。

为了使控制问题具体化，机器人需要从先前的帧中收集信息，并正确推断被遮挡的地形。

在运动过程中，直接安装在机器人底盘上的摄像机发生剧烈和突然的位置变化。

这样，在表征一连串的画面的过程中，某单个帧能够被放到正确的位置，就变得非常重要了。

为此，团队提出的神经体积记忆（NVM）的概念，可以将输入的一连串视觉信息，转化为场景特征进行3D描绘，进而进行输出。

通过自监督学习NVM

虽然「行为克隆目标」足以产生一个好的策略，但针对平移和旋转的等变性，自动为神经体积记忆提供了一个独立的、自监督的学习目标。

自监督学习：研究团队训练了一个独立的解码器。让它通过一段视觉观察和两个帧之间的预估转换，来预测不同帧中的视觉观察。

如上图所示，可以假设在帧之间周围的3D场景保持不变。由于相机是朝前看的，我们可以将先前帧的特征体积规范化，并用它来预测后续的图像。

解码器的视觉重建

第一幅图显示机器人在环境中移动，第二幅图是输入的视觉观察结果，第三幅图是使用3D特征体积和预估画面合成的视觉观察效果。

对于输入的视觉观察，研究团队对图像应用了大量的数据增强来提高模型的鲁棒性。

作者介绍

Ruihan Yan

Ruihan Yan是加州大学圣地亚哥分校的二年级博士生。在此之前，他于2019年在南开大学获得软件工程学士学位

他的研究兴趣是强化学习、机器学习、机器人等。具体来说，他想建立智能体，利用来自不同来源的信息进行决策。

Ge Yang

Ge Yang本科毕业于耶鲁大学物理和数学专业，并在芝加哥大学获得物理学博士学位。目前是美国国家科学基金会人工智能与基础交互作用研究所（IAIFI）的博士后研究员。

Ge Yang的研究涉及两组相关问题。第一组是通过重新审视我们在神经网络中表征知识的方式，以及知识如何在分布中转移，来改善学习。第二组是通过理论工具的视角来看待强化学习，如神经正切核、非欧几里得几何和哈密顿动力学。

Xiaolong Wang

Xiaolong Wang是加州大学圣地亚哥分校ECE系的一名助理教授。他是TILOS国家科学基金会人工智能研究所的机器人团队的成员。

他在卡内基梅隆大学获得了机器人学的博士学位，并曾在加州大学伯克利分校做博士后研究。

参考资料：

https://rchalyang.github.io/NVM/

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

零AI含量！纯随机数学无限生成逼真3D世界火了，普林斯顿华人一作｜CVPR‘23 CVPR 2023 | 香港理工提出GrowSP：3D场景的无监督语义分割 CV圈又炸了？小扎高调官宣DINOv2，分割检索无所不能，网友：Meta才是「Open」AI 上海AI实验室联合团队获CVPR最佳论文奖 | CVPR 2023 NVIDIA拿下CVPR 2023 3D Occupancy预测第一名！CVPR 2023最佳论文候选！真实高精3D物体数据集OmniObject3D 谷歌推出多模态Vid2Seq，理解视频IQ在线，字幕君不会下线了｜CVPR 2023 CVPR 2023 | Uni3D: 首个多数据集3D目标检测框架炸裂！最新CVPR2023、ICML2023、AAAI2023、ACL2023论文+Code大合集！CVPR 2023 | 基于颜色感知背景的文档图像阴影去除纯随机数学无限生成逼真3D世界火了！普林斯顿华人一作｜CVPR 2023 CVPR 2023 | IDEA与清华提出首个一阶段3D全身人体网格重建算法对未知物体进行6D追踪和3D重建，英伟达方法取得新SOTA，入选CVPR 2023 人类最终将毁于AI 请问uci/ucsd/ucsb怎么选校。UCSD vs. Northeastern University UCSD 有不错的瓜，可以吃一下（古詩詞英譯）梅花 - 王安石〔宋代〕CVPR 2023 | 南大王利民团队提出LinK：用线性核实现3D激光雷达感知任务中的large kernel 今年 CV 热点这么多，不可错过 CVPR 2023 线下论文分享会 mabook pro m1 13.3in touch bar （m1/8g/512g ssd）CVPR 2023论文总结！CV最热领域颁给多模态、扩散模型明天直播｜CVPR 2023 论文分享会邀你共话计算机视觉的前沿发展！UCSD CS vs OXY CVPR 2023｜无需标注数据，「3D理解」进入多模态预训练时代！ULIP系列全面开源，刷新SOTA 国民警卫队会保卫特朗普吗？普林斯顿Infinigen矩阵开启！AI造物主100%创造大自然，逼真到炸裂｜CVPR 2023 CVPR2023｜天大联合卡迪夫大学发布SemanticHuman：部件级、精细语义、灵活可控的3D人体编辑表征 CVPR 2023｜Crowd3D：数百人大场景3D位置、姿态、形状重建，开源benchmark数据集 5030 血壮山河之武汉会战九江战役 5 苹果头显的R1芯片，是什么？《花心》CVPR 2023 | 多车协作让纯视觉3D目标探测媲美激光雷达英伟达馋哭建模师！投喂随意视频，直出3D模型，华人一作登CVPR 2023 无需微调，一张照片即可换脸、换背景！NUS等华人团队破局个性化视频生成 CVPR 2023｜Crowd3D：支持数百人3D/姿态/形状/位置重建的新基准 3D版「分割一切」来了！NUS华人团队最新模型，单视图重建3D，又快又准首个感知决策一体化自动驾驶通用大模型！商汤联合团队获CVPR 2023最佳论文真·抓住用户「眼球」：无需专用硬件，谷歌教你用「注意力」提升产品体验｜CVPR 2023 UCSD (regent scholarship ) vs UCLA 都是CS ,选哪个好些，谢谢！

热点事件追踪