解密炒虾机器人远程控制技术：动捕手套/隔空取物/VR远程，都能训练机器人

公众号新闻

2024-01-13 05:01

新智元报道

编辑：润

【新智元导读】火爆全网的斯坦福炒菜机器人之后，Jim Fan分享了三个未来可以作为训练和控制机器人的技术方向，也许真的在不久的将来，人类的养老焦虑要被机器人彻底解决了。

火爆全网的ALOHA炒虾机器人，突然解决了这届网友们们的养老焦虑。

然后，虽然网友后边发现，机器人熟练的家务劳动不是完全自主的能力。主要还是要靠人工操作。

如果没有人工干预，机器人能干的家务依然还是挺有限的，还动不动翻车。

现阶段，要真正让机器人能够做出人类级别的流畅操作，还是需要人类在背后操作。

最近，英伟达高级科学家Jim fan分享了现阶段让人类操作机器人的3种主要技术。

在它看来，伴随着人类操作「操纵杆++」来执行任务和收集数据，或者在存在任何安全问题时进行干预介入。

机器人在完成了学习曲线的爬升之后，就能像人练习游戏技巧一样，最终在物理世界中很好的模拟人的行为。

动作捕捉(MoCap)手套

好莱坞电影中使用的MoCap系统来捕捉手部关节的精细运动。

如果机器人手和人类一样也是有5个手指，动作就可以「无缝完成」。

例如，演示者可以佩戴CyberGlove并操纵机器人。

CyberGlove将实时捕捉运动信号和触觉反馈，然后将其重新定位到人形机器人上。

这款18个传感器数据手套的每个手指上有两个弯曲传感器、四个外展传感器，以及测量拇指交叉、手掌拱形、手腕弯曲和手腕外展的传感器组成。

这些传感器使得CyberGlove可以活动指尖，使用户可以轻松打字、书写和抓握物体。

相关的数据同样也可以用来训练像ALOHA这样的机器人系统。

计算机视觉控制机器人

另一种方式是通过计算机视觉的方式来控制和学习数据。

项目地址：https://arxiv.org/abs/1910.03135

英伟达的研究人员在2019年就提出过一个名为DexPilot的低成本、基于视觉的远程操作系统。

计算机只需观察人的裸手即可完全控制整个23DoA的机器人系统。

DexPilot使操作员能够执行各种复杂的操作任务，允许收集高维、多模态、状态动作数据。

这些数据可以在未来用于学习具有挑战性的操作任务的感觉运动策略。系统性能是通过两名人类演示者执行各种任务的速度和可靠性指标来衡量。

这种隔空取物的方式来控制机器人看着是真的非常科幻。

视觉感知模块不断观察和测量裸露的人手运动（姿势和手指配置）。

然后，人手的动作被传递到机器人系统，使得复制的动作成为了可能。

这种方法使人类操作者能够卷曲和排列手指、形成抓握、重新定向和平移手掌，而机器人系统也以类似的方式跟随。

整个系统主要由：

-用于手部跟踪的DART

-用于人手状态估计和增强 DART 的深度神经网络

-使用DART进行人手状态细化，并通过非线性优化将其转换为Allegro手部状态

-通过黎曼运动策略 (RMP) 和扭矩级阻抗控制器进行运动生成和控制。

完整的系统架构如图所示，整个系统产生大约一秒的延迟。

DexPilot通过将观察到的人手和手指运动转化为机器人手臂和手指运动，使高度驱动的手臂系统能够找到适合各种操纵任务的电机解决方案。

重要的是，从钱包中提取钱和打开塑料容器内的纸板箱等多项任务非常复杂，以至于手工设计机器人解决方案或直接应用学习方法可能没法完成。

在系统本身上创建这些解决方案可以读取、访问和存储机器人指尖的 92 个触觉信号、通过手和手臂命令和测量的 23 个关节位置和速度信号、整个系统的 23 个扭矩命令，以及与系统相关的任何摄像机源。

这种丰富的数据源对于学习方法的应用至关重要，这些方法有望学会解决复杂、多阶段、长期的任务。

而且，目前的DexPilot系统未来也将进行多方面的改进。例如，随着深度学习架构的进步、RGB 数据的纳入、更大的数据集以及成像硬件的变化，可以提高人手跟踪的准确性。

理想情况下，人手跟踪精度应该得到足够的提高，以大大减少运动重定位方法中的投影距离，增强手指对小物体的精细控制和操纵以及多指精确抓握。

抓取和操纵控制算法可以在手上实现，自动进行力调节控制，以减轻用户的控制负担，并最大限度地减少因施加不正确的抓力而导致的意外零件掉落。

最后，可以实施意图识别方案，使机器人能够预测人类意图并部署自动化解决方案，例如，系统识别出人类抓握物体的意图，系统自动获取抓握力。

VR让你在世界上任何地方都能控制机器人

如果将训练室变成VR游戏，对机器人进行「角色扮演」。这样可扩展的远程数据收集——来自世界各地的注释者无需到场即可做出贡献。

项目地址：https://svl.stanford.edu/igibson/

iGibson 是一个基于Bullet的模拟环境，提供快速视觉渲染和物理模拟。

iGibson配备了15个完全交互式的高质量场景，数百个根据真实家庭和办公室重建的大型3D场景，并兼容CubiCasa5K和3D-Front等数据集，提供12000+额外的交互式场景。

iGibson 的一些功能包括域随机化、与运动规划器的集成以及用于收集人体演示的易于使用的工具。

借助这些场景和功能，iGibson 允许研究人员训练和评估机器人代理，这些机器人代理使用视觉信号来解决导航和操作任务，例如开门、拾取和放置物体或在柜子中搜索。

参考资料：

https://twitter.com/DrJimFan/status/1744786506810900679

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章