将机器人的手牵向人类的手:灵巧操作华人论文综述
1.灵巧操作华人图谱
2.机器人的手
3.刚体操作
4.可行变物体操作
5. 模仿学习
6. 遥操作
7. 多模态
8. 一些感想
紫色highlight表示在海外任教,黄色highlight表示在国内任教,绿色表示在读PHD。
CMU的David Held实验室有大量关于手部灵巧操作的工作,但大多采用夹爪。他的团队很多工作涉及操作新颖的物体,包括可行变物体(例如布料,液体,面团和关节式物体)以及多模态学习(机器人的多传感器,包括深度、RGB和触觉数据)。我们这篇文章也引用了大量David Held团队华人博士生的工作,包括Wenxuan Zhou, Yufei Wang和Xingyu Lin。
清华孙富春和德国洪堡大学张建伟在五指灵巧操作方面也有非常多积累,我们后文会提及。英国Bristol大学在灵巧手和灵巧操作方面有很多成果,华人教授Dandan Zhang也是这个领域比较知名的教授。此外,EPFL的LASA是专注在灵巧操作方向的实验室。
除了上面常用的多指灵巧手,一些实验室也会自己搭建硬件系统。比如CMU的助理教授Deepak Pathak团队的LEAP Hand。其成本仅为Allegro Hand的1/8,他们还研发了软体灵巧手Dash Hand,成本均在2000美金以内。
其他可能选择的灵巧手有德国宇航的DLR Hand,医疗级假肢BeBionic Hand,Schunk SVH hand, Vincent hand。
国内做灵巧手的代表有哈工大刘宏教授团队,中科院自动化所王鹏团队,因时科技等。
从物体的分类层面,常见的操作对象可以分为刚体(比如乐高、易拉罐等)、可行变物体(比如面团,布料等)和液体。因为刚体相对容易操作,所以很多涉及刚体的工作可以部署到物理机器人上。针对刚体的操作,学术界的一些研究方向包括手中物体重定位(简单理解就是按照特定方向拿东西)、非抓握操作(不用手拿而是用推或戳)、外部灵巧性操作(比如利用墙壁把箱子竖起来)、长时间(Long Horizon)灵巧操作(多动作连续操作完成一项任务)。所有这些学术名词对人类来说都是不值一提的手部动作,下面我们逐一看下机器人做到了什么程度。
手中物体重定向:手中物体的重新定向对于执行许多灵巧操纵任务是必要的,Chen Tao等人提出了一个在模拟中使用强化学习进行训练并在现实世界中进行评估的通用物体重新定向控制器。该控制器具有对未在训练中使用的新物体进行泛化的能力。由下向上的手持状态下重新定向悬浮的物体,手必须在重新定向过程中抵消重力。论文中使用的硬件是成本不到5000美元的开源组件。
"Visual Dexterity: In-hand Dexterous Manipulation from Depth", by Tao Chen, Megha Tippur, Siyang Wu, Vikash Kumar, Edward Adelson, Pulkit Agrawal
Chen Tao和Jie Xu的另一个工作提出了一个简单的无模型框架,在模拟器中学习在手朝上和手朝下的情况下重新定向物体,并展示了这些策略在两种情况下都能够重新定向超过2000个几何不同的物体。这些学习的策略在新物体上表现出强大的零次迁移性能。但这个工作仅在模拟器中实现,并未应用到物理世界的机器手上。这篇论文获得了2021 CoRL Best Paper。
“A System for General In-Hand Object Re-Orientation” byTao Chen, Jie Xu, Pulkit Agrawal,CoRL 2021 (Best Paper Award)
最近,英伟达联合宾大、加州理工和UT Austin联合发布的Eureka结合了大型语言模型和强化学习的研究成果,用GPT4来完善奖励函数,用强化学习来训练机器人控制器,实现了在虚拟器中五指手转笔、盘核桃等复杂的灵巧操作。
Eureka: Human-Level Reward Design via Coding Large Language Models, by Jason Ma, et al,https://eureka-research.github.io/
“Learning to Grasp the Ungraspable with Emergent Extrinsic Dexterity” by Wenxuan Zhou, David Held, CoRL 2022
对刚体的长时间灵巧操作(Long-Horizon)
你扔我接:你扔我接对人类很常见,但对机器人来说充满挑战:机器人需要以高速进行这些动态动作,精确协作,并与各种不同的物体互动。这个工作用机械臂和五指手作为硬件系统,使用多智能体强化学习在模拟环境中训练该系统,并进行Sim2Real转移以在真实机器人上部署。为了克服Sim2Real的差距,作者提供了多种新颖的算法设计,包括学习物体的轨迹预测模型。这样的模型可以帮助机器人捕手实时估计物体的运动轨迹,然后相应地做出反应。论文的一作Binghao Huang和Yuanpei Chen在灵巧操作方面有非常多出色的工作。
“Dynamic Handover: Throw and Catch with Bimanual Hands”, Binghao Huang*, Yuanpei Chen*, Tianyu Wang, Yuzhe Qin, Yaodong Yang, Nikolay Atanasov, Xiaolong Wang, CoRL 2023
拼乐高:灵巧手在拼乐高任务上面临着高维动作空间和长期任务的复杂组合动力学的挑战。Stanford Karen Liu团队提出了一种基于强化学习(RL)的通用系统,它通过链接多个灵巧策略来实现长期任务目标。这个工作也有非常好的Sim2Real的迁移能力。
“Sequential Dexterity: Chaining Dexterous Policies for Long-Horizon Manipulation” by Yuanpei Chen, Chen Wang, Li Fei-Fei, C. Karen Liu, CoRL 2023
在长时间(Long-Horizon)灵巧操作方面,腾讯RoboticsX黄碧丹团队也有非常多优秀的工作,他们在2023年4月推出的机械臂搭配3指灵巧手演示的调酒工作非常惊艳。UT Austin的朱玉可带领他的学生做了一个有趣的工作是煮泡面机器人,这个机器人的手用的是夹爪。这两个工作的相关视频在AI+Robotics华人图谱可以找到。
4. 可行变物体操作
可形变物体的操作在我们的日常生活中有许多应用,例如捏面团和叠衣服。但对机器人来说,可行变物体的操作特别具有挑战:面团这类弹塑性物体,因为缺乏紧凑的状态表示,需要丰富的接触互动;布料因为褶皱,涉及很多遮挡问题的处理。在末端执行器的选择上,相比刚性物体,可行变物体的物理操作更多是以夹爪的形式进行,多指对面团这类物体的操作更多的是在仿真环境中进行的。下面我们挑几个典型的工作来看看机器人对可行变物体的操作上已经达到了什么程度。
穿衣服:3D空间对可变形布料进行复杂操纵对机器人来说是一个具有挑战的任务。过往的方法涉及大量假设,需要固定的服装和手臂姿势,泛化能力差。CMU David Held团队的Yufei Wang在布料操作上有不少工作,他2023年的一篇工作可以对不同手臂姿势和不同服装的参与者穿衣服。
“One Policy to Dress Them All: Learning to Dress People with Diverse Poses and Garments” by Yufei Wang, Zhanyi Sun, Zackory Erickson*, David Held*, RSS 2023,https://sites.google.com/view/one-policy-dress
对可行变布料进行触觉推理:Yufei Wang的另一个工作使用视觉和机器人运动观测进行触觉推理(施加力的位置和大小)。
“Visual Haptic Reasoning: Estimating Contact Forces by Observing Deformable Object Interactions” by Yufei Wang, David Held, Zackory Erickson, IROS 2022
布料展开:如果我有一个机器人保姆,我最需要它做的家务就是套被套,在看了十几篇关于布料操作的论文后,我觉得十年内套被套这件事情,人类还是无法解放自己。哥伦比亚大学Shuran Song团队介绍了一种双机械臂协同可移动电吹风的方案,是目前我看到的叠衣服效率比较高的。DextAIRity是一个自监督学习框架,通过一系列抓取或基于气流的吹气动作来学习有效执行目标任务。通过使用封闭回路的吹气方案,系统根据视觉反馈不断调整吹气方向,以适应高度随机的动力学。这篇工作的一作 Zhenjia Xu本科毕业于上海交通大学,目前在Shuran Song团队读博,他也是后文会介绍的切牛油果文章RoboNinja的一作。
“DextAIRity: Deformable Manipulation Can be a Breeze” by Zhenjia Xu, Cheng Chi, Benjamin Burchifiel, Eric Cousineau, Siyuan Feng, Shuran Song, RSS 2022, https://dextairity.cs.columbia.edu/
面团操作
出于对面食的热爱,很多学者都在尝试用机器人揉面,切面,甚至包饺子。在物理世界中,面团操作大多是夹爪配合多工具组合,也有一些学者在仿真世界中用多指手对面团进行操作。到目前为止,机器人针对面团进行最复杂的操作是包饺子,饺子下锅之后会怎么样就不知道了。
压面团:从RGB-D图像将一块面团铺展成特定形状的任务,对人类来说非常简单,但对机器人来说,如果没有固定的外部环境和编程好的运动轨迹,将一个面团压成一个面饼是非常难的任务。CMU David Held团队的Xingyu Lin非常热衷于处理面团,有很多这个方面的工作,2022年的一篇工作以部分点云作为输入,可以轻松从仿真转移到现实世界,在不给定外部环境和没有事先轨迹编程的情况下,将现实世界中将一团面团铺展成目标形状。
"Learning Closed-loop Dough Manipulation using a Differentiable Reset Module" by Carl Qi, Xingyu Lin, David Held, IROS 2022 (https://sites.google.com/view/dough-manipulation)
长时间操作可变形物体:Xingyu Lin的另外一篇工作展示了结合多个工具使用技能,如使用刀具切割、使用推杆推动和使用滚轴展开面团。
包饺子:Stanford SVL吴佳俊团队的Haochen Shi、许华哲(现清华叉院助理教授)、Zhiao Huang和Yunzhu Li(现UIUC助理教授)合作了RoboCraft和RoboCook两个工作,展示了机器人用多工具组合对面团进行长时间连续操作(Long-Horizon)的可能性。RoboCraft仅假定可以获得原始RGBD视觉观察,将传感数据转化为粒子,并使用图神经网络(GNNs)学习基于粒子的动力学模型,以捕获底层系统的结构。学到的模型与基于模型预测控制(MPC)的算法相耦合,来规划机器人的行为。仅仅使用10分钟的真实机器人交互数据,机器人就能够学习一个能够合成控制信号将弹塑性物体变形成各种目标形状的动力学模型,包括机器人以前从未遇到过的形状,有很好的泛化能力。
“RoboCraft: Learning to See, Simulate, and Shape Elasto-Plastic Objects with Graph Networks” by Haochen Shi*, Huazhe Xu*, Zhiao Huang, Yunzhu Li, Jiajun Wu,RSS 2022
五指灵巧手捏面团:UMass Amherst教授Chuang Gan团队的DexDeform通过人类示范来抽象多指手对可形变物体的熟练操作技能。参与这个工作的还有来自MIT的Sizhe Li 和UCSD的Zhiao Huang,他们都有很多工作是在虚拟环境中处理类似橡皮泥这类可行变物体。DexDeform这篇论文的两个导师Chuang Gan和UCSD的苏昊在3D模拟有很多工作。
“DexDeform: Dexterous Deformable Object Manipulation with Human Demonstrations and Differentiable Physics” by Sizhe Li, Zhiao Huang, Tao Chen, Tao Du, Hao Su, Joshua B. Tenenbaum, Chuang Gan, ICLR 2023
切割多材料物体:Shuran Song和Chuang Gan团队的RoboNinja,是一个用于多材料物体(例如,软外皮中带有刚性内核的物体,如鳄梨或芒果)的学习型切割系统。不同于切割单一材料物体(例如,切黄瓜),RoboNinja的目标是去除物体的软部分,同时保留刚性内核,从而最大化产量。
5. 模仿学习
模仿学习是在灵巧操作领域常用的方法。正如人类幼崽和大人模仿各种动作、表情和语言一样,让机器人模仿人类在特定任务中的行为是一种被广泛应用的方法。在手部细节操作上,有以下几个工作可以直观展示灵巧操作模仿学习。
灵巧操作模仿学习(无物理部署):UCSD王小龙团队提出的DexMV包括一个用于进行复杂灵巧操纵任务的多指机器人手的仿真系统,以及一个用于记录人手进行相同任务的大规模演示的计算机视觉系统。通过模仿学习算法,将人类动作转化为机器人演示,可以大幅改善机器人的学习,并解决了仅仅使用强化学习无法解决的复杂任务。
"DexMV: Imitation Learning for Dexterous Manipulation from Human Videos." by Yuzhe Qin*, Yueh-Hua Wu*, Shaowei Liu, Hanwen Jiang, Ruihan Yang, Yang Fu, Xiaolong Wang, ECCV 2022.
灵巧操纵模仿学习(有物理部署):通过单摄像头遥控系统,在只使用一个iPad和一台计算机的情况下高效地收集人手3D演示。该系统的一个关键贡献是,在物理模拟器中为每个用户构建了一个自定义的机器人手,该机器人手的运动学结构和形状与操作者的手相似。这不仅避免了在数据收集过程中不稳定的人机手重定位,还为不同用户提供了更直观和个性化的界面。作者首先在模拟环境中使用自定义的手进行远程操作示范,然后通过重新定位(retargeting)将示范转化为Allegro手,最后使用转化后的示范来训练策略,并部署到真实机器人上。这篇工作来自UCSD的Yuzhe Qin。
“From One Hand to Multiple Hands: Imitation Learning for Dexterous Manipulation from Single-Camera Teleoperation.” by Yuzhe Qin, Hao Su*, Xiaolong Wang*, IROS 2022.
6. 遥操作
遥操作(teleoperation)顾名思义,人手远程操作机器手,远程操作的方式可以是基于视觉,力控和触觉传感等。遥操作在灵巧操作领域是常用的方法,接下来让我们看一下最近在遥操作方面比较有代表性的工作。
基于视觉的遥操作:当前的基于视觉的远程操作系统是针对特定的机器人模型和部署环境进行设计的,随着机器人模型数量的增加和操作环境的多样化,系统扩展性较差。AnyTeleop,是一个统一的通用远程操作系统,支持在单个系统内使用多个不同的机械臂、手、现实环境和摄像头配置。AnyTeleop是英伟达AI实验室Dieter Fox、Yu-Wei Chao团队和UCSD王小龙、苏昊团队共同完成的工作。论文的一作Yuzhe Qin在灵巧操作方面有非常多的工作,他本科毕业于上海交大,目前在UCSD读博,由王小龙和苏昊共同指导。
“AnyTeleop: A General Vision-Based Dexterous Robot Arm-Hand Teleoperation System.Robotics: Science and Systems”, by Yuzhe Qin, Wei Yang, Binghao Huang, Karl Van Wyk, Hao Su, Xiaolong Wang, Yu-Wei Chao, Dieter Fox, RSS 2023
张建伟团队也有基于视觉的手臂遥操作系统:通过摄像头从最佳视角和适当距离捕获人手,这个遥操作系统由一个端到端的手部姿势回归网络和一个受控主动视觉系统组成。硬件使用的是Shadow Hand。
"A Dexterous Hand-Arm Teleoperation System based on Hand Pose Estimation and Active Vision" by Shuang Li, Norman Hendrich, Hongzhuo Liang, Philipp Ruppel, Changshui Zhang, Jianwei Zhang
基于力控的低成本遥操作系统:Pieter Abbeel团队提出的GELLO是一种用于机器人操作的低成本和直观的遥控系统的通用框架,可以降低收集大规模高质量人类演示数据的门槛。GELLO构建了一个具有与目标手臂相同运动学结构的GELLO控制器,控制器由3D打印部件和现成的电机组成,易于构建和使用。与模仿学习文献中常用的遥控设备(如VR控制器和3D空间鼠标)相比,GELLO可以更可靠、更高效地进行演示收集。GELLO在执行复杂的双手和接触丰富的操作任务方面的能力出色。此外,GELLO系统适配3种常用机器人ARM:Franka、UR5和xArm,并且所有软件和硬件都是开源的。
GELLO: A General, Low-Cost, and Intuitive Teleoperation Framework for Robot Manipulators Philipp Wu, Yide Shentu, Zhongke Yi, Xingyu Lin, Pieter Abbeel, https://wuphilipp.github.io/gello_site/
遥操作+模仿学习:Stanford Chelsea Finn和Berkeley Sergey Levine团队也开发了一套低成本遥操作系统ALOHA,并基于这套系统自定义远程操作界面直接从真实演示中执行端到端模仿学习。他们还开发了一种新颖的算法"基于变换器的动作分块"(ACT),通过简单地预测动作块来减小有效视域。在仅有10分钟的演示数据的情况下学会开启半透明的调味杯和插入电池等难度较大的任务,成功率达到80-90%。
Learning Fine-Granined Bimanual Manipulation with Low-cost Hardware, by Tony Z. Zhao, Vikash Kumar, Sergey Levine, Chelsea Finn, RSS, 2023
7. 多模态
触觉(Tactile)对人手至关重要,普通人在日常生活中对物体的感知,除了视觉信息最重要的就是触觉信息。人手对外界温度、纹理、质地、湿度等信息的感受可以为手部操作提供大量的参考。对灵巧手的操作,基于视觉和力觉的操作相对成熟,触觉反馈是限制灵巧手能力的最大瓶颈。学术界依然有不少致力于解决基于触觉的灵巧操作,我们这里挑几个近期的典型工作介绍一下。
基于触觉的灵巧操作:UCSD王小龙团队尝试仅使用简单的触觉数据来实现机器人的复杂协调,并提出了Touch Dexterity。这是一个新的灵巧操纵系统,可以只使用触觉感应来进行手中物体的旋转,研究人员在四指Allegro机器手的掌部和手指上安装了16个FSR接触传感器,每个传感器成本约为12美元,传感器只显示接触与否信号。
仅靠触觉信息的盲转:Touch Dexterity在不看对象的情况下仅使用触摸来进行手上的物体旋转,该系统使用密集的二进制力传感器(触摸或未触摸)覆盖整个机器人手的一侧(掌心、手指连杆、指尖),而不是依赖于小区域的精确触觉传感,设计成本低廉。作者在模拟环境中使用强化学习训练了一个手上旋转策略,仅依靠触觉感应,将该策略部署到真实机器人手上,旋转那些在训练中未出现的新对象。
“Rotating without Seeing: Towards In-hand Dexterity through Touch." by Zhao-Heng Yin*, Binghao Huang*, Yuzhe Qin, Qifeng Chen, Xiaolong Wang, RSS 2023.
摸瞎找东西: Chen Tao的一个工作是在视觉感知缺失、物体形状事先未知并且物体可以自由移动的场景中进行物体检索的问题。与视觉不同,摄像头可以观察整个场景,触觉传感器是局部的,只能观察与机械手接触的场景部分。此外,通过触觉传感器进行信息收集需要对接触表面施加力,这可能会干扰场景本身。这个工作提出了一个系统,能够利用灵巧机械手指尖触觉传感器的稀疏触觉反馈,在没有任何视觉反馈的情况下定位、识别和抓取新物体。
“TactoFind: A Tactile Only System for Object Retrieval” by Sameer Pai*, Tao Chen*, Megha Tippur*, Edward Adelson, Abhishek Gupta†, Pulkit Agrawal† (* indicates equal contribution, † indicates equal advising), ICRA 2023
使用多模态强化学习来解决多指抓取问题:德国洪堡大学张建伟和清华大学孙富春团队基于Shadow Hand五指手用多模态数据强化学习的方法(力矩传感、触觉传感、视觉等),通过在仿真和真实机器人上进行实验。这个工作证明基于多模态强化学习的方法在对未知物体的抓取表现优于严格编程的抓取或利用更少模态强化学习的方法。
"Multifingered Grasping Based on Multimodal Reinforcement Learning", by Hongzhuo Liang, Lin Cong, Norman Hendrich, Shuang Li, Fuchun Sun and Jianwei Zhang, ICRA 2023,https://lianghongzhuo.github.io/multifingered_rl_grasp
多模态倒液体网络(MP-Net),它能够通过依赖听觉和触觉输入来稳健地预测液位。MP-Net是在作者自行收集的多模态倒液体数据集上进行训练的。该数据集包括300个机器人倒液体记录,其中包含了音频和力/扭矩测量数据,用于三种类型的目标容器。
Hongzhuo Liang, Chuangchuang Zhou, Shuang Li, Xiaojian Ma, Norman Hendrich, Timo Gerkmann, Fuchun Sun, Marcus Stoffel and Jianwei Zhang, "Robust Robotic Pouring using Audition and Haptics",IROS 2020
8. 一些感想
关于灵巧操作和灵巧手相关的文章酝酿了将近三个月,一直没有找到好的角度去梳理。在经历了这大半年具身热和人形热之后,我觉得是时候冷静下来,重新思考究竟这波热潮的终点会是大家脑海中想象的通用机器人吗?除了大模型和Tesla的擎天柱,到底这波热潮的底层驱动力是什么?是软件或硬件技术上有什么实质性的突破吗?
带着这些问题,我觉得也许可以将机器人最后一厘米——物体操作这件事到目前为止能做到什么程度展示一下。这篇文章之所以展示如此大量的视频和动图,最重要的目的就是让各位看官去感受下机器人在最前沿的lab里能做到什么程度。看了上述学术最前沿的进展,我想大家也许会有些感触,在很多任务的操作层面,机器人离能用还很远。
对于在AI Robotics领域的创业者和学者,我想说的是,有一个非科班出身的投资人愿意花时间去追踪最新的进展,不急于一时,在这个长期看好的赛道里把工作做扎实,不人云亦云。如果你对文章有任何补充和纠正,或者有创业的想法,也或者还没想好只是想先认识下,都可以联系我。
我的微信二维码:
References:
https://www.cs.cmu.edu/~abhinavg/
https://r-pad.github.io/areas/
https://sites.google.com/view/vcd-cloth
https://binghao-huang.github.io/dynamic_handover/
https://xiaolonw.github.io/
https://www.lerrelpinto.com/#publications
https://cap.csail.mit.edu/improbable-ai-lab-lab-tours
https://fang-haoshu.github.io/
https://www.zhenjiaxu.com/
https://www.eng.yale.edu/grablab/research.html
https://tams.informatik.uni-hamburg.de/people/liang/
https://tams.informatik.uni-hamburg.de/
https://www.agile-robots.com/en/robotic-solutions/agile-hand
https://yufeiwang63.github.io/
“HACMan: Learning Hybrid Actor-Critic Maps for 6D Non-Prehensile Manipulation” by Wenxuan Zhou, Bowen Jiang, Fan Yang, Chris Paxton*, David Held*, CoRL 2023
“Learning to Grasp the Ungraspable with Emergent Extrinsic Dexterity” by Wenxuan Zhou, David Held, CoRL 2022
”Reinforcement Learning Based Pushing and GraspingObjects from Ungraspable Poses“ by Hao Zhang, Hongzhuo Liang, Lin Cong, Jianzhi Lyu, Long Zeng, Pingfa Feng, Jianwei Zhang
原创不易
快来戳一下”关注“给些鼓励吧!
欢迎“点赞”“打赏”“在看”三连!
微信扫码关注该文公众号作者