将机器人的手牵向人类的手：灵巧操作华人论文综述

2023-10-28 13:10

在智人的发展历史中，聪明的大脑和灵巧的双手起到了至关重要的作用，人类灵巧的五指手可以操作工具，让世界变得丰富多彩。在通用机器人成为可能的路上，除了大脑，我认为最大的制约是机器人能否拥有一双和人类一样灵巧的手。那么公元2023年，机器人的双手到底可以完成什么样的任务呢？

带着好奇，我浏览了上百篇近两三年关于机器人手部操作（Hand-based manipulation）（夹爪或多指）的论文，梳理了在这个细分领域有较多工作华人学者，也将呈现在一些常见任务上机器人手部能达到的最好成果。

在手部操作上，本文重点探讨偏灵巧操作的Robot Learning，比如利用强化学习在模拟器中训练策略，然后迁移到物理机器人上，相较传统方法有更强的通用性。尽管非常希望覆盖全面，但不免遗漏一些优秀的工作和学者，也欢迎读者留言指教。

特别感谢陈源培、黄秉豪，汪怡暄和谢曼给于的专业提示。

以下为本文目录

👇

1.灵巧操作华人图谱

2.机器人的手

3.刚体操作

4.可行变物体操作

5. 模仿学习

6. 遥操作

7. 多模态

8. 一些感想

1. 灵巧操作华人图谱

本文是在上一篇AI+Robotics华人图谱基础上的进一步细化，其中侧重手部操作的学者工作梳理如下。其他侧重机械臂操作, LLM+Robotics，locomotion，3D Object等细分方向也许会有后续文章梳理。

紫色highlight表示在海外任教，黄色highlight表示在国内任教，绿色表示在读PHD。

CMU的David Held实验室有大量关于手部灵巧操作的工作，但大多采用夹爪。他的团队很多工作涉及操作新颖的物体，包括可行变物体（例如布料，液体，面团和关节式物体）以及多模态学习（机器人的多传感器，包括深度、RGB和触觉数据）。我们这篇文章也引用了大量David Held团队华人博士生的工作，包括Wenxuan Zhou, Yufei Wang和Xingyu Lin。

CMU的另一位教授Abhinav Gupta很多学生是目前在多指操作领域非常活跃的学者，包括我们本文会特别介绍的USCD副教授王小龙（Abhinav的博士），纽约大学的副教授Lerrel Pinto（Abhinav的博士），在MIT读博的Tao Chen（Abhinav的硕士），以及在CMU读博的Wenxuan Zhou（Abhinav的硕士）。

UC Berkeley的Pieter Abbeel分支在灵巧操作方面依然有很强的影响力，他的学生Pulkit Agrawal（MIT教授）和Deepak Pathak（CMU教授）都是在灵巧操作领域比较知名的教授。其中Pulkit Agrawal的学生Tao Chen在灵巧操作上有很多优秀工作，Deepak Pathak提出了Leap Hand灵巧手对标韩国的Allegro Hand。

Stanford李飞飞分支在机器人手部操作有比较多工作的华人学者包括Karen Liu，Yuke Zhu和Yunzhu Li和吴佳俊。国内清华叉院许华哲和上海交通大学卢策吾在李飞飞SVL团队工作过，他们也有很多手部操作相关的工作。

UCSD的王小龙团队在灵巧操作领域有很多成果，本文将引用王小龙的博士生Yuzhe Qin和硕士生Binghao Huang（现在UIUC Yunzhu Li团队读博）的多篇工作。北美除了以上这些院校，Nvidia和UW的Dieter Fox团队在灵巧操作方面也有很多出色的工作。

清华孙富春和德国洪堡大学张建伟在五指灵巧操作方面也有非常多积累，我们后文会提及。英国Bristol大学在灵巧手和灵巧操作方面有很多成果，华人教授Dandan Zhang也是这个领域比较知名的教授。此外，EPFL的LASA是专注在灵巧操作方向的实验室。

2. 机器人的手

灵巧操纵一直以来都是机器人领域的挑战。虽然机器学习技术在模拟环境中显示出一些潜力，但结果大多仅限于模拟，这主要归因于缺乏合适的硬件。机器人手部常用的选择是两指（夹爪）和多指灵巧手，我们这里简单介绍一下高校科研常用的末端执行器选择。

夹爪：在进行一些基本的直线操作，夹爪是常用的末端执行器，硬件门槛不高。

多指灵巧手：科研界常用的多指灵巧手有三指D'Claw，四指Allegro和五指Shandow Hand。

除了上面常用的多指灵巧手，一些实验室也会自己搭建硬件系统。比如CMU的助理教授Deepak Pathak团队的LEAP Hand。其成本仅为Allegro Hand的1/8，他们还研发了软体灵巧手Dash Hand，成本均在2000美金以内。

其他可能选择的灵巧手有德国宇航的DLR Hand，医疗级假肢BeBionic Hand，Schunk SVH hand, Vincent hand。

国内做灵巧手的代表有哈工大刘宏教授团队，中科院自动化所王鹏团队，因时科技等。

3. 刚体操作

从物体的分类层面，常见的操作对象可以分为刚体（比如乐高、易拉罐等）、可行变物体（比如面团，布料等）和液体。因为刚体相对容易操作，所以很多涉及刚体的工作可以部署到物理机器人上。针对刚体的操作，学术界的一些研究方向包括手中物体重定位（简单理解就是按照特定方向拿东西）、非抓握操作（不用手拿而是用推或戳）、外部灵巧性操作（比如利用墙壁把箱子竖起来）、长时间（Long Horizon）灵巧操作（多动作连续操作完成一项任务）。所有这些学术名词对人类来说都是不值一提的手部动作，下面我们逐一看下机器人做到了什么程度。

手中物体重定向：手中物体的重新定向对于执行许多灵巧操纵任务是必要的，Chen Tao等人提出了一个在模拟中使用强化学习进行训练并在现实世界中进行评估的通用物体重新定向控制器。该控制器具有对未在训练中使用的新物体进行泛化的能力。由下向上的手持状态下重新定向悬浮的物体，手必须在重新定向过程中抵消重力。论文中使用的硬件是成本不到5000美元的开源组件。

"Visual Dexterity: In-hand Dexterous Manipulation from Depth", by Tao Chen, Megha Tippur, Siyang Wu, Vikash Kumar, Edward Adelson, Pulkit Agrawal

Chen Tao和Jie Xu的另一个工作提出了一个简单的无模型框架，在模拟器中学习在手朝上和手朝下的情况下重新定向物体，并展示了这些策略在两种情况下都能够重新定向超过2000个几何不同的物体。这些学习的策略在新物体上表现出强大的零次迁移性能。但这个工作仅在模拟器中实现，并未应用到物理世界的机器手上。这篇论文获得了2021 CoRL Best Paper。

“A System for General In-Hand Object Re-Orientation” byTao Chen, Jie Xu, Pulkit Agrawal，CoRL 2021 (Best Paper Award)

最近，英伟达联合宾大、加州理工和UT Austin联合发布的Eureka结合了大型语言模型和强化学习的研究成果，用GPT4来完善奖励函数，用强化学习来训练机器人控制器，实现了在虚拟器中五指手转笔、盘核桃等复杂的灵巧操作。

Eureka: Human-Level Reward Design via Coding Large Language Models, by Jason Ma, et al，https://eureka-research.github.io/

非抓握操作和外部灵巧性操作：当物体处于难以抓取的姿势时，例如书籍或其他大型平面物体水平放在桌子上时，进行抓取是一项具有挑战性的任务。针对这个问题，有两个方向的工作是非抓握操作和外部灵巧性操作。其中非抓握操作指在不需要抓取的情况下操作物体，比如用戳或者推的方式；外部灵巧性指利用外部环境帮助夹爪操作物体，比如将一个躺着的长方形的盒子推到墙边竖起来，再夹住窄边，夹爪学会利用墙壁将物体竖起来。David Held团队的Wenxuan Zhou的很多工作涉及以夹爪为主的非抓握操作和外部灵巧性操作。清华大学的孙富春团队与德国洪堡大学张建伟团队在也有这个方面的工作，具体论文可以参看reference部分。这里我们展示Wenxuan Zhou一篇文章的视频来直观展示飞抓握操作和外部灵巧性操作。

“Learning to Grasp the Ungraspable with Emergent Extrinsic Dexterity” by Wenxuan Zhou, David Held, CoRL 2022

对刚体的长时间灵巧操作（Long-Horizon）

你扔我接：你扔我接对人类很常见，但对机器人来说充满挑战：机器人需要以高速进行这些动态动作，精确协作，并与各种不同的物体互动。这个工作用机械臂和五指手作为硬件系统，使用多智能体强化学习在模拟环境中训练该系统，并进行Sim2Real转移以在真实机器人上部署。为了克服Sim2Real的差距，作者提供了多种新颖的算法设计，包括学习物体的轨迹预测模型。这样的模型可以帮助机器人捕手实时估计物体的运动轨迹，然后相应地做出反应。论文的一作Binghao Huang和Yuanpei Chen在灵巧操作方面有非常多出色的工作。

“Dynamic Handover: Throw and Catch with Bimanual Hands”， Binghao Huang*, Yuanpei Chen*, Tianyu Wang, Yuzhe Qin, Yaodong Yang, Nikolay Atanasov, Xiaolong Wang, CoRL 2023

拼乐高：灵巧手在拼乐高任务上面临着高维动作空间和长期任务的复杂组合动力学的挑战。Stanford Karen Liu团队提出了一种基于强化学习（RL）的通用系统，它通过链接多个灵巧策略来实现长期任务目标。这个工作也有非常好的Sim2Real的迁移能力。

“Sequential Dexterity: Chaining Dexterous Policies for Long-Horizon Manipulation” by Yuanpei Chen, Chen Wang, Li Fei-Fei, C. Karen Liu, CoRL 2023

在长时间（Long-Horizon）灵巧操作方面，腾讯RoboticsX黄碧丹团队也有非常多优秀的工作，他们在2023年4月推出的机械臂搭配3指灵巧手演示的调酒工作非常惊艳。UT Austin的朱玉可带领他的学生做了一个有趣的工作是煮泡面机器人，这个机器人的手用的是夹爪。这两个工作的相关视频在AI+Robotics华人图谱可以找到。

4. 可行变物体操作

可形变物体的操作在我们的日常生活中有许多应用，例如捏面团和叠衣服。但对机器人来说，可行变物体的操作特别具有挑战：面团这类弹塑性物体，因为缺乏紧凑的状态表示，需要丰富的接触互动；布料因为褶皱，涉及很多遮挡问题的处理。在末端执行器的选择上，相比刚性物体，可行变物体的物理操作更多是以夹爪的形式进行，多指对面团这类物体的操作更多的是在仿真环境中进行的。下面我们挑几个典型的工作来看看机器人对可行变物体的操作上已经达到了什么程度。

穿衣服：3D空间对可变形布料进行复杂操纵对机器人来说是一个具有挑战的任务。过往的方法涉及大量假设，需要固定的服装和手臂姿势，泛化能力差。CMU David Held团队的Yufei Wang在布料操作上有不少工作，他2023年的一篇工作可以对不同手臂姿势和不同服装的参与者穿衣服。

“One Policy to Dress Them All: Learning to Dress People with Diverse Poses and Garments” by Yufei Wang, Zhanyi Sun, Zackory Erickson*, David Held*, RSS 2023，https://sites.google.com/view/one-policy-dress

对可行变布料进行触觉推理：Yufei Wang的另一个工作使用视觉和机器人运动观测进行触觉推理（施加力的位置和大小）。

“Visual Haptic Reasoning: Estimating Contact Forces by Observing Deformable Object Interactions” by Yufei Wang, David Held, Zackory Erickson, IROS 2022

布料展开：如果我有一个机器人保姆，我最需要它做的家务就是套被套，在看了十几篇关于布料操作的论文后，我觉得十年内套被套这件事情，人类还是无法解放自己。哥伦比亚大学Shuran Song团队介绍了一种双机械臂协同可移动电吹风的方案，是目前我看到的叠衣服效率比较高的。DextAIRity是一个自监督学习框架，通过一系列抓取或基于气流的吹气动作来学习有效执行目标任务。通过使用封闭回路的吹气方案，系统根据视觉反馈不断调整吹气方向，以适应高度随机的动力学。这篇工作的一作 Zhenjia Xu本科毕业于上海交通大学，目前在Shuran Song团队读博，他也是后文会介绍的切牛油果文章RoboNinja的一作。

“DextAIRity: Deformable Manipulation Can be a Breeze” by Zhenjia Xu, Cheng Chi, Benjamin Burchifiel, Eric Cousineau, Siyuan Feng, Shuran Song, RSS 2022, https://dextairity.cs.columbia.edu/

面团操作

出于对面食的热爱，很多学者都在尝试用机器人揉面，切面，甚至包饺子。在物理世界中，面团操作大多是夹爪配合多工具组合，也有一些学者在仿真世界中用多指手对面团进行操作。到目前为止，机器人针对面团进行最复杂的操作是包饺子，饺子下锅之后会怎么样就不知道了。

压面团：从RGB-D图像将一块面团铺展成特定形状的任务，对人类来说非常简单，但对机器人来说，如果没有固定的外部环境和编程好的运动轨迹，将一个面团压成一个面饼是非常难的任务。CMU David Held团队的Xingyu Lin非常热衷于处理面团，有很多这个方面的工作，2022年的一篇工作以部分点云作为输入，可以轻松从仿真转移到现实世界，在不给定外部环境和没有事先轨迹编程的情况下，将现实世界中将一团面团铺展成目标形状。

"Learning Closed-loop Dough Manipulation using a Differentiable Reset Module" by Carl Qi, Xingyu Lin, David Held, IROS 2022 (https://sites.google.com/view/dough-manipulation)

长时间操作可变形物体：Xingyu Lin的另外一篇工作展示了结合多个工具使用技能，如使用刀具切割、使用推杆推动和使用滚轴展开面团。

“Planning with Spatial-Temporal Abstraction from Point Clouds for Deformable Object Manipulation” by Xingyu Lin*, Carl Qi*, Yunchu Zhang, Zhiao Huang, Katerina Fragkiadaki, Yunzhu Li, Chuang Gan, David Held, CoRL 2022 （https://sites.google.com/view/pasta-plan ）

包饺子：Stanford SVL吴佳俊团队的Haochen Shi、许华哲（现清华叉院助理教授）、Zhiao Huang和Yunzhu Li（现UIUC助理教授）合作了RoboCraft和RoboCook两个工作，展示了机器人用多工具组合对面团进行长时间连续操作（Long-Horizon）的可能性。RoboCraft仅假定可以获得原始RGBD视觉观察，将传感数据转化为粒子，并使用图神经网络（GNNs）学习基于粒子的动力学模型，以捕获底层系统的结构。学到的模型与基于模型预测控制（MPC）的算法相耦合，来规划机器人的行为。仅仅使用10分钟的真实机器人交互数据，机器人就能够学习一个能够合成控制信号将弹塑性物体变形成各种目标形状的动力学模型，包括机器人以前从未遇到过的形状，有很好的泛化能力。

“RoboCraft: Learning to See, Simulate, and Shape Elasto-Plastic Objects with Graph Networks” by Haochen Shi*, Huazhe Xu*, Zhiao Huang, Yunzhu Li, Jiajun Wu，RSS 2022

五指灵巧手捏面团：UMass Amherst教授Chuang Gan团队的DexDeform通过人类示范来抽象多指手对可形变物体的熟练操作技能。参与这个工作的还有来自MIT的Sizhe Li 和UCSD的Zhiao Huang，他们都有很多工作是在虚拟环境中处理类似橡皮泥这类可行变物体。DexDeform这篇论文的两个导师Chuang Gan和UCSD的苏昊在3D模拟有很多工作。

“DexDeform: Dexterous Deformable Object Manipulation with Human Demonstrations and Differentiable Physics” by Sizhe Li, Zhiao Huang, Tao Chen, Tao Du, Hao Su, Joshua B. Tenenbaum, Chuang Gan， ICLR 2023

切割多材料物体：Shuran Song和Chuang Gan团队的RoboNinja，是一个用于多材料物体（例如，软外皮中带有刚性内核的物体，如鳄梨或芒果）的学习型切割系统。不同于切割单一材料物体（例如，切黄瓜），RoboNinja的目标是去除物体的软部分，同时保留刚性内核，从而最大化产量。

“RoboNinja: Learning an Adaptive Cutting Policy for Multi-Material Objects” by Zhenjia Xu, Zhou Xian, Xingyu Lin, Cheng Chi, Zhiao Huang, Chuang Gan, Shuran Song，RSS 2022

5. 模仿学习

模仿学习是在灵巧操作领域常用的方法。正如人类幼崽和大人模仿各种动作、表情和语言一样，让机器人模仿人类在特定任务中的行为是一种被广泛应用的方法。在手部细节操作上，有以下几个工作可以直观展示灵巧操作模仿学习。

灵巧操作模仿学习（无物理部署）：UCSD王小龙团队提出的DexMV包括一个用于进行复杂灵巧操纵任务的多指机器人手的仿真系统，以及一个用于记录人手进行相同任务的大规模演示的计算机视觉系统。通过模仿学习算法，将人类动作转化为机器人演示，可以大幅改善机器人的学习，并解决了仅仅使用强化学习无法解决的复杂任务。

"DexMV: Imitation Learning for Dexterous Manipulation from Human Videos." by Yuzhe Qin*, Yueh-Hua Wu*, Shaowei Liu, Hanwen Jiang, Ruihan Yang, Yang Fu, Xiaolong Wang, ECCV 2022.

灵巧操纵模仿学习（有物理部署）：通过单摄像头遥控系统，在只使用一个iPad和一台计算机的情况下高效地收集人手3D演示。该系统的一个关键贡献是，在物理模拟器中为每个用户构建了一个自定义的机器人手，该机器人手的运动学结构和形状与操作者的手相似。这不仅避免了在数据收集过程中不稳定的人机手重定位，还为不同用户提供了更直观和个性化的界面。作者首先在模拟环境中使用自定义的手进行远程操作示范，然后通过重新定位（retargeting）将示范转化为Allegro手，最后使用转化后的示范来训练策略，并部署到真实机器人上。这篇工作来自UCSD的Yuzhe Qin。

“From One Hand to Multiple Hands: Imitation Learning for Dexterous Manipulation from Single-Camera Teleoperation.” by Yuzhe Qin, Hao Su*, Xiaolong Wang*, IROS 2022.

6. 遥操作

遥操作（teleoperation）顾名思义，人手远程操作机器手，远程操作的方式可以是基于视觉，力控和触觉传感等。遥操作在灵巧操作领域是常用的方法，接下来让我们看一下最近在遥操作方面比较有代表性的工作。

基于视觉的遥操作：当前的基于视觉的远程操作系统是针对特定的机器人模型和部署环境进行设计的，随着机器人模型数量的增加和操作环境的多样化，系统扩展性较差。AnyTeleop，是一个统一的通用远程操作系统，支持在单个系统内使用多个不同的机械臂、手、现实环境和摄像头配置。AnyTeleop是英伟达AI实验室Dieter Fox、Yu-Wei Chao团队和UCSD王小龙、苏昊团队共同完成的工作。论文的一作Yuzhe Qin在灵巧操作方面有非常多的工作，他本科毕业于上海交大，目前在UCSD读博，由王小龙和苏昊共同指导。

“AnyTeleop: A General Vision-Based Dexterous Robot Arm-Hand Teleoperation System.Robotics: Science and Systems”, by Yuzhe Qin, Wei Yang, Binghao Huang, Karl Van Wyk, Hao Su, Xiaolong Wang, Yu-Wei Chao, Dieter Fox, RSS 2023

张建伟团队也有基于视觉的手臂遥操作系统：通过摄像头从最佳视角和适当距离捕获人手，这个遥操作系统由一个端到端的手部姿势回归网络和一个受控主动视觉系统组成。硬件使用的是Shadow Hand。

"A Dexterous Hand-Arm Teleoperation System based on Hand Pose Estimation and Active Vision" by Shuang Li, Norman Hendrich, Hongzhuo Liang, Philipp Ruppel, Changshui Zhang, Jianwei Zhang

基于力控的低成本遥操作系统：Pieter Abbeel团队提出的GELLO是一种用于机器人操作的低成本和直观的遥控系统的通用框架，可以降低收集大规模高质量人类演示数据的门槛。GELLO构建了一个具有与目标手臂相同运动学结构的GELLO控制器，控制器由3D打印部件和现成的电机组成，易于构建和使用。与模仿学习文献中常用的遥控设备（如VR控制器和3D空间鼠标）相比，GELLO可以更可靠、更高效地进行演示收集。GELLO在执行复杂的双手和接触丰富的操作任务方面的能力出色。此外，GELLO系统适配3种常用机器人ARM：Franka、UR5和xArm，并且所有软件和硬件都是开源的。

GELLO: A General, Low-Cost, and Intuitive Teleoperation Framework for Robot Manipulators Philipp Wu, Yide Shentu, Zhongke Yi, Xingyu Lin, Pieter Abbeel, https://wuphilipp.github.io/gello_site/

遥操作+模仿学习：Stanford Chelsea Finn和Berkeley Sergey Levine团队也开发了一套低成本遥操作系统ALOHA，并基于这套系统自定义远程操作界面直接从真实演示中执行端到端模仿学习。他们还开发了一种新颖的算法"基于变换器的动作分块"（ACT），通过简单地预测动作块来减小有效视域。在仅有10分钟的演示数据的情况下学会开启半透明的调味杯和插入电池等难度较大的任务，成功率达到80-90%。

Learning Fine-Granined Bimanual Manipulation with Low-cost Hardware, b‍y Tony Z. Zhao, Vikash Kumar, Sergey Levine, Chelsea Finn, RSS, 2023

7. 多模态

触觉（Tactile）对人手至关重要，普通人在日常生活中对物体的感知，除了视觉信息最重要的就是触觉信息。人手对外界温度、纹理、质地、湿度等信息的感受可以为手部操作提供大量的参考。对灵巧手的操作，基于视觉和力觉的操作相对成熟，触觉反馈是限制灵巧手能力的最大瓶颈。学术界依然有不少致力于解决基于触觉的灵巧操作，我们这里挑几个近期的典型工作介绍一下。

基于触觉的灵巧操作：UCSD王小龙团队尝试仅使用简单的触觉数据来实现机器人的复杂协调，并提出了Touch Dexterity。这是一个新的灵巧操纵系统，可以只使用触觉感应来进行手中物体的旋转，研究人员在四指Allegro机器手的掌部和手指上安装了16个FSR接触传感器，每个传感器成本约为12美元，传感器只显示接触与否信号。

仅靠触觉信息的盲转：Touch Dexterity在不看对象的情况下仅使用触摸来进行手上的物体旋转，该系统使用密集的二进制力传感器（触摸或未触摸）覆盖整个机器人手的一侧（掌心、手指连杆、指尖），而不是依赖于小区域的精确触觉传感，设计成本低廉。作者在模拟环境中使用强化学习训练了一个手上旋转策略，仅依靠触觉感应，将该策略部署到真实机器人手上，旋转那些在训练中未出现的新对象。

“Rotating without Seeing: Towards In-hand Dexterity through Touch." by Zhao-Heng Yin*, Binghao Huang*, Yuzhe Qin, Qifeng Chen, Xiaolong Wang, RSS 2023.

摸瞎找东西: Chen Tao的一个工作是在视觉感知缺失、物体形状事先未知并且物体可以自由移动的场景中进行物体检索的问题。与视觉不同，摄像头可以观察整个场景，触觉传感器是局部的，只能观察与机械手接触的场景部分。此外，通过触觉传感器进行信息收集需要对接触表面施加力，这可能会干扰场景本身。这个工作提出了一个系统，能够利用灵巧机械手指尖触觉传感器的稀疏触觉反馈，在没有任何视觉反馈的情况下定位、识别和抓取新物体。

“TactoFind: A Tactile Only System for Object Retrieval” by Sameer Pai*, Tao Chen*, Megha Tippur*, Edward Adelson, Abhishek Gupta†, Pulkit Agrawal† (* indicates equal contribution, † indicates equal advising), ICRA 2023

使用多模态强化学习来解决多指抓取问题：德国洪堡大学张建伟和清华大学孙富春团队基于Shadow Hand五指手用多模态数据强化学习的方法（力矩传感、触觉传感、视觉等），通过在仿真和真实机器人上进行实验。这个工作证明基于多模态强化学习的方法在对未知物体的抓取表现优于严格编程的抓取或利用更少模态强化学习的方法。

"Multifingered Grasping Based on Multimodal Reinforcement Learning", by Hongzhuo Liang, Lin Cong, Norman Hendrich, Shuang Li, Fuchun Sun and Jianwei Zhang, ICRA 2023，https://lianghongzhuo.github.io/multifingered_rl_grasp

多模态倒液体网络（MP-Net），它能够通过依赖听觉和触觉输入来稳健地预测液位。MP-Net是在作者自行收集的多模态倒液体数据集上进行训练的。该数据集包括300个机器人倒液体记录，其中包含了音频和力/扭矩测量数据，用于三种类型的目标容器。

Hongzhuo Liang, Chuangchuang Zhou, Shuang Li, Xiaojian Ma, Norman Hendrich, Timo Gerkmann, Fuchun Sun, Marcus Stoffel and Jianwei Zhang, "Robust Robotic Pouring using Audition and Haptics",IROS 2020

8. 一些感想

关于灵巧操作和灵巧手相关的文章酝酿了将近三个月，一直没有找到好的角度去梳理。在经历了这大半年具身热和人形热之后，我觉得是时候冷静下来，重新思考究竟这波热潮的终点会是大家脑海中想象的通用机器人吗？除了大模型和Tesla的擎天柱，到底这波热潮的底层驱动力是什么？是软件或硬件技术上有什么实质性的突破吗？

带着这些问题，我觉得也许可以将机器人最后一厘米——物体操作这件事到目前为止能做到什么程度展示一下。这篇文章之所以展示如此大量的视频和动图，最重要的目的就是让各位看官去感受下机器人在最前沿的lab里能做到什么程度。看了上述学术最前沿的进展，我想大家也许会有些感触，在很多任务的操作层面，机器人离能用还很远。

对于在AI Robotics领域的创业者和学者，我想说的是，有一个非科班出身的投资人愿意花时间去追踪最新的进展，不急于一时，在这个长期看好的赛道里把工作做扎实，不人云亦云。如果你对文章有任何补充和纠正，或者有创业的想法，也或者还没想好只是想先认识下，都可以联系我。

我的微信二维码：

References：

https://www.cs.cmu.edu/~abhinavg/

https://r-pad.github.io/areas/

https://sites.google.com/view/vcd-cloth

https://binghao-huang.github.io/dynamic_handover/

https://xiaolonw.github.io/

https://www.lerrelpinto.com/#publications

https://cap.csail.mit.edu/improbable-ai-lab-lab-tours

https://fang-haoshu.github.io/

https://www.zhenjiaxu.com/

https://www.eng.yale.edu/grablab/research.html

https://tams.informatik.uni-hamburg.de/people/liang/

https://tams.informatik.uni-hamburg.de/

https://www.agile-robots.com/en/robotic-solutions/agile-hand

https://yufeiwang63.github.io/

“HACMan: Learning Hybrid Actor-Critic Maps for 6D Non-Prehensile Manipulation” by Wenxuan Zhou, Bowen Jiang, Fan Yang, Chris Paxton*, David Held*, CoRL 2023

“Learning to Grasp the Ungraspable with Emergent Extrinsic Dexterity” by Wenxuan Zhou, David Held, CoRL 2022

”Reinforcement Learning Based Pushing and GraspingObjects from Ungraspable Poses“ by Hao Zhang, Hongzhuo Liang, Lin Cong, Jianzhi Lyu, Long Zeng, Pingfa Feng, Jianwei Zhang

原创不易

快来戳一下”关注“给些鼓励吧！

欢迎“点赞”“打赏”“在看”三连！

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章