CVPR 2024 | 双手协作双物体的数据集TACO：引领可泛化手物交互的新方向

公众号新闻

2024-05-28 05:05

论文题目：

TACO: Benchmarking Generalizable Bimanual Tool-ACtion-Object Understanding

论文链接：

https://arxiv.org/pdf/2401.08399.pdf

项目主页：

https://taco2024.github.io/

视频链接：

https://www.youtube.com/watch?v=bIgHylU1oZo&feature=youtu.be

数据集链接：

https://onedrive.live.com/?authkey=%21AGNkrHubnoo8LCs&id=5411ECE5D2EDAD9F%21126&cid=5411ECE5D2EDAD9F

代码链接：

https://github.com/leolyliu/TACO-Instructions

TL; DR

本工作构建了一个大规模双手协作双物体的数据集 TACO，涵盖了大量日常生活中双手使用工具进行多物体协作的场景，通过提供丰富的交互三元组数据（工具、动作、使用对象），为通用手物交互的理解与生成带来了新的挑战和机遇。

研究目标和主要贡献

人们在日常生活中能轻易地用双手协作工具和使用对象，例如炒菜时用铲子在锅中搅拌。我们将这样的行为模式刻画成<工具、动作、使用对象>的交互三元组，如<铲子、搅拌、锅>。

不同的交互三元组之间通常会因享有相似的工具、动作或使用对象而拥有相似的动作模式，因此本工作按照三元组对手物交互的数据进行分类，致力于研究技术方法在不同物体形状和不同三元组间的泛化能力。这类手物交互动作的生成可被广泛应用于虚拟现实、增强现实、人机协作和灵巧手操作等领域。

理解与生成这种交互动作需要大量数据的支持，然而先前的手物交互数据集大多关注单手或单个物体的动作。先前唯一的双手多物体数据集 [1] 受限于极少的物体和三元组而难以支持有关泛化性的研究。

为了填补数据的空缺，本工作首先构建了一个真实世界中大规模四维手物交互数据集——TACO。TACO 数据集包含从 12 个第三人称视角和一个第一人称视角下采集到的 5.2M 张彩色图片、2500 余段交互动作、131 种三元组和 196 个精细的物体网格模型，从而成为了双手多物体协作的一个知识库。为支持动作预测与生成相关的研究，数据集提供手物网格序列、手物二维掩码和去除标志点的彩色图片等标注。

其次，本工作提出了一种全自动的数据标注方法以用低成本扩大数据集规模同时保证数据标注的高质量。该方法融合来自第三视角的视频和来自光学动捕系统的物体标志点坐标，用基于优化的算法得到手物网格序列，进而利用预训练的分割网络估算手物的掩码，并利用先进的图像补全模型生成去除标志点的图片。

得益于 TACO 数据集丰富的动作模式和标注信息，本工作提出了三个关注可泛化手物交互理解与生成的基准任务——动作识别、动作预测和合作式抓取生成。三个基准任务中的大量实验证明了现有的技术方法在物体几何的泛化、物体类别的泛化和交互三元组的泛化上表现欠佳，这为今后的研究带来了新的挑战和机遇。

本工作的主要贡献如下：

构建了 TACO 数据集，是首个真实世界中大规模四维双手协作多物体的数据集，涵盖多样的“工具-动作-使用对象”的组合和物体几何形状。
设计了一个全自动的数据标注方法，能够获取手和物体精确的网格序列和二维掩码，以及无标志点的彩色图像。
提出了三个关注可泛化的手物交互理解与生成的基准任务，并详细探讨了 TACO 数据集带来的挑战和机遇。

数据集动作示例如下：

TACO数据集构建

如下图所示，数据采集系统包含 12 个第三人称视角下的 FLIR 工业相机（分辨率 4096x3000）、1 个头戴 Realsense L515 相机（分辨率 1920x1080）和包含 6 个红外相机的 NOKOV 光学动作捕捉系统。所有数据的录制频率均为 30Hz。

本工作使用 EinScan 手持式三维扫描仪获取物体的高精度网格模型，每个物体模型包含约 100K 个三角面片。数据集的物体均为刚体，数据采集时每个物体的表面会贴上 4 个标志点，由光学动捕系统跟踪标志点位置并由此解算物体位姿。

数据标注方法如上图所示，给定第三人称视角彩色图像、物体网格模型和其上标志点的坐标，方法依次执行物体位姿优化、手部关键点定位、手部位姿优化、手物分割和标志点移除步骤。

物体位姿优化的目标是求解各个标志点相对物体的精确位置。由于人工测量结果存在较大误差，物体位姿优化以人工测量的结果为初值，优化出最优的相对位置使得各个标志点到物体表面最近点的平均距离和各个标志点与物体的平均穿模距离的加权和最小。

手部关键点定位希望估计手部骨骼各个关键点在世界系下的三维坐标。为此，针对每个视角的彩色图像，本工作使用预训练的 YOLOv3 网络 [2] 检测双手在图中的外接矩形框，并将其输入 MMPose 骨骼检测模型 [3] 得到手部关键点在图像上的像素坐标。本工作使用三角化将多视角像素坐标转化为世界系下的三维坐标，并利用 RANSAC 算法 [4] 提高结果的鲁棒性。

手部位姿优化希望获得 MANO 模型 [5] 表示的手部网格，方法是设计关于模型参数的损失函数并求解最优参数最小化损失函数的值。损失函数综合考虑 MANO 模型骨骼与手部关键点三维坐标的偏差、手部骨骼转动范围、骨骼运动的连续性、手物接触情况和手物穿模情况这五个方面。

手物分割即获取手和物体在彩色图像上的二维掩码。这一环节直接应用 SAM 模型 [6]，将上一步得到的手物网格投影至图像得到其外接矩形框并将其作为模型的提示。

由于物体上的标志点破坏了物体的外观，本工作额外设计了标志点移除模块，针对中心位于 P、半径为 R 的标志点，该模块将一个中心位于 P、半径为 2R 的球投影至各个视角的图像上获取其掩码，进而使用 LAMA 图像补全模型 [7] 重新绘制掩码区域的颜色。下图展示了一个标志点移除的示例：

数据多样性

TACO 数据集包含 2.5K 段交互动作、20 种家用物体类别、196 个物体网格模型、15 种家务动作和 14 位采集员，涵盖共计 131 种“工具-动作-使用对象”的交互三元组。如下面的视频和图片所示，数据集的物体形状多样，且不同三元组之间关系紧密，因而其能够支持不同物体几何形状、不同物体类别、不同动作类别等多个方面的泛化性研究。

基准任务

基于 TACO 数据集物体几何和交互三元组的多样性，本工作将数据集划分为一个训练集和四个关注不同泛化方式的测试集：

S1：无泛化。工具的几何形状和交互三元组均存在于训练集。
S2：几何形状的泛化。工具的几何形状是全新的，交互三元组存在于训练集。
S3：交互三元组的泛化。交互三元组是全新的，而工具的类别和几何形状均存在于训练集。
S4：综合泛化。工具的类别是全新的，导致出现新的工具的几何形状和交互三元组。

动作识别任务致力于分析第一人称视角下的手物交互的视频中的动作类别，物体的外接矩形框可以作为任务的额外输入辅助分析。不同于传统的动作识别任务，本工作关注模型在遇见全新物体或交互三元组时的表现。此基准任务采用 Acc-1 和 Acc-5 两种常用的评价指标。

下表对比了一个传统的动作识别模型 AIM [8] 和一个关注组合泛化的少样本模型 CACNF [9]。两个模型在 S4 上的两种准确率均显著低于在 S1 上的准确率，揭示了现有方法泛化能力的不足。相比物体几何的泛化，模型在交互三元组上的泛化更加困难。CACNF 在更困难的 S3 和 S4 集合上显著优于 AIM，体现出关注组合泛化的模型对物体和动作更强的解耦能力以及更强的泛化能力。

动作预测任务目标是根据物体几何形状和前 10 帧的手物位姿序列预测接下来 10 帧二者的序列。不同于先前研究的人-物交互动作预测，完整的手物交互动作通常在更短的时间内完成，这使得此任务极具挑战性。

本任务的评价指标为平均关节位置误差、平均位移误差和平均朝向误差。实验对比两种预测模型 InterRNN [10]、CAHMP [11] 和两种生成模型 InterVAE [10]、MDM [12]。如下表所示，实验表明现有预测模型的表现优于生成模型，且两类模型在运动较快的右手和工具的预测上均存在泛化能力的不足。

合作式抓取生成任务希望在给定左手、工具和使用对象的网格的情景下生成右手的网格。任务要求方法不仅考虑工具的抓握，还应关注和环境（即使用对象和左手）的配合。为此，除常用的穿模体积和接触比例两个指标外，本工作额外设计了碰撞比例和 FID 分数分别用于评估右手和环境的接触程度和抓取的真实程度。

下表汇报了三种现有方法 [13][14] 的表现。应用于新的工具几何形状时，三种方法均得到了更大的碰撞比例和更低的 FID 分数。

下图展示了方法的失败案例，表明现有方法在复杂纤细工具的抓取生成的物理可行性和动作自然性方面表现欠佳。

总结

本工作构建了首个真实世界中大规模四维双手协作多物体的数据集 TACO，涵盖 5.2M 张来自第一和第三人称视角的彩色图片、2.5K 段交互动作、131 种“工具-动作-使用对象”的组合和 196 种物体形状。为扩大数据规模，本工作贡献了一个全自动的数据标注算法提供准确的手物网格序列和二维分割，以及去除标志点的彩色图片。

本工作在 TACO 数据集上提出了三个基准任务：动作识别、动作预测和合作式抓取生成。实验表明现有方法在跨三元组的动作理解和在新物体、新类别上的抓取生成等方面尚存较大的提升空间。

参考文献

[1] Franziska Krebs, Andre Meixner, Isabel Patzer, and Tamim Asfour. The kit bimanual manipulation dataset. In 2020 IEEE-RAS 20th International Conference on Humanoid Robots (Humanoids), pages 499–506. IEEE, 2021.

[2] Joseph Redmon and Ali Farhadi. Yolov3: An incremental improvement. arXiv preprint arXiv:1804.02767, 2018.

[3] MMPose Contributors. Openmmlab pose estimation toolbox and benchmark. https://github.com/openmmlab/mmpose, 2020.

[4] Martin A Fischler and Robert C Bolles. Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography. Communications of the ACM, 24(6):381–395, 1981.

[5] Javier Romero, Dimitrios Tzionas, and Michael J Black. Embodied hands: Modeling and capturing hands and bodies together. arXiv preprint arXiv:2201.02610, 2022.

[6] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo, et al. Segment anything. arXiv preprint arXiv:2304.02643, 2023.

[7] Roman Suvorov, Elizaveta Logacheva, Anton Mashikhin, Anastasia Remizova, Arsenii Ashukha, Aleksei Silvestrov, Naejin Kong, Harshith Goka, Kiwoong Park, and Victor Lempitsky. Resolution-robust large mask inpainting with fourier convolutions. arXiv preprint arXiv:2109.07161, 2021.

[8] Taojiannan Yang, Yi Zhu, Yusheng Xie, Aston Zhang, Chen Chen, and Mu Li. AIM: Adapting image models for efficient video action recognition. In The Eleventh International Conference on Learning Representations, 2023.

[9] Gorjan Radevski, Marie-Francine Moens, and Tinne Tuytelaars. Revisiting spatio-temporal layouts for compositional action recognition. arXiv preprint arXiv:2111.01936, 2021.

[10] Sirui Xu, Zhengyuan Li, Yu-Xiong Wang, and Liang-Yan Gui. Interdiff: Generating 3d human-object interactions with physics-informed diffusion. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 14928–14940, 2023.

[11] Enric Corona, Albert Pumarola, Guillem Alenya, and Francesc Moreno-Noguer. Context-aware human motion prediction. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 6992–7001, 2020.

[12] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or, and Amit H Bermano. Human motion diffusion model. arXiv preprint arXiv:2209.14916, 2022.

[13] Shaowei Liu, Yang Zhou, Jimei Yang, Saurabh Gupta, and Shenlong Wang. Contactgen: Generative contact modeling for grasp generation. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 20609–20620, 2023.

[14] Korrawe Karunratanakul, Adrian Spurr, Zicong Fan, Otmar Hilliges, and Siyu Tang. A skeleton-driven neural occupancy representation for articulated hands. In 2021 International Conference on 3D Vision (3DV), pages 11–21. IEEE, 2021.

更多阅读