Redian新闻
>
CVPR 2024 | 双手协作双物体的数据集TACO:引领可泛化手物交互的新方向

CVPR 2024 | 双手协作双物体的数据集TACO:引领可泛化手物交互的新方向

公众号新闻


论文题目:
TACO: Benchmarking Generalizable Bimanual Tool-ACtion-Object Understanding

论文链接:

https://arxiv.org/pdf/2401.08399.pdf

项目主页:

https://taco2024.github.io/

视频链接:

https://www.youtube.com/watch?v=bIgHylU1oZo&feature=youtu.be

数据集链接:

https://onedrive.live.com/?authkey=%21AGNkrHubnoo8LCs&id=5411ECE5D2EDAD9F%21126&cid=5411ECE5D2EDAD9F

代码链接:

https://github.com/leolyliu/TACO-Instructions


TL; DR

本工作构建了一个大规模双手协作双物体的数据集 TACO,涵盖了大量日常生活中双手使用工具进行多物体协作的场景,通过提供丰富的交互三元组数据(工具、动作、使用对象),为通用手物交互的理解与生成带来了新的挑战和机遇。



研究目标和主要贡献
人们在日常生活中能轻易地用双手协作工具和使用对象,例如炒菜时用铲子在锅中搅拌。我们将这样的行为模式刻画成<工具、动作、使用对象>的交互三元组,如<铲子、搅拌、锅>。
不同的交互三元组之间通常会因享有相似的工具、动作或使用对象而拥有相似的动作模式,因此本工作按照三元组对手物交互的数据进行分类,致力于研究技术方法在不同物体形状和不同三元组间的泛化能力。这类手物交互动作的生成可被广泛应用于虚拟现实、增强现实、人机协作和灵巧手操作等领域。
理解与生成这种交互动作需要大量数据的支持,然而先前的手物交互数据集大多关注单手或单个物体的动作。先前唯一的双手多物体数据集 [1] 受限于极少的物体和三元组而难以支持有关泛化性的研究。
为了填补数据的空缺,本工作首先构建了一个真实世界中大规模四维手物交互数据集——TACO。TACO 数据集包含从 12 个第三人称视角和一个第一人称视角下采集到的 5.2M 张彩色图片、2500 余段交互动作、131 种三元组和 196 个精细的物体网格模型,从而成为了双手多物体协作的一个知识库。为支持动作预测与生成相关的研究,数据集提供手物网格序列、手物二维掩码和去除标志点的彩色图片等标注。
其次,本工作提出了一种全自动的数据标注方法以用低成本扩大数据集规模同时保证数据标注的高质量。该方法融合来自第三视角的视频和来自光学动捕系统的物体标志点坐标,用基于优化的算法得到手物网格序列,进而利用预训练的分割网络估算手物的掩码,并利用先进的图像补全模型生成去除标志点的图片。
得益于 TACO 数据集丰富的动作模式和标注信息,本工作提出了三个关注可泛化手物交互理解与生成的基准任务——动作识别、动作预测和合作式抓取生成三个基准任务中的大量实验证明了现有的技术方法在物体几何的泛化、物体类别的泛化和交互三元组的泛化上表现欠佳,这为今后的研究带来了新的挑战和机遇。
本工作的主要贡献如下:
  • 构建了 TACO 数据集,是首个真实世界中大规模四维双手协作多物体的数据集,涵盖多样的“工具-动作-使用对象”的组合和物体几何形状。
  • 设计了一个全自动的数据标注方法,能够获取手和物体精确的网格序列和二维掩码,以及无标志点的彩色图像。
  • 提出了三个关注可泛化的手物交互理解与生成的基准任务,并详细探讨了 TACO 数据集带来的挑战和机遇。

数据集动作示例如下:



TACO数据集构建
如下图所示,数据采集系统包含 12 个第三人称视角下的 FLIR 工业相机(分辨率 4096x3000)、1 个头戴 Realsense L515 相机(分辨率 1920x1080)和包含 6 个红外相机的 NOKOV 光学动作捕捉系统。所有数据的录制频率均为 30Hz。

本工作使用 EinScan 手持式三维扫描仪获取物体的高精度网格模型,每个物体模型包含约 100K 个三角面片。数据集的物体均为刚体,数据采集时每个物体的表面会贴上 4 个标志点,由光学动捕系统跟踪标志点位置并由此解算物体位姿。

数据标注方法如上图所示,给定第三人称视角彩色图像、物体网格模型和其上标志点的坐标,方法依次执行物体位姿优化、手部关键点定位、手部位姿优化、手物分割和标志点移除步骤。
物体位姿优化的目标是求解各个标志点相对物体的精确位置。由于人工测量结果存在较大误差,物体位姿优化以人工测量的结果为初值,优化出最优的相对位置使得各个标志点到物体表面最近点的平均距离和各个标志点与物体的平均穿模距离的加权和最小。
手部关键点定位希望估计手部骨骼各个关键点在世界系下的三维坐标。为此,针对每个视角的彩色图像,本工作使用预训练的 YOLOv3 网络 [2] 检测双手在图中的外接矩形框,并将其输入 MMPose 骨骼检测模型 [3] 得到手部关键点在图像上的像素坐标。本工作使用三角化将多视角像素坐标转化为世界系下的三维坐标,并利用 RANSAC 算法 [4] 提高结果的鲁棒性。
手部位姿优化希望获得 MANO 模型 [5] 表示的手部网格,方法是设计关于模型参数的损失函数并求解最优参数最小化损失函数的值。损失函数综合考虑 MANO 模型骨骼与手部关键点三维坐标的偏差、手部骨骼转动范围、骨骼运动的连续性、手物接触情况和手物穿模情况这五个方面。
手物分割即获取手和物体在彩色图像上的二维掩码。这一环节直接应用 SAM 模型 [6],将上一步得到的手物网格投影至图像得到其外接矩形框并将其作为模型的提示。
由于物体上的标志点破坏了物体的外观,本工作额外设计了标志点移除模块,针对中心位于 P、半径为 R 的标志点,该模块将一个中心位于 P、半径为 2R 的球投影至各个视角的图像上获取其掩码,进而使用 LAMA 图像补全模型 [7] 重新绘制掩码区域的颜色。下图展示了一个标志点移除的示例:



数据多样性

TACO 数据集包含 2.5K 段交互动作、20 种家用物体类别、196 个物体网格模型、15 种家务动作和 14 位采集员,涵盖共计 131 种“工具-动作-使用对象”的交互三元组。如下面的视频和图片所示,数据集的物体形状多样,且不同三元组之间关系紧密,因而其能够支持不同物体几何形状、不同物体类别、不同动作类别等多个方面的泛化性研究。



基准任务
基于 TACO 数据集物体几何和交互三元组的多样性,本工作将数据集划分为一个训练集和四个关注不同泛化方式的测试集:
  • S1:无泛化。工具的几何形状和交互三元组均存在于训练集。
  • S2:几何形状的泛化。工具的几何形状是全新的,交互三元组存在于训练集。
  • S3:交互三元组的泛化。交互三元组是全新的,而工具的类别和几何形状均存在于训练集。
  • S4:综合泛化。工具的类别是全新的,导致出现新的工具的几何形状和交互三元组。
动作识别任务致力于分析第一人称视角下的手物交互的视频中的动作类别,物体的外接矩形框可以作为任务的额外输入辅助分析。不同于传统的动作识别任务,本工作关注模型在遇见全新物体或交互三元组时的表现。此基准任务采用 Acc-1 和 Acc-5 两种常用的评价指标。
下表对比了一个传统的动作识别模型 AIM [8] 和一个关注组合泛化的少样本模型 CACNF [9]。两个模型在 S4 上的两种准确率均显著低于在 S1 上的准确率,揭示了现有方法泛化能力的不足。相比物体几何的泛化,模型在交互三元组上的泛化更加困难。CACNF 在更困难的 S3 和 S4 集合上显著优于 AIM,体现出关注组合泛化的模型对物体和动作更强的解耦能力以及更强的泛化能力。
动作预测任务目标是根据物体几何形状和前 10 帧的手物位姿序列预测接下来 10 帧二者的序列。不同于先前研究的人-物交互动作预测,完整的手物交互动作通常在更短的时间内完成,这使得此任务极具挑战性。
本任务的评价指标为平均关节位置误差、平均位移误差和平均朝向误差。实验对比两种预测模型 InterRNN [10]、CAHMP [11] 和两种生成模型 InterVAE [10]、MDM [12]。如下表所示,实验表明现有预测模型的表现优于生成模型,且两类模型在运动较快的右手和工具的预测上均存在泛化能力的不足。

合作式抓取生成任务希望在给定左手、工具和使用对象的网格的情景下生成右手的网格。任务要求方法不仅考虑工具的抓握,还应关注和环境(即使用对象和左手)的配合。为此,除常用的穿模体积和接触比例两个指标外,本工作额外设计了碰撞比例和 FID 分数分别用于评估右手和环境的接触程度和抓取的真实程度。
下表汇报了三种现有方法 [13][14] 的表现。应用于新的工具几何形状时,三种方法均得到了更大的碰撞比例和更低的 FID 分数。
下图展示了方法的失败案例,表明现有方法在复杂纤细工具的抓取生成的物理可行性和动作自然性方面表现欠佳。


总结

本工作构建了首个真实世界中大规模四维双手协作多物体的数据集 TACO,涵盖 5.2M 张来自第一和第三人称视角的彩色图片、2.5K 段交互动作、131 种“工具-动作-使用对象”的组合和 196 种物体形状。为扩大数据规模,本工作贡献了一个全自动的数据标注算法提供准确的手物网格序列和二维分割,以及去除标志点的彩色图片。

本工作在 TACO 数据集上提出了三个基准任务:动作识别、动作预测和合作式抓取生成。实验表明现有方法在跨三元组的动作理解和在新物体、新类别上的抓取生成等方面尚存较大的提升空间。


参考文献

[1] Franziska Krebs, Andre Meixner, Isabel Patzer, and Tamim Asfour. The kit bimanual manipulation dataset. In 2020 IEEE-RAS 20th International Conference on Humanoid Robots (Humanoids), pages 499–506. IEEE, 2021.

[2] Joseph Redmon and Ali Farhadi. Yolov3: An incremental improvement. arXiv preprint arXiv:1804.02767, 2018.

[3] MMPose Contributors. Openmmlab pose estimation toolbox and benchmark. https://github.com/openmmlab/mmpose, 2020.

[4] Martin A Fischler and Robert C Bolles. Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography. Communications of the ACM, 24(6):381–395, 1981.

[5] Javier Romero, Dimitrios Tzionas, and Michael J Black. Embodied hands: Modeling and capturing hands and bodies together. arXiv preprint arXiv:2201.02610, 2022.

[6] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo, et al. Segment anything. arXiv preprint arXiv:2304.02643, 2023.

[7] Roman Suvorov, Elizaveta Logacheva, Anton Mashikhin, Anastasia Remizova, Arsenii Ashukha, Aleksei Silvestrov, Naejin Kong, Harshith Goka, Kiwoong Park, and Victor Lempitsky. Resolution-robust large mask inpainting with fourier convolutions. arXiv preprint arXiv:2109.07161, 2021.

[8] Taojiannan Yang, Yi Zhu, Yusheng Xie, Aston Zhang, Chen Chen, and Mu Li. AIM: Adapting image models for efficient video action recognition. In The Eleventh International Conference on Learning Representations, 2023.

[9] Gorjan Radevski, Marie-Francine Moens, and Tinne Tuytelaars. Revisiting spatio-temporal layouts for compositional action recognition. arXiv preprint arXiv:2111.01936, 2021.

[10] Sirui Xu, Zhengyuan Li, Yu-Xiong Wang, and Liang-Yan Gui. Interdiff: Generating 3d human-object interactions with physics-informed diffusion. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 14928–14940, 2023.

[11] Enric Corona, Albert Pumarola, Guillem Alenya, and Francesc Moreno-Noguer. Context-aware human motion prediction. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 6992–7001, 2020.

[12] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or, and Amit H Bermano. Human motion diffusion model. arXiv preprint arXiv:2209.14916, 2022.

[13] Shaowei Liu, Yang Zhou, Jimei Yang, Saurabh Gupta, and Shenlong Wang. Contactgen: Generative contact modeling for grasp generation. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 20609–20620, 2023.

[14] Korrawe Karunratanakul, Adrian Spurr, Zicong Fan, Otmar Hilliges, and Siyu Tang. A skeleton-driven neural occupancy representation for articulated hands. In 2021 International Conference on 3D Vision (3DV), pages 11–21. IEEE, 2021.



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CHANEL的审美又回来了!2024/25 秋冬系列成衣很出彩愚人节(4/1/2024)CVPR 2024 满分论文出炉!这些方向杀疯了!CVPR 2024 | 浙大提出近似平均方向求解器,快速扩散模型数值采样搬家清囤的Lululemon, Aritzia Randy & Murphy, Sophie Webster蝴蝶鞋及其他从莫言说他的母亲想到的~用AI打破信息茧房?信息和交互的边界,AI搜索如何厘定具有高阶交互的网络化动态系统:稳定性与复杂性 | NSRCVPR 2024|文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRFCVPR 2024 满分论文!LiSA:引入语义感知的激光雷达点云视觉定位网络用AI打破信息茧房?信息和交互的边界,秘塔AI摸到了……CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型大三本科生在CVPR 2024上发表论文!CVPR 2024 | 与任务无关的多模态数据也能提升Transformer性能!港中文&腾讯新作CVPR 2024满分论文出炉!这些方向杀疯了!CVPR 2024 满分论文出炉!这些方向爆火!个人感慨之126 谁是傻子?高效、可泛化的高斯重建框架,只需3张视图即可快速推理,45秒便可完成优化CVPR‘24:与任务无关的多模态数据也能提升Transformer性能|港中文&腾讯CVPR 2024 | 北大提出HoT:高效3D人体姿态估计新框架CVPR 2024 | DeiT全新升级!DeiT-LT:针对长尾数据的改进模型CVPR、AAAI、ICLR 2024优秀论文!CVPR 2024 | 面部+肢体动画,一个框架搞定从音频生成数字人表情与动作《春姑娘》&《枕着光的她》洛杉矶东区猫狗领养活动 4/28/2024 周日下午3CVPR 2024 | 多模态合作学习的新视角:样本级模态的评估与协同顶刊IJCV 2024!通过提问学习基于知识的新物体识别还得是抖音,字节推出竖屏视频理解数据集,入选CVPR2024黄仁勋提到的机器人世界,还需要AI数据来“调教” | CVPR 2024CVPR 2024最佳论文奖项出炉!这个方向赢麻了!English Five Days协作提升攻略:团队协作的五大法则CVPR 2024 | COCO数据集升级!字节提出新一代数据集COCONutCVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoTReasoning3D:用大语言模型开启3D世界理解与交互的新篇章回国杂记(2403)难忘农垦中学那些人和事CVPR 2024 | 更高效、更准确的拖拽编辑 Drag Your NoiseCVPR 2024满分论文,英伟达开源BOP排行榜6D物体姿态第一名方法让机器准确「看懂」手物交互动作,清华大学等提出GeneOH Diffusion方法Best CD Rates Of April 2024: Up To 5.42%
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。