Redian新闻
>
CVPR 2023 | IDEA与清华提出首个一阶段3D全身人体网格重建算法

CVPR 2023 | IDEA与清华提出首个一阶段3D全身人体网格重建算法

公众号新闻

©作者 | 林靖

单位 | 清华大学

三维全身人体网格重建(3D Whole-Body Mesh Recovery)是三维人体重建领域的一个基础任务,是人类行为建模的一个重要环节,用于从单目图像中捕获出准确的全身人体姿态和形状,在人体重建、人机交互等许多下游任务中有着广泛的应用。

来自粤港澳大湾区研究院(IDEA)与清华大学深研院的研究者们提出了首个用于全身人体网格重建的一阶段算法 OSX,通过模块感知的 Transformer 网络,高效、准确地重建出全身人体网格,并提出了一个大规模、关注真是应用场景的上半身人体重建数据集 UBody。

本文提出的算法从投稿至今(2022.11~2023.04),是 AGORA 榜单 SMPL-X 赛道的第一名。该工作已经被计算机视觉顶会 CVPR 2023 接收,算法代码和预训练模型已经全部开源。

论文链接:

https://arxiv.org/abs/2303.16160

代码链接:
https://github.com/IDEA-Research/OSX
项目主页:
https://osx-ubody.github.io/
单位:
IDEA,清华大学深研院




简介


三维全身人体网格重建(3D Whole-Body Mesh Recovery)是人类行为建模的一个重要环节,用于从单目图像中估计出人体姿态(Body Pose),手势(Hand Gesture)和脸部表情(Facial Expressions),该任务在许多下游现实场景中有着广泛的应用,例如动作捕捉、人机交互等。得益于 SMPLX 等参数化模型的发展,全身人体网格重建精度得到了提升,该任务也得到越来越多的关注。

相比于身体姿态估计(Body-Only Mesh Recovery),全身人体网格重建需要额外估计手和脸部的参数,而手和脸部的分辨率往往较小,导致难以通过一个一阶段的网络,将全身参数估计出来。

之前的方法大多采用多阶段的复制-粘贴(Copy-Paste)框架,提前检测出手和脸的包围框(Bounding Box),将其裁剪出来并放大,输入三个独立的网络,分别估计出身体(Body),手(Hand),和脸(Face)的参数,再进行融合。这种多阶段的做法可以解决手和脸分辨率过小的问题,然而,由于三部分的参数估计相对独立,容易导致最后的结果以及三部分之间的连接不够自然和真实,同时也会增加模型的复杂度。

为了解决以上问题,我们提出了首个一阶段的算法 OSX,我们使用一个模块感知的 Transformer 模型,同时估计出人体姿态, 手势和脸部表情。该算法在较小计算量和运行时间的情况下,在 3 个公开数据集(AGORA, EHF, 3DPW)上,超过了现有的全身人体网格重建算法。

我们注意到,目前的全身人体网格重建数据集,大部分是在实验室环境或者仿真环境下采集的,而这些数据集与现实场景有着较大的分布差异。这就容易导致训练出来的模型在应用于现实场景时,重建效果不佳。此外,现实中的许多场景,如直播、手语等,人往往只有上半身出现在画面中,而目前的数据集全部都是全身人体,手和脸的分辨率往往较低。

为了弥补这方面数据集的缺陷,我们提出了一个大规模的上半身数据集 UBody,该数据集涵盖了 15 个真实场景,包括 100 万帧图片和对应的全身关键点(2D Whole-Body Keypoint),人体包围框(Person BBox)、人手包围框(Hand BBox)以及 SMPLX 标签。下图是 UBody 的部分数据可视化。

▲ 图1 UBody数据集展示

本工作的贡献点可以概括为:

  • 我们提出了首个一阶段的全身人体网格重建算法 OSX,能够用一个简单、高效的方式,估计出 SMPLX 参数。

  • 我们的算法 OSX 在三个公开数据集上,超过了现有的全身人体网格重建算法。

  • 我们提出了一个大规模的上半身数据集UBody,用以促进全身人体网格重建这个基础任务在现实场景中的应用。




一阶段重建算法介绍


2.1 OSX整体框架


如下图所示,我们提出了一个模块感知(Component-Aware)的 Transoformer 模型,来同时估计全身人体参数,再将其输入 SMPLX 模型,得到全身人体网格。我们注意到,身体姿态(Body Pose)估计需要利用到全局的人体依赖信息,而手势(Hand Gesture)和脸部表情(Facial Expression)则更多的聚焦于局部的区域特征。

因而,我们设计了一个全局编码器和一个局部解码器,编码器借助于全局自注意力机制(Global Self-attention),捕获人体的全身依赖关系,估计出身体姿态和形状(Body Pose and Shape),解码器则对特征图进行上采样,使用关键点引导的交叉注意力机制(Cross-Attention),用以估计手和脸部的参数。

▲ 图2 OSX网络结构示意图

2.2 全局编码器


在全局编码器中,人体图片首先被切为多个互不重叠的块,这些块通过一个卷积层,加上位置编码,转换为特征令牌(Feature Token),接着,我们再将其与若干个由可学习参数构成的人体令牌(Body Token) 进行连接,输入全局编码器。


全局编码器由多个 Transformer 块组成,每个块包含一个多头自注意力、一个前馈网络和两个层归一化模块(Layer Normization)。经过这些块之后,人体各个部分之间的信息得到了交互,body token 捕捉了人体的全身依赖关系,输入全连接层,回归出人体姿态和形状。Feature token 则进行重组(Reshape),转换为特征图,供解码器使用。


2.3 高分辨率局部解码器


在解码器中,我们首先对特征图进行上采样,以解决手和脸分辨率过低的问题。具体的,我们使用一个可微分的感兴趣区域对齐(Region of Interest Alignment)操作,将手和脸部的特征图进行上采样,因而获得多尺度的手、脸高分辨率特征 


接着,我们定义多个模块令牌(Component Token) ,每一个 token 代表一个关键点,将这些 token 输入解码器,通过关键点引导的交叉注意力机制,从高分辨率特征中捕获有用的信息,更新 Component Token:

最终,这些模块 token 通过全连接层,转换为手势和脸部表情,并于身体姿态和形状一起,输入 SMPLX 模型,转换为人体网格。



上半身数据集UBody介绍


3.1 数据集亮点


为了缩小全身人体网格重建这一基础任务与下游任务的差异,我们从 15 个现实场景,包括音乐演奏、脱口秀、手语、魔术表演等,收集了超过 100 万的图片,对其进行标注。这些场景与现有的数据集 AGORA 相比,由于只包含上半身,因而手和脸的分辨率更大,具有更加丰富的手部动作和人脸表情。

同时,这些场景含有非常多样的遮挡、交互、切镜、背景和光照变化,因而更加具有挑战性,更加符合现实场景。此外,UBody 是视频的形式,每个视频都包含了音频(Audio),因而未来也可以应用于多模态等任务。


▲ 图3 UBody 15个场景展示


3.2 IDEA自研高精度全身动捕标注框架


为了标注这些大规模的数据,我们提出了一个自动化标注方案,如下图所示,我们首先训练一个基于 ViT 的关键点估计网络,估计出高精度的全身人体关键点。接着,我们使用一个多阶段渐进拟合技术(Progreesive Fitting),将 OSX 输出的人体网格转换为三维关键点(3D Keypoints),并投影到图像平面,与估计的二维关键点(2D Keypoints)计算损失,用以优化 OSX 网络参数,直至估计出来的网格与 2D 关键点能够高度贴合。

▲ 图4 全身动捕标注框架图

以下是 UBody 数据集的 15 个场景及其标注结果的展示的展示:


▲ SignLanguage

▲ Singing

▲ OnlineClass

▲ Olympic

▲ Entertainment

▲ Fitness

▲ LiveVlog

▲ Conference

▲ TVShow

▲ ConductMusic

▲ Speech

▲ TalkShow

▲ MagicShow



实验结果


4.1 定量实验对比


OSX 从投稿至今(2022.11~2023.04),是 AGORA 榜单上 SMPLX 赛道的榜首,在 AGORA-test 上的定量对比结果如下表所示:

▲ 表1 OSX与SOTA算法在AGORA-test上的定量结果

在 AGORA-val 上的定量对比结果如下表所示:

▲ 表2 OSX与SOTA算法在AGORA-val上的定量结果

在 EHF 和 3DPW 的定量结果如下:

▲ 表3 OSX与SOTA算法在EHF及3DPW上的定量结果

可以看出,OSX 由于使用了模块感知的 Transformer 网络,能够同时保证全局依赖关系的建模和局部特征的捕获,在现有数据集,特别是 AGORA 这一较为困难的数据集上,显著超过了之前的方法。


4.2 定性实验对比


在 AGORA 上的定性对比结果如图所示:


▲ 从左到右依次为:输入图, ExPose, Hand4Whole, OSX(Ours)

在 EHF 上的定性对比结果如图所示:


▲ 从左到右依次为:输入图, ExPose, Hand4Whole, OSX(Ours)


在UBody数据集上的对比结果如图所示:


▲ 从左到右依次为:输入图, ExPose, Hand4Whole, OSX(Ours)


可以看出,我们的算法 OSX 能够估计出更加准确的身体姿势,手部动作和脸部表情,重建出来的人体网格更加准确,与原图贴合的更好,更加鲁棒。




总结


OSX 是首个一阶段全身人体网格重建的算法,通过一个模块感知的 Transformer 模型,同时估计了 body pose, hand pose 和 facial experssion,在三个公开榜单上取得了目前最好 whole-body mesh recovery 最好的结果。此外,我们提出了一个大规模的上半身场景数据集 UBody,用以促进人体网格重建任务在下游场景中的应用。我们的代码已经进行了开源,希望能够推动该领域的发展。




联系我们


我们团队正在招聘有才华、有自驱力、有创造力的研究型实习生,主要研究以人为中心的视觉理解和生成任务。有兴趣的同学可以发送简历至 [email protected]



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧
·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CVPR 2023 | YOLOv7强势收录!时隔6年,YOLOv系列再登CVPR!CVPR 2023|Crowd3D:支持数百人3D/姿态/形状/位置重建的新基准CVPR 2023 | 谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent DiffusionUCSD、MIT等华人团队教机器狗感知3D世界!搭M1芯片,爬楼跨障无所不能|CVPR 2023CVPR 2023 | 北大提出DynamicDet:目标检测器的通用动态架构CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKeyCVPR 2023 | 超越MAE!谷歌提出MAGE:图像分类和生成达到SOTA!2023 春 祝姐妹们周末快乐!转:2023 回国探亲(5)今后要好好的爱自己CVPR 2023 | 南大王利民团队提出LinK:用线性核实现3D激光雷达感知任务中的large kernel2022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一CVPR 2023 | 港中大&IDEA开源首个大规模全场景人体数据集Human-ArtCVPR 2023 | 北大提出UniDexGrasp:通用灵巧手抓取算法CVPR 2023 | 白翔团队提出:将CLIP模型用于场景文本检测CVPR 2023|哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏【庭院养蜂】上哪儿买蜜蜂?证件照转数字人只需几秒钟,微软实现首个3D扩散模型高质量生成效果,换装改形象一句话搞定 | CVPR 2023也说《狂飙》:你到底爱张颂文还是高启强?CVPR 2023 | 一块隔热片即可实现红外场景下的物理攻击,北航提出针对红外行人检测器的漏洞挖掘技术CVPR 2023 | 微软提出LDGM:利用解耦扩散模型统一版面生成CVPR 2023 | 多车协作让纯视觉3D目标探测媲美激光雷达CVPR 2023 | 一键去除视频闪烁,该研究提出了一个通用框架CVPR 2023 | 浙大提出全归一化流模型PyramidFlow:高分辨率缺陷异常定位新范式CVPR2023|天大联合卡迪夫大学发布SemanticHuman:部件级、精细语义、灵活可控的3D人体编辑表征今年 CV 热点这么多,不可错过 CVPR 2023 线下论文分享会英伟达馋哭建模师!投喂随意视频,直出3D模型,华人一作登CVPR 2023Eruope 2023英伟达新方法入选CVPR 2023:对未知物体的6D姿态追踪和三维重建CVPR 2023|Crowd3D:数百人大场景3D位置、姿态、形状重建,开源benchmark数据集怎么来理解人工智能的学习时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先|ICLR 2023炸裂!最新CVPR2023、ICML2023、AAAI2023、ACL2023论文+Code大合集!CVPR 2023 | 可扩展的视频基础模型预训练范式:训练出首个十亿参数量视频自监督大模型CVPR2023 | 微软提出高效率大规模图文检索模型2010年沈阳一女演员裸死酒店,体内测出5人DNA,凶手让人难以置信CVPR 2023 | 谷歌提出CLIPPO:仅从像素理解图像和语言CVPR 2023 | Uni3D: 首个多数据集3D目标检测框架国际要闻简报,轻松了解天下事(03
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。