Redian新闻
>
CVPR 2023|Crowd3D:数百人大场景3D位置、姿态、形状重建,开源benchmark数据集

CVPR 2023|Crowd3D:数百人大场景3D位置、姿态、形状重建,开源benchmark数据集

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】支持数百人的大场景3D重建,代码和基准数据集即将开源!


基于图像的宽视场大场景多人重建对于人群分析和安全预警至关重要,不过现有的方法局限于中小场景、少量个体和相对位置。


对于包含数百人的大场景图像来说,里面人的尺度变化很大、空间分布非常复杂。


针对这些挑战,天津大学团队联合清华大学与英国卡迪夫大学在CVPR2023的工作中提出Crowd3D,一个从单张大场景图像重建全局空间一致的数百人姿态、形状和位置的框架。


Crowd3D定义了人与场景的虚拟交互点,借助预估的地面和相机参数,将2D图像的像素点与人的3D空间位置对应,从而减轻了单目重建深度和尺度的歧义性,实现了绝对尺度下的人群重建。


为解决大场景中人的尺度差异,Crowd3D设计了一种以人为中心的自适应裁剪方案,使不同裁剪图像中的人有一致的输入尺度,从而提高重建的性能。


此外,作者还构建了一个大场景人群重建的基准数据集LargeCrowd,推动了大场景人群重建的发展。相关代码和数据即将开源!


项目主页:http://cic.tju.edu.cn/faculty/likun/projects/Crowd3D

代码:https://github.com/1020244018/Crowd3D

                                                 

方法动机


现有的单目多人重建方法大多局限于固定FoV(Field of View)的小场景,重建人体网格的三维姿态、形状和相对位置。这些方法无法直接地从大场景图像中回归人体,因为与图像尺寸相比,图中人的尺度相对较小且变化较大。


即使采用图像裁剪策略,由于在推断时为每个裁剪图假设独立的相机系,这些方法也无法获得全局空间一致的人群重建。


作者观察到在大型场景中,地面是人群最通用的交互对象,能够体现人与场景的和谐性。同时地面也是场景中最常见的元素,且一般的监控场景通常只含有单个或多个地平面。


以此为出发点,作者参考了人和地面的交互关系,定义了人与场景虚拟交互点(HVIP)的新概念,提出了基于HVIP的渐进式位置变换网络,从而建立了2D像素与人的3D全局空间位置的对应关系,将复杂的3D人群定位简化为2D的像素点预测,实现了百人大场景下全局空间一致的人群重建。

 

图1 Crowd3D框架总览


方法思路


Crowd3D框架总览


Crowd3D的目的是从包含数百人的单张大场景图像中重建全局空间一致的人群3D位置、姿势和形状。


如图1所示,该方法包含三个主要阶段:


1)采用自适应的以人为中心的裁剪方案(Adaptive Human-center Cropping)将大场景图像裁剪成具有层级大小的图像块,以确保不同裁剪图像中的人具有合适的占比;


2)使用人的2D姿态检测作为先验来估计全局场景的相机内参和地平面方程(Camera and Ground Plane Estimation),用于后续的推断;


3)设计基于HVIP的渐进式位置变换网络(Crowd3DNet),以裁剪后的图像、地平面和相机参数作为输入,直接预测大场景相机坐标系下的多人人体网格。


自适应的以人为中心的裁剪策略


为了处理大场景图像中大量的人和不同的人体尺寸,作者提出了自适应的以人为中心的裁剪策略,使不同的裁剪图像中的人与相应裁剪图像的高度比例尽可能一致,有利于后续的人体推断。


作者观察到人的身高像素在大场景图像的垂直方向上像金字塔一样分层变化,认为裁剪图像的尺寸也应该符合类似的分层变化,启发式地采用等比序列来模拟垂直方向上块尺寸的层次变化。


该想法是简单而有效的。定义图像顶部和底部的人的身高是,图像处理区域的上下界为。考虑垂直方向上不重叠的方形块,从上到下的尺寸大小定义为,并认为它们服从等比数列的规则。作者设置人的身高是块尺寸的一半,因此有,分块问题被转化为求解以下问题


在此基础上,作者进一步在相邻行之间增加重叠块,重叠块的尺寸被设置为相邻行裁剪块尺寸的均值,来保证每个人都至少完整的处在一个分块中。对于水平方向,块的尺寸是相同的,也包含重叠块。


人与场景虚拟交互点(HVIP)


为减轻单目重建的深度-尺度歧义性的影响,作者定义了人与场景虚拟交互点(HVIP),来帮助推断大场景相机系统中人的准确3D位置。HVIP表示一个人的3D躯干中心在全局相机空间中的地平面上的投影点,记为。人的躯干中心是人体上的一个语义点,文中指人的肩膀关节和髋关节的中心,用表示。


基于HVIP,作者构建了一种渐进式的地面变换。如图2所示,作者通过HVIP建立了图像像素点和人的全局3D空间位置的映射关系,从而实现仅预测2D像素点(2D躯干中心和2D HVIP)就能推断出人的准确3D位置。


蓝色的HVIP是地平面上的点,它可以直接参与地面变换,建立图像像素到地平面上三维点的关系映射;HVIP与人的躯干中心通过垂直关系绑定,结合透视投影约束可准确推断出人的3D躯干中心位置。


值得注意的是,由于HVIP不在人体上,位置推理过程对人的姿态没有限制,不会影响重建网络重建各种姿态的人体。基于HVIP的渐进式地面变换的公式化表达如下:


              

图2基于HVIP的渐进式地面变换


相机和地平面估计


HVIP的设计需要预估场景的地平面方程和相机参数,作者使用预先预测的人体2D姿态检测作为先验来实现。


作者通过实验统计表明:为一个大型场景图像预测地面和相机参数,只需要包含站立着的十人的2D姿态就足够了。这在实际大场景图像中很容易满足。


在预估场景参数时,该方法假设站立人的颅尾方向(文中指肩部中点和脚踝中点的连线)与地面垂直,站立人的脚踝在地面上,并结合透视投影关系迭代优化出相机和地面参数。


基于HVIP的渐进位置变换网络


在网络设计上,如图1所示,作者采用了单阶段的多头网络,同时预测人体中心热图、躯干中心偏移图、2D HVIP图和SMPL参数图。


其中,人体中心热图用于发现人,预测每个位置是人体中心的概率。如果人体中心热图预测正响应,则网络从相应中心位置的其他参数图中采样相关参数,获取人体的2D躯干中心、2D HVIP和SMPL参数。


通过基于HVIP的渐进式位置变换,网络能够直接推断出大场景相机系下的人体网格,从而实现全局空间一致的大场景多人重建。


实验结果


因为现存的单目多人重建方法不能全局一致的处理数百人的大场景图像,作者对SMAP[1]、CRMH[2]、BEV[3]三种方法进行了合理扩展,将各自的重建结果统一到与Crowd3D相同的全局相机系中用于公平比较,修改后的方法定义为SMAP-Large、CRMH-Large和BEV-Large。


如图3所示,在定性比较上,俯视图的结果清晰显示出Crowd3D重建的人群的空间分布与输入图像是一致的,而其他方法不一致。数字标记的人显示该方法准确推断出排队人群的位置。


此外,尽管对比方法也显示出合理的投影结果,但不准确的位置估计意味着它们预测的三维人体具有错误的绝对尺度。


在定量比较方面,如表1所示,Crowd3D在四个指标上均优于其他方法,显示出该方法重建的人群具有更准确的位置分布和姿势,其中位置分布包括物理距离和相对排列。


图3 不同方法在LargeCrowd数据集上的定性对比结果


表1 不同方法在LargeCrowd数据集上的定量对比结果

 

该工作的demo视频如下:

 


作者简介

                                                 

温浩

天津大学20级博士研究生

主要研究方向:三维视觉、计算机视觉


 

黄敬

天津大学21级硕士研究生

主要研究方向:三维视觉、计算机视觉


 

崔慧丽

天津大学20级硕士研究生

主要研究方向:三维视觉、计算机视觉


 

林浩哲

清华大学博士后

主要研究方向:十亿像素计算机视觉


 

来煜坤

英国卡迪夫大学教授

主要研究方向:计算机图形学,几何处理,图像处理和计算机视觉

http://users.cs.cf.ac.uk/Yukun.Lai/


 

方璐

清华大学副教授、博导

主要研究方向:机器智能、神经计算

http://www.luvision.net/


 

李坤

天津大学教授、博导

主要研究方向:三维视觉、智能重建与生成

http://cic.tju.edu.cn/faculty/likun


参考资料:
[1] Zhen J, Fang Q, Sun J, et al. SMAP: Single-shot multi-person absolute 3D pose estimation[C]//Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XV 16. Springer International Publishing, 2020: 550-566. 
[2] Jiang W, Kolotouros N, Pavlakos G, et al. Coherent reconstruction of multiple humans from a single image[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 5579-5588. 
[3] Sun Y, Liu W, Bao Q, et al. Putting people in their place: Monocular regression of 3D people in depth[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 13243-13252.




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
遥思龙泉桃花宴CVPR 2023|哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏CVPR 2023 | 港中大&IDEA开源首个大规模全场景人体数据集Human-ArtCVPR 2023 | 香港理工提出GrowSP:3D场景的无监督语义分割UCSD、MIT等华人团队教机器狗感知3D世界!搭M1芯片,爬楼跨障无所不能|CVPR 2023CVPR 2023 | Uni3D: 首个多数据集3D目标检测框架又见桐花开CVPR 2023上AIGC大爆发!46篇论文、代码和数据集汇总CVPR 2023 | 多模态新任务和新数据集!NTU提出广义引用分割问题GRESCVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey普林斯顿Infinigen矩阵开启!AI造物主100%创造大自然,逼真到炸裂|CVPR 2023我和聊天机器人(AI)对话CVPR 2023|Crowd3D:支持数百人3D/姿态/形状/位置重建的新基准冷却的不止季节(41)— 丧葬费CVPR 2023最佳论文候选!真实高精3D物体数据集OmniObject3D英伟达新方法入选CVPR 2023:对未知物体的6D姿态追踪和三维重建CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型炸裂!最新CVPR2023、ICML2023、AAAI2023、ACL2023论文+Code大合集!YouKu-mPLUG最大中文视频数据集和Benchmark,助力多模态大型模型发展真·抓住用户「眼球」:无需专用硬件,谷歌教你用「注意力」提升产品体验|CVPR 2023CVPR 2023 | IDEA与清华提出首个一阶段3D全身人体网格重建算法CVPR2023|天大联合卡迪夫大学发布SemanticHuman:部件级、精细语义、灵活可控的3D人体编辑表征上海AI实验室联合团队获CVPR最佳论文奖 | CVPR 2023国际要闻简报,轻松了解天下事(03明天直播|CVPR 2023 论文分享会邀你共话计算机视觉的前沿发展!对未知物体进行6D追踪和3D重建,英伟达方法取得新SOTA,入选CVPR 2023国际要闻简报,轻松了解天下事(03NVIDIA拿下CVPR 2023 3D Occupancy预测第一名!CVPR 2023|All in UniSim:统一的自动驾驶仿真平台CVPR 2023|无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA看看Stanford’s 2023 surgical team的组成,有些出乎意料国际要闻简报,轻松了解天下事(032022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一纯随机数学无限生成逼真3D世界火了!普林斯顿华人一作|CVPR 2023CVPR'23|一张图重建3D人物新思路:完美复刻复杂动作和宽松衣物,遮挡也不在话下ICLR 2023|场景三维重建新SOTA!基于3D Transformer的单目场景重建贼喊捉贼式的新疆指控,让人出离愤怒最聪明的活法:委屈往心里藏、姿态往低处放、凡事往好处想零AI含量!纯随机数学无限生成逼真3D世界火了,普林斯顿华人一作|CVPR‘23今年 CV 热点这么多,不可错过 CVPR 2023 线下论文分享会
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。