CVPR 2023最佳论文候选出炉,12篇上榜!武大、港中文、商汤等国内机构多篇入选
新智元报道
新智元报道
【新智元导读】刚刚,CVPR 2023放榜12篇获奖论文候选,武大、港中文、港科大、上海人工智能实验室、商汤、华为等国内机构赫然在列。
CVPR 2023举办在即。
今天,官方公布了12篇获奖论文候选。(占接受论文的0.51%,占提交论文的0.13%)
根据官网上统计数据,本次CVPR一共接受论文9155篇,录用2359篇,接受率为25.8%。
其中,235篇被评为Highlights。(占接受论文的10%,占提交论文的2.6%)
1. Ego-Body Pose Estimation via Ego-Head Pose Estimation
作者:Jiaman Li,Karen Liu,Jiajun Wu
机构:斯坦福大学
论文地址:https://arxiv.org/pdf/2212.04636.pdf
本文中,研究人员提出了一种新的方法,即通过自我-头部姿势估计的自我身体姿势估计(EgoEgo),它将问题分解为两个阶段,由头部运动作为中间表征来连接。EgoEgo首先整合了SLAM和一种学习方法,以估计准确的头部运动。
随后,利用估计的头部姿势作为输入,EgoEgo利用条件扩散,以产生多个可信的全身运动。这种头部和身体姿势的分离消除了对配对自我中心视频和三维人体运动的训练数据集的需要,使研究人员能够分别利用大规模自我中心视频数据集和运动捕捉数据集。
此外,为了进行系统的基准测试,研究人员开发了一个合成数据集AMASS-Replica-Ego-Syn(ARES),其中包括成对的自我中心视频和人类运动。在ARES和真实数据上,研究人员的EgoEgo模型的表现明显优于目前最先进的方法。
2. 3D Registration with Maximal Cliques
作者:Xiyu Zhang,Jiaqi Yang,Shikun Zhang,Yanning Zhang
3. OmniObject3D: Large Vocabulary 3D Object Dataset for Realistic Perception, Reconstruction and Generation
作者:Tong Wu,Jiarui Zhang,Xiao Fu,Yuxin WANG,Jiawei Ren,Liang Pan,Wenyan Wu,Lei Yang,Jiaqi Wang,Chen Qian,Dahua Lin,Ziwei Liu
机构:上海人工智能实验室,香港中文大学,商汤,香港科技大学,南洋理工大学
论文地址:https://arxiv.org/pdf/2301.07525.pdf
由于缺乏大规模的真实扫描三维数据库,最近在三维物体建模方面的进展大多依赖于合成数据集。
为了促进现实世界中3D感知、重建和生成的发展,研究人员提出了OmniObject3D,一个具有大规模高质量真实扫描3D物体的大型词汇3D物体数据集。
OmniObject3D有几个吸引人的特性:1)超大数据量:它包括190个日常类别的6000个扫描物体,与流行的二维数据集(如ImageNet和LVIS)共享共同的类别,有利于追求可通用的三维表征。2)丰富的注释:每个三维物体都由二维和三维传感器捕获,提供纹理网格、点云、多视角渲染图像和多个真实捕获的视频。3) 真实的扫描:专业扫描仪支持高质量的物体扫描,具有精确的形状和逼真的外观。
利用OmniObject3D提供的广阔探索空间,研究人员精心设置了四个评估基准:a)强大的3D感知,b)新视角合成,c)神经表面重建,以及d)3D物体生成。
4. MobileNeRF: Exploiting the Polygon Rasterization Pipeline for Efficient Neural Field Rendering on Mobile Architectures
作者:Zhiqin Chen,Thomas Funkhouser,Peter Hedman,Andrea Tagliasacchi
机构:谷歌,西蒙菲莎大学,多伦多大学
论文地址:https://arxiv.org/pdf/2208.00277.pdf
神经辐射场(NeRFs)在从新的视角合成三维场景的图像方面表现出惊人的能力。然而,它们依赖的专有体积渲染算法,与广泛部署的图形硬件的能力并不匹配。
本文介绍了一种新的基于纹理多边形的NeRF表征方法,它可以用标准渲染管道有效地合成新的图像。NeRF被表征为一组多边形,其纹理代表二进制不透明度和特征矢量。用Z型缓冲器对多边形进行传统的渲染,得到的图像在每个像素上都有特征,这些特征被运行在片段着色器中的一个小型的、依赖于视图的MLP解释,以产生最终的像素颜色。
这种方法使NeRF能够用传统的多边形光栅化管道进行渲染,它提供了大规模的像素级并行性,在包括手机在内的各种计算平台上实现了足以进行交互的帧率。
5. DynIBaR: Neural Dynamic Image-Based Rendering
作者:Zhengqi Li,Qianqian Wang,Forrester Cole,Richard Tucker,Noah Snavely
机构:谷歌,康奈尔科技校区
论文地址:https://arxiv.org/pdf/2211.11082.pdf
本文中,研究人员提出了一种基于体积图像的渲染框架,该框架通过以场景运动感知的方式,来聚合附近的视点特征,从而合成新的视点。
研究人员的系统保留了先前方法的优点,即能够对复杂的场景和视点相关的效果进行建模,而且还能够从具有复杂场景动态和无约束相机轨迹的长视频中合成照片般真实的新视点。
结果证明,在动态场景数据集上,新方法比SOTA有明显改进。并且,还能应用于颇具挑战性的运动视频当中,此前的方法在这里都无法产生高质量的渲染。
6. Planning-oriented Autonomous Driving
7. DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
8. On Distillation of Guided Diffusion Models
9. Visual Programming: Compositional visual reasoning without training
10. What Can Human Sketches Do for Object Detection?
11. Data-driven Feature Tracking for Event Cameras
12. Integral Neural Networks
微信扫码关注该文公众号作者