何恺明“被拒”缺席、语言模型大行其道,今年的CVPR,彻底变了?
邮箱|[email protected]
国际计算机视觉与模式识别会议(CVPR)2024即将于6月17至21日在美国西雅图召开,CVPR是计算机视觉乃至人工智能领域最具学术影响力的顶级会议之一,其论文评选结果受到学术界的广泛关注,对行业创新产生重要影响。
CV领域的大神何恺明缺席本次CVPR引发关注,他提出的ResNet成为计算机视觉领域的流行架构,相关论文的引用数量突破20万次,曾经多次获得CVPR最佳论文奖。硅星人在检索CVPR2024接受论文列表之后,发现的确没有何恺明参与的论文入选,这也是2009年后何恺明首次缺席CVPR接受论文列表。
此前有消息称,今年CVPR拒绝了何恺明参与的三篇论文,其中不乏广受关注的高质量论文。何恺明在今年的CVPR提交期限里并没有公开的作为一作参与的重要论文,一些和自己的学生或者其他业界同行协作的论文,没有出现在CVPR的列表里。比如《Return of Unconditional Generation: A Self-supervised Representation Generation Method》,提出了一种名为表示条件生成(RCG)的框架,旨在解决不依赖人工标注标签而直接建模数据分布的无条件生成问题;以及《Deconstructing Denoising Diffusion Models for Self-Supervised Learning》,解构扩散模型,提出一个高度简化的新架构l-DAE,其核心思想是将低维潜在空间与噪声相结合,从而提高了模型自监督表示学习的能力。前者由何恺明在MIT的博士生黎天鸿为一作,后者的合著作者中有纽约大学计算机科学助理教授,DiT的作者谢赛宁。
另一个有意思的现象是,搜索CVPR的论文列表可以发现,黎天鸿和谢赛宁参与的其他多个论文有入选今年的CVPR。
何恺明一向不以论文多产著称,不过这次的缺席也让人感受到今年CVPR的变化。
从关注度上和论文类型上来看,今年的CVPR确实处在某种转折点。
空前关注
今年CVPR的规模是空前的,2024年CVPR共收到11,532篇论文投稿,比去年增加了25%。其中,有2,719篇论文被接受,录取率保持在23.6%。投稿数量的增加反映了计算机视觉研究兴趣的日益增加。
作者人数也有所增加。今年,超过10,000位作者参与了被接受的论文撰写,去年为8,457人。有趣的是,今年只有三分之一的作者在2023年有论文被接受,这表明有大量新研究人员的涌入。
合作仍然是大会的关键。学术界贡献了39.4%的论文,但产业与学术界的合作也不容忽视,贡献了27.6%的论文。谷歌是最大的产业贡献方,有52篇论文,其次是腾讯和Meta,各有35篇论文。
尽管在CVPR这类会议上,产业界的影响力很大,但大学依旧是研究活动的主要推动力。顶尖大学每年平均被接受的论文数量超过了30篇。根据统计数据,今年表现最佳的大学是清华大学,共有88篇研究论文被接受。其次是浙江大学的63篇和上海交通大学的57篇。
从地理上看,美国和中国是主要的贡献者,占了近70%的论文。其他重要的贡献者包括德国、韩国、英国和新加坡。
图像和视频合成与生成最热,语言视觉结合论文数量增加两倍
具体来看,根据乔治亚理工学院计算机学院对CVPR 2024录用数据的统计分析,论文主题涵盖 36 个主题领域。
在大模型时代,CVPR 2024展示了计算机视觉领域的新趋势。图像和视频合成与生成成为最热门的研究主题,共有329篇论文。其次是三维视觉和人体行为识别,分别有276篇和202篇论文。视觉、语言与语言推理也备受关注,表明学界对多模态信息融合和高层次语义理解的重视。此外,底层视觉、识别任务、机器人与AI等领域的研究也取得了显著进展。
而根据数据AI模型研发商LatticeFlow对论文标题的分析,关于大语言模型的热潮也转移到了CVPR,结合语言和视觉的研究论文增加了两倍,例如:
OneLLM: One Framework to Align All Modalities with Language
Language Models as Black-Box Optimizers for Vision-Language Models
Inversion-Free Image Editing with Language-Guided Diffusion Models
Towards Better Vision-Inspired Vision-Language Models
A Vision Check-up for Language Models
遵循同样的趋势,用于生成视觉应用的扩散模型也增加了三倍以上。这与行业的发展方向也是一致的,朝向可以理解和生成视觉、语言甚至音频的大型多模态模型。
24强竞逐CVPR Award,五分之一来自中国高校
根据官方公布的最新信息,324篇(11.9%)的论文因其高质量和潜在影响而被审计委员会选为highlights,90篇(3.3%)论文被选为oral talks(优秀论文),oral当中的24篇将竞争本届最佳论文。
CVPR 2024的最佳论文候选名单覆盖了丰富多样的研究领域,包括视觉与图形、单视图3D重建、视觉语言推理、基于医学和物理学的视觉、自主导航和自我中心视觉、3D技术、行动和动作识别、数据和评估、多视角与传感器融合、低样本/无监督/半监督学习、地位视觉和遥感、图像与视频合成以及多模态学习。
其中,除了入围的Transformer、分割模型等,扩散模型方向也有两篇入围,一篇来自苏黎世联邦理工学院的魔改微调,一篇来自英伟达的性能优化。以下是24篇入围论文的主题、标题及摘要概览,你认为谁能摘得最终桂冠?
以下为我们整理的入围论文的基本信息,供大家参考。
多视角和传感器融合3D
1. Mip-Splatting: Alias-free 3D Gaussian Splatting
德国图宾根大学
https://github.com/autonomousvision/mip-splatting(代码已开源)
摘要:最近,3D高斯散点显示了令人印象深刻的新视角合成结果,达到了高保真度和高效率。然而,当改变采样率(例如,通过改变焦距或相机距离)时,会出现明显的伪影。我们发现,这种现象的原因可以归因于缺乏3D频率约束和使用了2D膨胀滤波器。为了解决这个问题,我们引入了一个3D平滑滤波器,根据输入视图所引起的最大采样频率来约束3D高斯原语的大小,从而在放大时消除高频伪影。此外,将2D膨胀替换为2D Mip滤波器(模拟2D盒滤波器),有效地缓解了混叠和膨胀问题。我们的评估包括在单尺度图像上训练和在多尺度上测试的场景,验证了我们方法的有效性。
2. NeRF-HuGS: Improved Neural Radiance Fields in Non-static Scenes Using Heuristics-Guided Seqmentation
中山大学
http://cnhaox.com/NeRF-HuGS/(代码已开源)
摘要:Neural Radiance Field(NeRF)因其在新视角合成和三维场景重建中的卓越表现而广受认可。然而,其效果本质上依赖于静态场景的假设,这使得它在面对移动物体或阴影等瞬态干扰时容易出现不良的伪影。在这项工作中,我们提出了一种新范式,即“启发式引导分割”(Heuristics-Guided Segmentation,简称HuGS)。该方法通过巧妙结合手工制作的启发式规则和最先进的分割模型的优势,显著增强了静态场景与瞬态干扰物的分离,从而大大超越了以往解决方案的局限性。此外,我们深入探讨了启发式规则的精细设计,介绍了一种结构自运动(SfM)启发式和颜色残差启发式的无缝融合,以适应各种不同的纹理特征。大量实验表明,我们的方法在缓解训练于非静态场景的NeRF的瞬态干扰方面具有卓越性和鲁棒性。
3. PaSCo: Urban 3D Panoptic Scene Completion with Uncertainty Awareness
慕尼黑工业大学
https://github.com/astra-vision/PaSCo (代码已开源)
摘要:我们提出了全景场景补全(Panoptic Scene Completion,简称PSC)任务,这一任务扩展了近期流行的语义场景补全(Semantic Scene Completion,简称SSC)任务,加入了实例级别的信息,以对3D场景进行更丰富的理解。我们的PSC方案利用了一种混合的基于掩码的技术,应用于来自稀疏多尺度补全的非空体素。与忽视不确定性的SSC文献不同,我们提出了一种高效的集成方法,用于估计PSC中的体素级和实例级不确定性。通过建立在多输入多输出(MIMO)策略之上,我们在提升性能的同时,为不确定性提供了更好的估计,且额外计算量较少。此外,我们介绍了一种聚合排列不变的掩码预测的技术。实验表明,我们的方法在全景场景补全和不确定性估计方面均超越了所有基准,在三个大型自动驾驶数据集上表现出色。
4. pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction
麻省理工大学
https://davidcharatan.com/pixelsplat/(代码已开源)
摘要:我们介绍了pixelSplat,一个能够从成对图像中学习重建由3D高斯基元参数化的3D辐射场的前馈模型。我们的模型具有实时和内存高效的渲染,适用于大规模训练,并在推断时实现快速的3D重建。为了克服稀疏且局部支持的表示中固有的局部极值问题,我们预测了一个3D空间中的密集概率分布,并从该概率分布中采样高斯均值。我们通过重新参数化技巧使这种采样操作变得可微,从而能够通过高斯散射表示进行梯度反向传播。我们在真实世界的RealEstate10k和ACID数据集上对我们的方法进行了宽基线新视角合成的基准测试,结果表明我们的方法在渲染速度上比当前最先进的光场变换器快2.5个数量级,并且能够重建出可解释和可编辑的3D辐射场。
5. PlatoNeRF: 3D Reconstruction in Plato's Cave via Single-View Two-Bounce Lidar
麻省理工大学
https://platonerf.github.io/ (代码已开源)
https://arxiv.org/abs/2312.14239
摘要:单视角的3D重建具有挑战性,因为来自单眼线索的信息模糊性以及对遮挡区域缺乏信息。NeRF(神经辐射场)虽然在视角合成和3D重建方面很受欢迎,但通常依赖于多视角图像。现有的单视角3D重建方法通过NeRF要么依赖于数据先验来填充遮挡区域的视图,这可能并不具有物理准确性,要么依赖于RGB相机观察到的阴影,但在环境光和低反照率背景下难以检测。我们提出使用通过单光子雪崩二极管捕获的飞行时间数据来克服这些限制。我们的方法利用激光雷达瞬态数据进行监督,使用NeRF模型化两次反射的光路。通过结合NeRF和激光雷达测量的两次反射光的优点,我们证明了可以在不需要数据先验或依赖于受控环境光照或场景反照率的情况下重建可见和遮挡的几何结构。此外,我们还展示了在传感器空间和时间分辨率的实际约束下改善的泛化能力。我们相信,随着单光子激光雷达在手机、平板电脑和头戴设备等消费类设备上的普及,我们的方法是一种有前途的方向。
数据和评估
6. BioCLIP: A Vision Foundation Model for the Tree of Life
俄亥俄州立大学
https://imageomics.github.io/bioclip/(数据代码已开源)
https://arxiv.org/abs/2311.18803
摘要:由无人机到个人手机等各种相机收集的自然界图像,越来越多地成为生物信息的丰富来源。用于从图像中提取与生物学相关信息的计算方法和工具,尤其是计算机视觉,正在迅速发展。然而,大多数这些方法都是为特定任务设计的定制方法,难以适应或扩展到新的问题、背景和数据集。一个针对图像上生物学一般问题的通用模型迫在眉睫。为此,我们策划并发布了TreeOfLife-10M,这是目前最大的、生物学图像多样性最高的机器学习预处理数据集。随后,我们开发了BioCLIP,一个基于TreeOfLife-10M数据集开发的生命之树基础模型,利用了生物学的独特属性,即植物、动物和真菌图像的丰富性和多样性,及其丰富的结构化生物知识的可用性。我们在各种细粒度生物分类任务上对我们的方法进行了严格的基准测试,发现BioCLIP在各个方面都显著优于现有基准(绝对提升17%到20%)。内在评估显示,BioCLIP学习了符合生命之树的层次表示,揭示了其强大的普适性。所有数据、代码和模型将在通过审核后公开发布。
7. Rich Human Feedback for Text-to-Image Generation
加州大学圣迭戈分校
https://arxiv.org/abs/2312.10240
摘要:最近的文本到图像(T2I)生成模型如Stable Diffusion和Imagen在根据文本描述生成高分辨率图像方面取得了显著进展。然而,许多生成的图像仍存在诸如伪影/不可信性、与文本描述不匹配以及审美质量低下的问题。受到人类反馈强化学习(RLHF)在大型语言模型中的成功启发,之前的工作收集了人类对生成图像提供的评分作为反馈,并训练了一个奖励模型来改进T2I生成。在这篇论文中,我们通过以下方式丰富了反馈信号:(i) 标记图像中不可信或与文本不匹配的区域,(ii) 注释文本提示中的哪些单词在图像上被误解或遗漏。我们在18K生成图像上收集了这些丰富的人类反馈(RichHF-18K),并训练了一个多模态变压器来自动预测这些丰富的反馈。我们展示了预测的丰富人类反馈可以用于改进图像生成,例如通过选择高质量的训练数据来微调和改进生成模型,或者通过创建带有预测热图的掩码来修复有问题的区域。显著的是,这些改进可以推广到其他模型(如Muse),不仅限于用于生成人类反馈数据的模型(如Stable Diffusion变体)。
图像和视频的合成与生成
8. Analyzing and Improving the Training Dynamics of Diffusion Models
英伟达
https://arxiv.org/abs/2312.02696
https://github.com/NVlabs/edm2 (代码已开源)
摘要:扩散模型目前在基于数据驱动的图像合成领域占据主导地位,因其在大数据集中的无与伦比的扩展能力。在本文中,我们识别并纠正了在流行的ADM扩散模型架构中导致训练不平衡和无效的几个原因,同时不改变其高层结构。在观察到网络在训练过程中激活和权重的非控制性幅度变化和不平衡后,我们重新设计了网络层,以在期望下保持激活、权重和更新的幅度。我们发现,系统地应用这一理念消除了观察到的漂移和不平衡,显著提高了在相同计算复杂度下的网络性能。我们的修改将ImageNet-512合成中以前的最佳FID记录从2.41提高到1.81,并通过快速确定性采样实现。作为一个独立的贡献,我们提出了一种在训练完成后设置指数移动平均(EMA)参数的方法。这允许在不进行多次训练的情况下精确调整EMA长度,并揭示了EMA与网络架构、训练时间和指导之间的意外互动。
9. Generative Image Dynamics
谷歌研究院
https://generative-dynamics.github.io/
摘要:我们提出了一种对场景运动进行图像空间先验建模的方法。我们的先验是从一组从现实视频序列中提取的运动轨迹中学习的,这些视频展示了诸如树木、花朵、蜡烛和衣物在风中摇曳的自然振荡动态。我们在频谱域内将密集的长期运动建模为频谱体积,我们发现这些体积非常适合使用扩散模型进行预测。给定一张单一图像,我们训练的模型使用频率协调的扩散采样过程来预测频谱体积,该体积可以转换成覆盖整个视频的运动纹理。结合一个基于图像的渲染模块,预测的运动表示可以用于多个后续应用,例如将静止图像变成无缝循环的视频,或者允许用户与真实图像中的物体互动,产生逼真的模拟动态(通过将频谱体积解释为图像空间的模态基)。
医学和生物视觉,细胞显微镜
10. Correlation-aware Coarse-to-fine MLPs for Deformable Medical Image Registration
悉尼大学
https://github.com/MungoMeng/Registration-CorrMLP
摘要:可变形图像配准是医学图像分析中的基础步骤。最近,Transformer已被用于图像配准,并优于卷积神经网络(CNNs)。Transformer能够捕捉图像特征之间的长程依赖,这对配准非常有利。然而,由于自注意力机制的高计算/内存负担,Transformers通常在下采样的特征分辨率下使用,无法在全图分辨率下捕捉细粒度的长程依赖。这限制了可变形配准,因为它需要精确密集的每个图像像素之间的对应关系。没有自注意力机制的多层感知器(MLPs)在计算/内存使用方面效率更高,使得捕捉全分辨率细粒度长程依赖成为可能。然而,MLPs尚未在图像配准中得到广泛探索,并且缺乏对医学配准任务至关重要的归纳偏差的考虑。在这项研究中,我们提出了第一个基于MLP的、具备相关感知的可变形医学图像配准网络(CorrMLP)。我们的CorrMLP在一种新颖的从粗到细的配准架构中引入了相关感知多窗口MLP模块,捕捉细粒度的多范围依赖,以执行相关感知的从粗到细配准。通过七个公开医疗数据集的广泛实验表明,我们的CorrMLP优于最先进的可变形配准方法。
11. MemSAM: Taming Segment Anything Model for Echocardiography Video Segmentation
深圳大学
https://github.com/dengxl0520/MemSAM (代码已开源)
摘要:我们提出了一种新颖的超声心动图视频分割模型,通过将SAM适配到医疗视频中,以解决超声视频分割中的一些长期挑战,包括(1)大量的斑点噪声和伪影,(2)极为模糊的边界,以及(3)目标对象在不同帧中的巨大变化。我们模型的核心技术是一个具备时间感知和抗噪能力的提示方案。具体来说,我们采用了一个包含空间和时间信息的空间-时间记忆来提示当前帧的分割,因此我们将提出的模型称为MemSAM。在提示过程中,携带时间线索的记忆会按序逐帧提示视频分割。同时,由于记忆提示传播的是高层特征,这避免了由掩膜传播引起的错误识别问题,并提高了表示的一致性。为了应对斑点噪声的挑战,我们进一步提出了一种记忆强化机制,该机制利用预测的掩膜在存储之前提升记忆的质量。我们在两个公开数据集上对我们的方法进行了广泛评估,结果显示其性能相较于现有模型达到了当前最先进的水平。特别是,我们的模型在有限注释情况下,性能与完全监督的方法相当。
单张图像生成三维重建
12. Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation
苏黎世联邦理工学院
https://arxiv.org/abs/2312.02145
https://marigoldmonodepth.github.io/ (代码已开源)
摘要:单目深度估计是计算机视觉中的一个基础任务。从单张图像中恢复三维深度在几何上是一个病态问题,需要对场景有深入理解,因此深度学习的兴起带来了突破也就不足为奇了。单目深度估计器的显著进步反映了模型容量从相对适中的卷积神经网络(CNNs)到大型Transformer架构的发展。然而,单目深度估计器在处理包含不熟悉内容和布局的图像时往往会遇到困难,因为它们对视觉世界的理解受限于训练时看到的数据,并在零样本泛化到新领域时面临挑战。这促使我们探索近期生成扩散模型中广泛捕捉的先验知识是否能够实现更好、更具普遍性的深度估计。我们引入了Marigold,一种基于Stable Diffusion并保留其丰富先验知识的仿射不变单目深度估计方法。该估计器可以在几天内利用单个GPU只用合成训练数据进行微调。它在各种数据集上均表现出了最先进的性能,在特定情况下性能提升超过20%。
自动驾驶
13. Producing and Leveraging Online Map Uncertainty in Trajectory Prediction
University of Toronto
多伦多大学
https://arxiv.org/abs/2403.16439
摘要:高清(HD)地图在现代自动驾驶车辆(AV)系统的发展中扮演了重要角色,但其标注和维护成本极高。因此,许多近期的研究提出了从传感器数据在线估计高清地图的方法,使自动驾驶车辆能够在未提前绘制地图的区域运行。然而,目前的在线地图估计方法是与其下游任务相隔离开发的,这使得它们在自动驾驶系统中的集成变得复杂。特别是,它们不产生不确定性或置信度估计。在这项工作中,我们扩展了多种最新的在线地图估计方法,以额外估计不确定性,并展示了这如何更紧密地将在线映射与轨迹预测集成。在此过程中,我们发现结合不确定性可以使训练收敛速度提高多达50%,并使在现实世界nuScenes驾驶数据集上的预测性能提升多达15%。
计算机视觉理论
14. Grounding and Enhancing Grid-based Models for Neural Fields
上海交通大学
https://arxiv.org/abs/2403.20002
https://sites.google.com/view/cvpr24-2034-submission/home
摘要:许多现代研究采用基于网格的模型进行神经场表示,但对这些网格模型的系统分析仍然缺失,阻碍了这些模型的改进。因此,本文引入了一个用于基于网格模型的理论框架。此框架指出,这些模型的近似和泛化行为是由网格切线核(GTK)决定的,这是基于网格模型的内在属性。所提出的框架有助于对各种基于网格模型进行一致和系统的分析。此外,该框架还激发了一个新的基于网格模型的开发,称为“乘性傅里叶自适应网格”(MulFAGrid)。数值分析表明,MulFAGrid 相对于之前的模型表现出较低的泛化界限,表明其具有强大的泛化性能。实证研究表明,MulFAGrid 在各种任务中实现了最先进的性能,包括2D图像拟合、3D签名距离场(SDF)重建和新视点合成,显示出卓越的表示能力。
深度学习架构与技术
15. Task-Driven Wavelets using Constrained Empirical Risk Minimization
荷兰癌症研究所
https://cvpr.thecvf.com/virtual/2024/poster/30226
摘要:深度神经网络(DNNs)因其有效逼近大类函数的能力而被广泛使用。然而,这种灵活性却使得在DNN中严格实施约束变得困难。在某些情况下,限制某些网络组件所属的函数空间是至关重要的,例如在多分辨率分析(MRA)中使用的小波,单纯通过在损失函数中添加额外项来进行的普通约束是不足的。为了解决这个问题,我们引入了一种卷积神经网络(CNN),其中卷积滤波器被严格限制为小波。这允许滤波器在训练过程中更新为任务优化的小波。我们的主要贡献在于通过一个约束经验风险最小化框架对这些滤波器进行严格的公式化,从而提供了一种精确机制来执行这些结构性约束。尽管我们的工作是基于理论的,我们通过医学影像中的应用,特别是不同器官周围的轮廓预测任务,实证研究了我们的方法,达到了优于基准方法的性能。
高效且可扩展的视觉
16. RMIT University (澳大利亚·皇家墨尔本理工大学)
https://arxiv.org/abs/2404.05657
https://github.com/sihaoevery/lambda_vit(代码已开源)
摘要:自注意力机制是Transformer的核心,但往往因其计算需求而受到批评。以往的token修剪工作从计算冗余的角度出发,但仍需要加载完整网络,并且需要相同的内存成本。本文介绍了一种新策略,通过熵考虑引导选择性移除非必要的注意力层,简化视觉Transformer并减少计算负担。我们发现,在底层块中的注意力层,后续的MLP层(即两个前馈层)可以引发相同的熵量。同时,伴随的MLP层由于熵特征较小而被低估,相较于顶部块中的MLP层。因此,我们提出把无信息的注意力层整合到其后续对等层,通过将它们退化为恒等映射,从而在某些Transformer块中仅保留MLP。ImageNet-1k上的实验结果显示,该方法可以移除40% DeiT-B的注意力层,在不损失性能的情况下提高吞吐量和内存限制。
可解释的计算机视觉
17. Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods
俄勒冈州立大学
https://arxiv.org/abs/2212.06872
摘要:为了深入了解不同视觉识别骨干网的决策过程,我们提出了两种方法:子解释计数和交叉测试。这些方法系统地在整个数据集上应用深度解释算法,并比较由解释的数量和性质生成的统计数据。这些方法揭示了网络在两个属性上的差异,称为组合性和离散性。结果发现,Transformers和ConvNeXt在决策过程中更具组合性,因为它们共同考虑图像的多个部分,而传统的CNN和蒸馏Transformer则较少组合性和更具离散性,这意味着它们使用更多样但较小的部分集合来实现有信心的预测。通过进一步实验,我们确定了归一化选择对模型的组合性特别重要,批量归一化导致组合性较低,而组归一化和层归一化则导致组合性较高。最后,我们还分析了不同骨干网共享的特征,并基于特征使用相似性绘制了不同模型的景观图。
底层视觉
18. Image Processing GNN: Breaking Rigidity in Super-Resolution
北京大学
https://cvpr.thecvf.com/virtual/2024/poster/30684
https://github.com/huawei-noah/Efficient-Computing/tree/master/LowLevel/IPG
摘要:超分辨率(SR)通过从低分辨率图像重建高分辨率图像。卷积神经网络(CNN)和窗口注意力方法是典型SR模型的两大主要类别。然而,这些方法都存在刚性问题:在两种操作中,每个像素都收集相同数量的邻近像素,削弱了其在SR任务中的有效性。作为替代方案,我们利用图的灵活性,提出了图像处理图神经网络(IPG)模型,以打破以往SR方法中的刚性问题。首先,SR是不平衡的,大多数重建工作集中在细节丰富的图像部分。因此,我们通过为细节丰富的图像节点分配更高的节点度,利用度的灵活性。其次,为了构建有利于SR的图,我们将图像视为像素节点集合而不是补丁节点。最后,我们认为本地和全局信息对于SR性能都至关重要。为了通过灵活的图高效地收集来自本地和全局尺度的像素信息,我们在临近区域内搜索节点连接以构建本地图;在整个图像的跨步采样空间内找到连接以构建全局图。图的灵活性提升了IPG模型的SR性能。各种数据集上的实验结果表明,所提出的IPG优于最先进的基线模型。
优化方法(不包括深度学习)
19. SpiderMatch: 3D Shape Matching with Global Optimality and Geometric Consistency
波恩大学
https://paulroetzer.github.io/publications/2024-06-19-spidermatch.html
https://github.com/paul0noah/spider-match
摘要:在产品空间上寻找最短路径是一种解决多种匹配问题的流行方法,包括用于匹配信号的动态时间规整方法、曲线匹配或曲线与3D形状的匹配。虽然这些方法允许在多项式时间内计算全局最优的解决方案,但其自然地推广到3D形状匹配却广泛被认为是不可行的。在本研究中,我们通过提出一种新的基于路径的3D形状匹配形式来解决这一问题。更具体地说,我们考虑了一种替代的形状离散化,其中一个3D形状(源形状)表示为一个“蜘蛛曲线”,即一个穿越3D形状表面的长自交曲线。随后,我们将3D形状匹配问题视为在蜘蛛曲线与目标3D形状的乘积图中寻找一条最短路径。我们的方法引入了一组新的约束,确保全局几何一致的匹配。总体而言,我们的形式化方法会导致一个整数线性规划问题,并且我们通过实验展示了其可以高效地解决以达到全局最优。我们证明了我们的方法在与最近的最先进形状匹配方法竞争时表现突出,同时还额外保障了几何一致性。
基于物理的视觉和从X生成形状
20. EventPS: Real-Time Photometric Stereo Using an Event Camera
北京大学
https://openaccess.thecvf.com/content/CVPR2024/papers/Yu_EventPS_Real-Time_Photometric_Stereo_Using_an_Event_Camera_CVPR_2024_paper.pdf
摘要:光度立体是估计物体表面法线的一个成熟技术。然而,需要在不同光照条件下拍摄多幅高动态范围图像的要求限制了其速度和实时应用。本文介绍了EventPS,一种使用事件相机进行实时光度立体的新方法。利用事件相机卓越的时间分辨率、动态范围和低带宽特性,EventPS通过辐射变化来估计表面法线,显著提高了数据效率。EventPS能无缝整合基于优化和基于深度学习的光度立体技术,提供针对非朗伯面的一种稳健解决方案。大量实验验证了EventPS相较于基于帧的对手的有效性和效率。我们的算法在现实场景中可运行超过30帧每秒,释放了EventPS在时间敏感和高速下游应用中的潜力。
场景分析与理解
21. EGTR: Extracting Graph from Transformer for Scene Graph Generation
NAVER Cloud AI
https://github.com/naver-ai/egtr
摘要:场景图生成(SGG)是检测对象和预测对象之间关系的一项挑战性任务。在DETR开发之后,基于单阶段目标检测器的一阶段SGG模型得到了积极研究。然而,用于预测对象间关系的复杂建模被使用,而在目标检测器的多头自注意力中学习到的对象查询之间的固有关系却被忽视了。我们提出了一种轻量级的一阶段SGG模型,该模型从DETR解码器的多头自注意力层中学习到的各种关系中提取关系图。通过充分利用自注意力的副产品,可以用一个浅层关系提取头有效地提取关系图。考虑到关系提取任务对目标检测任务的依赖性,我们提出了一种新颖的关系平滑技术,该技术根据检测到的对象的质量自适应调整关系标签。通过关系平滑,模型按照连续的课程进行训练,一开始侧重于对象检测任务,随着对象检测性能的逐渐提高进行多任务学习。此外,我们提出了一项连通性预测任务作为关系提取的辅助任务,用于预测对象对之间是否存在关系。我们在Visual Genome和Open Image V6数据集上展示了我们方法的有效性和效率。
视频:行动和事件理解
22. Temporally Consistent Unbalanced Optimal Transport for Unsupervised Action Segmentation
澳大利亚国立大学
https://arxiv.org/abs/2404.01518
摘要:我们提出了一种针对长未修剪视频的动作分割任务的新方法,该方法基于解决最优运输问题。通过将时间一致性先验编码进Gromov-Wasserstein问题,我们能够从视频帧和动作类别之间的噪声相关性/匹配成本矩阵中解码出一个时间上一致的分割。与之前的方法不同,我们的方法不需要知道视频的动作顺序就能实现时间一致性。此外,我们得到的(融合的)Gromov-Wasserstein问题可以通过在GPU上使用几次迭代的投影镜像下降法高效解决。我们在无监督学习设置中展示了我们方法的有效性,其中我们的方法用于生成伪标签以进行自我训练。我们在Breakfast、50-Salads、YouTube Instructions和Desktop Assembly数据集上评估了我们的分割方法和无监督学习流程,在无监督视频动作分割任务中取得了最先进的结果。
视觉 + 图形
23. Objects as Volumes: A Stochastic Geometry View of Opaque Solids
卡耐基梅隆大学
https://arxiv.org/abs/2312.15406v2
摘要:我们开发了一种将不透明固体表示为体积的理论。从不透明固体的随机指示函数表示出发,我们证明了这类固体可以使用指数体积传输进行建模的条件。我们还推导出体积衰减系数作为底层指示函数概率分布的函数式表达式。我们将理论推广,以考虑固体不同部分的同向散射和异向散射,以及将不透明固体表示为随机隐式曲面。我们从第一原理推导我们的体积表示法,确保它满足物理约束,如互反性和可逆性。我们使用我们的理论来解释、比较和纠正先前的体积表示,以及提出有意义的扩展,这导致了在3D重建任务中性能的提升。
视觉、语言与推理
24. MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI
IN.AI Research
https://arxiv.org/abs/2311.16502
https://mmmu-benchmark.github.io/
摘要:我们介绍了MMMU:一个新的基准测试,旨在评估多模态模型在需要大学水平学科知识和深入推理的大规模多学科任务上的表现。MMMU包括从大学考试、测验和教科书中精心收集的11.5K个多模态问题,涵盖六个核心学科:艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程。这些问题涵盖30个学科和183个子领域,包含30种高度异质的图像类型,如图表、图解、地图、表格、乐谱和化学结构。与现有的基准测试不同,MMMU专注于使用领域特定知识进行高级感知和推理,挑战模型执行类似专家面对的任务。对28个开源大型多模态模型(LMMs)以及专有的GPT-4V(ision)和Gemini的评估凸显了MMMU所提出的重大挑战。即使是先进的GPT-4V和Gemini Ultra也只分别达到了56%和59%的准确率,表明还有显著的提升空间。我们相信,MMMU将激励社区构建下一代多模态基础模型,朝向专家级的通用人工智能发展。
根据CVPR的官方日程,最终的奖项将在当地时间6月19日早上公布。届时我们也会带来一手的CVPR 2024现场直击的内容,敬请期待。也欢迎感兴趣的朋友加入我们的社群第一时间接收相关报道。
微信扫码关注该文公众号作者