国际科技财经博客移民网络热点娱乐民生时事公众号

>

ICCV 2023开奖了！2160篇录用论文，Meta「分割一切」被接收

ICCV 2023开奖了！2160篇录用论文，Meta「分割一切」被接收

公众号新闻

2023-07-17 05:07

新智元报道

编辑：桃子好困

【新智元导读】ICCV 2023录用结果公布了。

ICCV 2023开奖了！

近日，世界三大顶级视觉会议之一ICCV公开了最新录用结果。

根据文件里给出的ID，总共有2160篇论文入选。

有趣的是，ID在500-1000和8500-9000之间的论文，录用率为0%。

虽然还不清楚具体的原因，不过约克大学的助理教授Kosta Derpanis指出，ID有时会被跳过。

ICCV每2年举办一次，与CVPR、ECCV并称计算机视觉三大顶级会议。

ICCV 2023是第19届国际视觉会议，将在10月2日-6日在法国巴黎举办。

都来看看今年都有哪些论文被录用了。

分割一切

Meta团队推出的图像分割基础模型「分割一切」（SAM）被ICCV 2023接收。

SAM的强大之处在于，能从照片或视频中对任意对象实现一键分割，并且能够零样本迁移到其他任务。

论文地址：https://ai.facebook.com/research/publications/segment-anything/

整体而言，SAM遵循了基础模型的思维：

1. 一种非常简单但可扩展的架构，可以处理多模态提示：文本、关键点、边界框。

2. 直观的标注流程，与模型设计紧密相连。

3. 一个数据飞轮，允许模型自举到大量未标记的图像。

值得一提的是，SAM具有广泛的通用性。

即具有了零样本迁移的能力，足以涵盖各种用例，不需要额外训练，就可以开箱即用地用于新的图像领域，无论是水下照片，还是细胞显微镜。

「扩散模型」热度不减

罗格斯大学和谷歌提出的SVDiff，为扩散模型微调提出了一个紧凑参数空间——频谱移动。

论文地址：https://arxiv.org/abs/2303.11305

扩散模型在T2P生成方面取得了显著的成功，能够从文本提示，或其他模态中创建高质量的图像。

然而，现有的定制这些模型的方法受到处理多个个性化主题和过拟合风险的限制。此外，其大量的参数对于模型的存储来说是低效的。

论文中，提出了一种新的方法来解决现有文本-图像扩散模型的这些限制，以实现个性化。

与现有的方法（vanilla DreamBooth 3.66GB，Custom Diffusion 73MB）相比，提出的SVDiff方法的模型大小明显较小（StableDiffusion为1.7MB），使其在现实世界的应用中更加实用。

Adobe和伦敦大学学院提出了用图像扩散进行视频编辑的方法：Pix2Video。

论文地址：https://arxiv.org/pdf/2303.12688.pdf

图像扩散模型支持反转真实图像和有条件的（例如文本）生成，使其成为高质量图像编辑应用程序的理想选择。

本文研究了如何利用这样的预训练图像模型，进行文本引导的视频编辑。其中的关键挑战是在「保留源视频内容的同时实现目标编辑」。

研究人员的方法通过2个简单的步骤实现：

- 使用预先训练的结构引导（如深度）图像扩散模型对锚定帧进行文本引导编辑

- 在关键步骤中，通过自注意力特征注入逐步将更改传播到未来帧，以适应扩散模型核心去噪步骤。

- 通过调整上一帧的潜在编码来巩固这些更改，并继续整个过程。

值得一提的是，该方法无需训练，适用于各种广泛的编辑。

哥伦比亚等研究团队提出了由一张图像生成三维物体的框架Zero-1-to-3，可以仅通过一张RGB图像改变物体的相机视角

论文地址：https://arxiv.org/pdf/2303.11328.pdf

研究人员为了在这种不完备的情况下执行新视角合成，因此利用了大规模扩散模型学习的有关自然图像的几何先验知识。

条件扩散模型使用合成数据集学习相对相机视角的控制，这使得可以在指定的相机变换下生成同一对象的新图像。

尽管它是在合成数据集上训练的，但该模型仍然保持了很强的零样本泛化能力，可以适应分布外的数据集以及野外图像，包括印象派绘画。

该视角条件扩散方法还可以用于从单张图像进行3D重建的任务。定性和定量实验表明，该方法通过利用互联网规模的预训练，显著优于最先进的单视角3D重建和新视角合成模型。

南洋理工大学MMLab共有20篇论文被录用。

前段时间，颠覆设计AI工具DragGAN的论文一作潘新钢加入了MMLab，出任助理教授。

UC伯克利博士、新加坡国立大学校长青年教授教授尤洋指导的论文也被ICCV 2023接收。

论文分享

阿里徐海洋称，达摩院多模态mPLUG的3篇最新工作都被ICCV 2023接收。

其中包括两篇视频文本预训练（HiTeA，TW-BERT），一篇图文预训练（BUS）。

这项由香港理工大学等团队发表的论文，提出了提出了OpenSeeD，一个简单的开放词分割和检测框架，

论文地址：https://arxiv.org/pdf/2303.08131.pdf

项目地址：https://github.com/IDEA-Research/OpenSeeD

为了弥合词汇和标注颗粒度的差距，团队首先引入了一个预训练的文本编码器来编码2个任务中的所有视觉概念，并为它们学习一个公共语义空间。

作为一个强大的开放集分割方法，OpenSeeD可以分割出大量从未见过的物体，在各项指标上都取得了SOTA。而且通过引入O365检测任务来提升open-set语义能力，训练代价相对其他open-set方法较小。

东北大学等研究人提出了GlueGen，它应用了一个新提出的GlueNet模型，将来自单模态或多模态编码器的特征与现有T2I模型的潜在空间对齐。

该方法引入了一个新的训练目标，利用并行语料库来对齐不同编码器的表示空间。

实验结果表明，GlueNet可以有效地训练，并实现超越以前最先进模型的各种功能：

1）XLM-Roberta等多语言语言模型可以与现有的T2I模型对齐，允许从英语以外的字幕生成高质量图像；

2）GlueNet可以将AudioCLIP等多模态编码器与稳定扩散模型对齐，实现声音到图像的生成；

3）它还可以升级潜在扩散模型的当前文本编码器，以生成挑战性的案例。

通过各种特征表示的对齐，GlueNet允许将新功能灵活高效地集成到现有的T2I模型中，并阐明X到图像（X2I）生成。

论文地址：https://arxiv.org/pdf/2303.10056

清华和微软提出了ElasticViT。

首先在一个非常大的搜索空间内训练一个高质量的ViT超网络，该搜索空间支持各种移动设备，然后搜索一个最优子网络（子网）进行直接部署。

然而，依赖均匀采样的先前超网络训练方法会遇到梯度冲突问题：采样的子网可能会有极大的模型大小差异（例如，50M vs. 2G FLOPs），导致优化方向的不同和性能的下降。

为了应对这个挑战，研究人员提出了2种新颖的采样技术：「复杂度感知采样」和「性能感知采样」。

复杂度感知采样限制了在相邻训练步骤中采样的子网之间的FLOPs差异，同时覆盖了搜索空间中不同大小的子网。

性能感知采样进一步选择了具有良好准确性的子网，这可以减少梯度冲突并提高超网络质量。

论文地址：https://arxiv.org/pdf/2303.09730.pdf

结果发现ElasticViT模型，在60M-800M FLOPs的范围内，ImageNet上的top-1准确率从67.2%提高到80.0%，

无需额外的再训练，超过了所有先前的CNNs和ViTs在准确性和延迟上的表现。

上海AI实验室和商汤提出的3DHumanGAN，一个具有三维感知能力的生成对抗网络，可以合成在不同视角和身体姿势下具有一致外观的全身人体图像。

论文地址：https://arxiv.org/pdf/2212.07378.pdf

为了解决合成人体关节结构的表征和计算挑战，研究人员提出了一种新颖的生成器架构，其中二维卷积骨干网络被三维姿态映射网络调节。

这个三维姿态映射网络被设计成一个可渲染的隐式函数，其条件是一个具有姿态的三维人体网格。

今年的ICCV，你中了吗？

参考资料：

https://www.zhihu.com/question/602507329

https://twitter.com/ICCVConference/status/1679718755390160896

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

ICCV 2023 | 比分割一切SAM更早实现交互式开集分割！港科大提出OpenSeeD：开放词表图像分割和检测 Google/Meta/Amazon狗脸麻LAYOFF后大面积招人比Meta「分割一切AI」更早实现交互式开集分割！港科大开放词表分割大法入选ICCV 2023 贾佳亚团队提出LISA大模型：理解人话「分割一切」，在线可玩 Meta VS Apple: Meta产品做的差 Apple产品做的好和员工福利待遇的关系九剑一魂 - 第24回汉胡同源九剑一魂(四)顶会审稿人精选：40篇大型预训练语言模型应用论文厉害国保卫战: 债务和骗子 ICCV 2023 | 发挥offline方法的潜力：解耦合的视频实例分割框架DVIS 视频分割大结局！浙大最新发布SAM-Track：通用智能视频分割一键直达 CVPR 2023 医学图像分割论文大盘点炸裂！最新CVPR2023、ICML2023、AAAI2023、ACL2023论文+Code大合集！ICCV 2023 | PointCLIP V2：结合CLIP和GPT的3D开放世界分类、分割网络【附PDF】整理了114篇医疗论文，含cvpr2023医疗论文+经典论文+医疗论文综述等「分割一切」视频版来了：点几下鼠标，动态的人、物就圈出来了更强更通用：智源「悟道3.0」Emu多模态大模型开源，在多模态序列中「补全一切」学术圈最牛博一?!nature正刊10篇，SCI正刊20篇!评论区都炸了 CVPR 2023上的分割论文杀疯了！一则通告+遭贾母厌弃的长子贾赦是谁 ICCV 2023 | 上交提出CCD：基于自监督字符到字符蒸馏的文本识别 ICCV 2023 | 清华&天津大学提出SurroundOcc：自动驾驶的环视三维占据栅格预测中科院版「分割一切」模型来了，比Meta原版提速50倍 | GitHub 2.4K+星三大亮点，先睹为快！一文带你提前get 2023研华AIoT创新应用论坛 ICCV 2023 | 发挥offline方法的潜力，武大&快手提出解耦合的视频实例分割框架DVIS 【文献】为什么美国应该向黑人赔偿随时随地，追踪每个像素，连遮挡都不怕的「追踪一切」视频算法来了上海交通大学马利庄教授团队多项成果获ICCV 2023录用！CVPR 2023论文总结！CV最热领域颁给多模态、扩散模型 Meta为什么要发布开源Llama 2大模型；2027上市，Meta AR眼镜放弃MicroLED技术 ICCV 2023 | 只需过一次CLIP！美团&港大提出高效的开放字典语义分割框架DeOP ICCV 2023 | 刷新多项记录！武大&快手提出DVIS：解耦视频实例分割框架中科院提出FastSAM快速分割一切模型！比Meta原版提速50倍！【老键曲库】 Eros (by Chris Spheeris )上海AI实验室联合团队获CVPR最佳论文奖 | CVPR 2023 ICCV 2023 | 动态蛇形卷积（Dynamic Snake Convolution）用于管状结构分割分割一切模型SAM首篇全面综述：28页、200+篇参考文献分割一切深度图！港科技、南洋理工等开源「SAD」：根据几何信息分割图像

热点事件追踪