视觉新任务！ReVersion：图像生成中的Relation定制化

2023-08-31 05:08

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【目标检测和Transformer】交流群

新任务：Relation Inversion

今年，diffusion model和相关的定制化（personalization）的工作越来越受人们欢迎，例如DreamBooth，Textual Inversion，Custom Diffusion等，该类方法可以将一个具体物体的概念从图片中提取出来，并加入到预训练的text-to-image diffusion model中，这样一来，人们就可以定制化地生成自己感兴趣的物体，比如说具体的动漫人物，或者是家里的雕塑，水杯等等。

现有的定制化方法主要集中在捕捉物体外观(appearance)方面。然而，除了物体的外观，视觉世界还有另一个重要的支柱，就是物体与物体之间千丝万缕的关系（relation）。目前还没有工作探索过如何从图片中提取一个具体关系（relation），并将该relation作用在生成任务上。为此，我们提出了一个新任务：Relation Inversion。

如上图，给定几张参考图片，这些参考图片中有一个共存的relation，例如“物体A被装在物体B中”，Relation Inversion的目标是找到一个relation prompt来描述这种交互关系，并将其应用于生成新的场景，让其中的物体也按照这个relation互动，例如将蜘蛛侠装进篮子里。

在CVer微信公众号后台回复：ReVersion，可下载本论文pdf和代码

●论文：arxiv.org/abs/2303.13495

●代码：github.com/ziqihuangg/ReVersion

●主页：ziqihuangg.github.io/projects/reversion.html

●视频：www.youtube.com/watch?v=pkal3yjyyKQ

●Demo：huggingface.co/spaces/Ziqi/ReVersion

ReVersion框架

作为针对Relation Inversion问题的首次尝试，我们提出了ReVersion框架：

相较于已有的Appearance Invesion任务，Relation Inversion任务的难点在于怎样告诉模型我们需要提取的是relation这个相对抽象的概念，而不是物体的外观这类有显著视觉特征的方面。

我们提出了relation-focal importance sampling策略来鼓励更多地关注high-level的relation；同时设计了relation-steering contrastive learning来引导更多地关注relation，而非物体的外观。更多细节详见论文。

ReVersion Benchmark

我们收集并提供了ReVersion Benchmark：

https://github.com/ziqihuangg/ReVersion#the-reversion-benchmark

它包含丰富多样的relation，每个relation有多张exemplar images以及人工标注的文字描述。我们同时对常见的relation提供了大量的inference templates，大家可以用这些inference templates来测试学到的relation prompt是否精准，也可以用来组合生成一些有意思的交互场景。

结果展示

丰富多样的relation

我们可以invert丰富多样的relation，并将它们作用在新的物体上

丰富多样的背景以及风格

我们得到的relation，还可以将不同风格和背景场景中的物体，按照特定的方式联系在一起。

同一个Relation，丰富多样的物体组合

在CVer微信公众号后台回复：ReVersion，可下载本论文pdf和代码

点击进入—>【目标检测和Transformer】交流群

ICCV / CVPR 2023论文和代码下载

后台回复：CVPR2023，即可下载CVPR 2023论文和代码开源的论文合集

后台回复：ICCV2023，即可下载ICCV 2023论文和代码开源的论文合集

目标检测和Transformer交流群成立

扫描下方二维码，或者添加微信：CVer333，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。

一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群