Redian新闻
>
视觉新任务!ReVersion:图像生成中的Relation定制化

视觉新任务!ReVersion:图像生成中的Relation定制化

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【目标检测和Transformer】交流群

新任务:Relation Inversion   

今年,diffusion model和相关的定制化(personalization)的工作越来越受人们欢迎,例如DreamBooth,Textual Inversion,Custom Diffusion等,该类方法可以将一个具体物体的概念从图片中提取出来,并加入到预训练的text-to-image diffusion model中,这样一来,人们就可以定制化地生成自己感兴趣的物体,比如说具体的动漫人物,或者是家里的雕塑,水杯等等。

现有的定制化方法主要集中在捕捉物体外观(appearance)方面。然而,除了物体的外观,视觉世界还有另一个重要的支柱,就是物体与物体之间千丝万缕的关系(relation)。目前还没有工作探索过如何从图片中提取一个具体关系(relation),并将该relation作用在生成任务上。为此,我们提出了一个新任务:Relation Inversion。

如上图,给定几张参考图片,这些参考图片中有一个共存的relation,例如“物体A被装在物体B中”,Relation Inversion的目标是找到一个relation prompt来描述这种交互关系,并将其应用于生成新的场景,让其中的物体也按照这个relation互动,例如将蜘蛛侠装进篮子里。

在CVer微信公众号后台回复:ReVersion,可下载本论文pdf和代码

●论文:arxiv.org/abs/2303.13495
●代码:github.com/ziqihuangg/ReVersion
●主页:ziqihuangg.github.io/projects/reversion.html
●视频:www.youtube.com/watch?v=pkal3yjyyKQ
●Demo:huggingface.co/spaces/Ziqi/ReVersion       

ReVersion框架

作为针对Relation Inversion问题的首次尝试,我们提出了ReVersion框架: 

     

相较于已有的Appearance Invesion任务,Relation Inversion任务的难点在于怎样告诉模型我们需要提取的是relation这个相对抽象的概念,而不是物体的外观这类有显著视觉特征的方面。

我们提出了relation-focal importance sampling策略来鼓励更多地关注high-level的relation;同时设计了relation-steering contrastive learning来引导更多地关注relation,而非物体的外观。更多细节详见论文。

ReVersion Benchmark

我们收集并提供了ReVersion Benchmark:

https://github.com/ziqihuangg/ReVersion#the-reversion-benchmark

它包含丰富多样的relation,每个relation有多张exemplar images以及人工标注的文字描述。我们同时对常见的relation提供了大量的inference templates,大家可以用这些inference templates来测试学到的relation prompt是否精准,也可以用来组合生成一些有意思的交互场景。

结果展示  

  • 丰富多样的relation  

我们可以invert丰富多样的relation,并将它们作用在新的物体上

          

  • 丰富多样的背景以及风格  

我们得到的relation,还可以将不同风格和背景场景中的物体,按照特定的方式联系在一起。

  • 同一个Relation,丰富多样的物体组合   

         

在CVer微信公众号后台回复:ReVersion,可下载本论文pdf和代码

点击进入—>【目标检测和Transformer】交流群


ICCV / CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
评sex comedy《No Hard Feelings》,2023新电影ICCV 2023 | 新注意力!清华黄高团队提出FLatten Transformer视觉新主干基础模型定义视觉新时代:综述与展望美东之行— 纽约的博物馆和画廊中国团队推出脑电图图像生成模型DreamDiffusion《Never Have I Ever》:个人经历与亚裔身份,本质化的亚洲是否存在为什么IB/AP/DSE/OSSD学生纷纷转A-level体系?A-level有什么魔力?ICCV 2023 | HumanSD: 更可控更高效的人体图像生成模型科研上新 | 第2期:可驱动3D肖像生成;阅读文本密集图像的大模型;文本控制音色;基于大模型的推荐智能体CAIE A-level昨天出分!东亚区剑桥国际A Level A及A*率为58%,比全球高出28%!nǚ hóng?nǚ gōng大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友微前沿 | 强可控视频生成;定制化样本检索器;用脑电重建视觉感知;大模型鲁棒性评测《Never I Have Ever》:个人经历与亚裔身份,本质化的亚洲是否存在今年A-level将更难拿到高分?!GCSE与A-level成绩即将揭晓:8个趋势值得关注!推理效率比ControlNet高20+倍!谷歌发布MediaPipe Diffusion插件,「移动端」可用的图像生成控制模型被水洗过的音乐二次元专供:Midjourney发布动漫风格图像生成APPReVersion|图像生成中的 Relation 定制化ICCV 2023 Oral | HumanSD:更可控更高效的人体图像生成模型投资性价比最高选择,自住投资两相宜--多家庭别墅推荐--Somerville/Revere/Boston/Everett简单有效!Direct Inversion:三行代码提升基于扩散的图像编辑效果China’s ‘Special Forces’ Savers Travel Far for Higher Interest三访英国湖区(4):有趣的徒步远足[单车] 日常秀恩爱·爱人的Brompton定制小包·娶到华人女性的,你们就偷着乐吧NeurIPS 2023 | 扩散模型再发力!微软提出TextDiffuser:图像生成的文字部分也能搞定!语言模型战胜扩散模型!谷歌提出MAGVIT-v2:视频和图像生成上实现双SOTA!易观分析:2023年AIGC产业研究报告-图像生成篇投资性价比最高选择,自住投资两相宜--多家庭别墅推荐--Everett/Boston/Revere硬核观察 #1081 仅 100KB 大小,只需 4 分钟训练的人工智能图像生成器十分钟读懂Diffusion:图解Diffusion扩散模型Erklärung zur ZusammenarbeitICCV 2023 | 中科大&微软提出AFFNet:轻量级视觉新主干NeurIPS 2023 Spotlight|高质量多视角图像生成,完美复刻场景材质!SFU等提出MVDiffusion
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。