Redian新闻
>
朱俊彦团队推出首个基于内容的深度生成模型搜索算法!

朱俊彦团队推出首个基于内容的深度生成模型搜索算法!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—> CV 微信技术交流群

作者 | 李梅

转载自:AI科技评论  编辑 :陈彩娴

最近的生成式 AI 可谓十分火爆,新出的预训练图像生成模型多到让人目不暇接。无论是肖像、风景,还是卡通漫画、特定艺术家风格元素等等,每个模型都有它擅长生成的内容。

这么多模型里面,如何快速找到一个能满足自己创作欲的最佳模型呢?

近日,卡内基梅隆大学的助理教授朱俊彦等人首次提出了基于内容的模型搜索算法,让你能够一键搜索出最匹配的深度图像生成模型。

论文地址:https://arxiv.org/pdf/2210.03116.pdf

在团队基于这套模型搜索算开发的在线模型共享和搜索平台 Modelverse 上,你可以输入文本、图像、草图和给定模型,来搜索出最匹配或相似的相关模型。

Modelverse 平台地址:https://modelverse.cs.cmu.edu/

图注:输入文本(如“非洲动物”)、图像(如一张风景图)、草图(如一只站立的猫的草图)或者一个给定模型,输出排名靠前的相关模型(第二行、第三行)

比如,输入文本“face”,得到结果如下:

输入一只猫咪图像:

输入一匹马的草图:



1

基于内容的模型搜索

和传统的多媒体搜索一样,模型搜索能够帮助用户找到最适合其特定需求的模型。但基于内容的模型搜索任务有其特殊难点:

判断模型是否可以生成特定图像,这是一个比较难计算的问题,而且很多深度生成模型并没有提供有效方法来估计密度,其本身也不支持评估跨模态相似性。而蒙特卡洛这种基于抽样的方法又会使模型搜索过程变得非常缓慢。

为此,朱俊彦团队提出了一种新的模型搜索系统。

每个生成模型都会产生一个图像分布,所以作者将搜索问题处理为优化,以最大化在给定模型的情况下生成与查询匹配的概率。如下图所示,该系统由预缓存阶段(a,b)和推理阶段(c)组成。

图注:模型搜索方法概览

给定一组模型,(a)首先为每个模型生成 50K 样本;(b) 然后将图像编码为图像特征并计算每个模型的一阶和二阶特征统计。统计数据缓存在系统中以提高效率;(c) 在推理阶段,支持不同模态的查询,包括图像、草图、文本描述、另一个生成模型或这些查询类型的组合。作者在这里引入近似值,查询被编码为特征向量,通过评估查询特征与每个模型统计数据之间的相似性,来检索具有最佳相似性度量的模型。



2

模型搜索效果

作者对算法进行评估,对 133 个深度生成模型(包括 GAN、扩散模型和自回归模型)进行了消融实验分析。与蒙特卡洛基线相比,该方法可以实现更高效的搜索,速度在 0.08 毫秒内,提升 5 倍,同时还能保持高精度

通过对比模型检索结果,我们也可以大致了解针对不同查询输入,哪些模型能生成质量更高的图像。比如下图展示了模型检索的结果对比。

图注:模型检索结果示例

最上面一行是图像查询,输入静物画,检索相关艺术风格的模型,得到排名第一的 StyleGAN2 模型和排名最后的 Vision-aided GAN 模型。中间行是草图查询,输入马和教堂的草图,得到 ADM、ProGAN 等模型。最下面一行是文本查询,输入“戴眼镜的人”和“说话的鸟”,分别检索得出排名第一的 GANSketch 模型和 Self-Distilled GAN 模型。

作者还发现,不同网络特征空间的模型性能存在差异。如下图所示,在输入图像查询时,结果显示三个网络 CLIP、DINO 和 Inception 都具有相似的性能;而在输入草图查询时,CLIP 效果明显更好,而 DINO 和 Inception 则不太适合给定查询,它们在艺术风格的模型上表现更好。

图注:不同网络特征空间中基于图像和草图的模型检索比较

另外,这项工作所提出的模型搜索算法还能支持多种应用,包括多模态用户查询、相似模型查询、真实图像重构和编辑等。

例如多模态查询可以帮助细化模型搜索,在只有“Nicolas Cage”的图像时,只能检索到人脸模型;但当同时使用“Nicolas Cage”和“dog”作为输入时,就可以检索到能生成“Nicolas Cage dog”图像的  StyleGAN-NADA 模型。(如下图)

图注:多模态用户查询

当输入是一个人脸模型时,可以检索到更多的人脸生成模型,并且类别保持相似。(如下图)

图注:相似模型查询

给定真实人脸的查询图像,使用排名较高的模型能获得更准确的图像重建。下图是使用不同排名模型的 CelebA-HQ 和 LSUN Church 图像的图像逆映射示例。

图注:将真实图像投射到检索到的 StyleGAN2 模型。

在对真实图像进行编辑的任务中,不同模型的表现也有高低之分。下图中,使用基于图像的模型检索算法排名第一的模型来对真实图像进行逆映射,然后使用 GANspace 进行编辑,从而将浮世绘图像中的皱眉人脸变成笑脸。

图注:编辑真实图像

这项研究已经证明了模型搜索的可行性,而文本、音频或其他内容生成的模型搜索还有很大的研究空间。

但目前来看,这项工作所提出的方法还有一定的局限性。例如,在查询特定的草图时,有时会匹配出抽象形状的模型;而有时进行多模态查询时,只能检索到单一的模型,系统可能会很难处理像一只狗的图像 + “大象”这样的多模态查询。(如下图)

图注:失败案例

另外,在其模型搜索平台上,对检索出的模型列表并未根据其效果进行自动排序,如在生成图像的分辨率、逼真度、匹配度等方面对不同模型进行评估并给出排名,这样可更便于用户检索,也能帮助用户更好地了解目前生成模型的优劣情况,期待这方面的后续工作。

参考链接:

https://twitter.com/junyanz89/status/1578429385719177223

https://www.youtube.com/watch?v=smm0t81st_w


点击进入—> CV 微信技术交流群


CVPR 2022论文和代码下载


后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer222,进交流群


CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!


扫码进群

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
宏景智驾校招:图像算法工程师、决策规划算法工程师、SLAM建图算法工程师等3D版DALL-E来了!谷歌发布文本3D生成模型DreamFusion,给一个文本提示就能生成3D模型!当下最强的 AI art 生成模型 Stable Diffusion 最全面介绍7 Papers & Radios | 扩散模型只用文字PS照片;MIT泊松流生成模型击败扩散模型清华CodeGeeX项目原作解读:大规模多语言代码生成模型龙卷风健康快递 206中国是一个特别幽默的国家!困于内耗的年轻人,最需要的是什么?女性苦难史《落叶归根》5-如影随形 2 (多图)卷!MIT泊松流生成模型击败扩散模型,兼顾质量与速度首次不依赖生成模型,一句话让AI修图!北京内推 | ​百度搜索策略部基础相关性团队招聘搜索排序实习生GENIUS:一个基于“草稿”进行文本生成、数据增强的“小天才”模型图像生成模型 Stable Diffusion 现已开源 | Linux 中国3D版DALL-E来了!谷歌发布文本3D生成模型DreamFusion,重点是zero-shot印度电信运营商推出首款笔记本 JioBook,运行基于安卓的 JioOSAI 生成模型五花八门,谁好谁坏?CMU 朱俊彦团队推出首个自动匹配排名系统Asahi Linux推出首个公开的Apple Silicon GPU驱动程序版本农民占多数的国家能实现工业化卷!MIT提出泊松流生成模型击败扩散模型,兼顾质量与速度一个基于Transformer的深度学习架构,在基因调控中组蛋白代码的定量破译方面性能超群谷歌Imagen首次开放测试,安卓苹果都能玩,还有AI写作助手、超长连贯性视频生成模型GAN、扩散模型应有尽有,CMU出品的生成模型专属搜索引擎Modelverse来了寻找领域不变量:从生成模型到因果表征如何生成「好」的图?面向图生成的深度生成模型系统综述|TPAMI2022别的简报|新《变形金刚》动画推出首个非二元性别机器人杭州内推 | 阿里巴巴CCO智能服务算法团队招聘NLP算法工程师 (社招P6/P7)从第一性原理出发,分析 AI 会如何改变视觉内容的创作和分发旧金山和北加推出首个公共维修学徒培训班写好剧本直接出片!Google发布首个「讲故事」的视频生成模型《部队大院的八零后》7. 只卖艺,不卖身
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。