Redian新闻
>
LeCun转发!大连理工卢湖川、贾旭团队提出可插入图像/视频/3D生成的StableIdentity

LeCun转发!大连理工卢湖川、贾旭团队提出可插入图像/视频/3D生成的StableIdentity

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【CV技术/投稿/求职】交流群

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文搞科研,强烈推荐!

转载自:极市平台

导读

 

来自大连理工大学的IIAU团队提出StableIdentity,允许用户只需上传一张图片,通过优化学习身份,即可结合包含动作、背景、风格的文本提示实现图像定制生成,并且无需微调即可插入视频/3D生成。 

project page:https://qinghew.github.io/StableIdentity/

paper:https://arxiv.org/abs/2401.15975

github(代码即将开源)

https://github.com/qinghew/StableIdentity

最近,来自大连理工大学的IIAU团队提出StableIdentity,允许用户只需上传一张图片,通过优化学习身份,即可结合包含动作、背景、风格的文本提示实现图像定制生成,并且无需微调即可插入视频/3D生成。

Yann LeCun也点赞转发,调侃自己从没戴过这样的帽子。

一、引言:

随着扩散模型的发展,定制化生成任务受到广泛关注。这项任务旨在为文本到图像模型注入新的主题(如身份),并在对齐输入文本提示的同时,生成在不同语境下主题一致的图像。例如,用户可以上传自己的照片以获得有趣的图片,如 "穿着超人服装"。定制生成的成功可以促进许多应用,如个性化肖像照片虚拟试穿和艺术设计。

然而,现有的定制方法是通过微调模型的部分/全部参数或学习通用编码器来解决这一问题的。参数微调方法需要花费很长时间来搜索最佳参数,但往往会返回一个不准确的平凡解来表示身份。尤其是在只有单张图像的情况下,这些方法往往会过拟合输入图像,导致可编辑性下降。另外,基于编码器的方法需要大规模的数据集进行训练,很难捕捉到独特的身份和细节。此外,目前的方法所学习到的身份在不同的语境下容易与目标身份不一致。因此,迫切需要提出一种新的框架来解决这一任务所面临的巨大挑战(如身份保持不稳定、可编辑性差等)。

二、方法

在这项工作中,研究者们提出了 StableIdentity,如图所示,给定一张输入人脸图像,它将身份先验和可编辑先验集成到了人的定制生成中,旨在通过优化学习可以表示目标身份的词向量。

具体来说,本文首先引入了一个经过人脸识别任务预训练的编码器来精确地捕捉身份表示。此外,研究者们收集了在Stable Diffusion中可以在不同上下文中生成一致身份的名人姓名,构建了统一维度的嵌入空间,以作为定制生成的先验身份分布。为了激励目标身份在预训练扩散模型中表现得像名人姓名一样,本文进一步将身份表示通过AdaIN落入到这一先验空间。

此外,为了学习更稳定的身份和细粒度重建,本文设计了一种two phase扩散损失,分别在降噪训练的前期和后期阶段分配专门的目标函数。其中降噪前期已被证明决定了生成图像的布局,因此前期使用原始的降噪损失以保证学到的身份可以适应多样的布局。降噪后期使用对预测的z_0的重建损失,以提升对输入图像的像素级感知,从而学习更稳定的身份。

三、实验结果

1.在实验环节,本文在多个指标上与6个baselines进行了定性和定量的对比。如图1和表4所示,本文的方法取得了最佳的人脸相似性、可编辑性、图像质量。

2.此外,本文进一步在与3D模型的结合上与同类型基于词向量的方法进行了对比,可以看出StableIdentity可以更好地插入到3D生成中。

本文用TSNE可视化了学到的身份编码与具有可编辑性的名人名字编码的2D分布。可以看出,本文的StableIdentity学到的embedding分布更加紧凑,更接近于真实的名人名字embedding的分布。

3.本文也用单张名人照片作为输入进行了实验,可以看出,学到的身份在图像/视频/3D上都表现不错。更多的结果可以在https://qinghew.github.io/StableIdentity/中查看

四、展望

这一方法可以直接与ControlNet等基于Stable Diffusion的即插即用的模块配合使用,甚至可以将学习到的身份插入现成的视频/3D生成的模型中,而无需进行微调即可产生出色的效果。这项工作被认为是统一图像、视频和3D定制化生成任务的重要一步。未来的工作将进一步探索通过更高效的方式学习泛化性强的身份表示,以更好地适应和解决实际应用中的挑战。

在CVer微信公众号后台回复:论文,即可下载论文和代码链接!快学起来!

多模态和扩散模型交流群成立

扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-多模态或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如多模态或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
二岩藻糖基乳糖滴度超33g/L,中国农大团队提出高效从头合成HMO新策略,无副产物3-FL产生个人感慨之七十三 什么都不懂重塑3D生成核心理论:VAST、港大、清华用「零」训练数据生成了3D模型小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜突发!Stable Diffusion老板也跑了!核心研发已集体辞职,已经unstable了...刷新多个SOTA!腾讯优图提出统一模态新架构UniM-OV3D:3D开放词汇场景理解一条命令生成属于自己的工具站(json格式化、编码转换、UUID生成等)AAAI 2024 | 浙大赵天成博士团队提出全新评测基准OVDEval,全面审视开放词汇目标检测模型的泛化能力82、长篇民国小说《永泰里》第十六章 生死一线(6)最新综述!3D生成进展的全面调研比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISAYann LeCun:生成模型不适合处理视频,AI得在抽象空间中进行预测Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放ConvNet与Transformer谁更强?Meta评测4个领先视觉模型,LeCun转赞ICLR 2024 | Adobe提出DMV3D:3D生成只需30秒!让文本、图像都动起来的新方法!Yann LeCun发来肯定:腾讯人像照片生成可以随便玩了1吨甘蔗糖蜜可生产136公斤糖苷和60公斤阿洛酮糖,北化工团队提出合成双酶系统,可高效环保生产高值产品AAAI 2024 | 小红书搜索团队提出全新框架:验证负样本对大模型蒸馏的价值弥合2D和3D生成之间的次元壁!X-Dreamer:高质量的文本到3D生成模型扩散模型图像理解力刷新SOTA!字节联合复旦团队提出全新「元提示」策略这个「AI 写真」开源项目火了! GitHub 一周暴涨四千星,Yann LeCun 亲自转发斯坦福团队提出新型抗衰老疗法,单次注射可恢复小鼠免疫系统「年轻状态」,效果持久明显无需RLHF显著提升GPT-4/Llama2性能,北大团队提出Aligner对齐新范式​AAAI 2024 | 视觉定位标注难?浙大赵天成博士团队提出零样本定位新SOTA模型GroundVLP个人感慨之七十四 雄安新区扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩Stable Video 3D重磅开源!3D生成迎来新突破!医学顶刊Nature Medicine!上海交大盛斌团队提出DeepDR Plus:预测糖尿病视网膜病变进展时间的深度学习系统《田野的春天》&《怕梦》GPT-4绝对性能暴涨74.4%!UIUC苹果华人团队提出CodeAct,用Python代码统一LLM智能体行动小红书搜索团队提出全新框架:验证负样本对大模型蒸馏的价值浙大等团队提出全新「自我对比」策略,有效提高大模型的反思效果广播体操与长寿复旦团队提出思维交流框架EoT,由CoT到EoT,可跨模型通信,表现更出色
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。