Redian新闻
>
一张照片,为深度学习巨头们定制人像图片

一张照片,为深度学习巨头们定制人像图片

公众号新闻

机器之心专栏

作者:InstantX 团队



主题驱动的文本到图像生成,通常需要在多张包含该主题(如人物、风格)的数据集上进行训练,这类方法中的代表工作包括 DreamBooth、Textual Inversion、LoRAs 等,但这类方案因为需要更新整个网络或较长时间的定制化训练,往往无法很有效地兼容社区已有的模型,并无法在真实场景中快速且低成本应用。而目前基于单张图片特征进行嵌入的方法(FaceStudio、PhotoMaker、IP-Adapter),要么需要对文生图模型的全参数训练或 PEFT 微调,影响原本模型的泛化性能,缺乏与社区预训练模型的兼容性,要么无法保持高保真度。

为了解决这些问题,来自 InstantX 团队的研究人员提出了 InstantID,该模型不训练文生图模型的 UNet 部分,仅训练可插拔模块,在推理过程中无需 test-time tuning,在几乎不影响文本控制能力的情况下,实现高保真 ID 保持。


  • 论文标题:InstantID: Zero-shot Identity-Preserving Generation in Seconds

  • 论文地址:https://arxiv.org/abs/2401.07519

  • 代码地址:https://github.com/InstantID/InstantID
  • 项目地址:https://instantid.github.io

InstantID 是一个高效的、轻量级、可插拔的适配器,赋予预训练的文本到图像扩散模型以 ID 保存的能力。作者通过(1)将弱对齐的 CLIP 特征替换为强语义的人脸特征;(2)人脸图像的特征在 Cross-Attention 中作为 Image Prompt 嵌入;(3)提出 IdentityNet 来对人脸施加强语义和弱空间的条件控制,从而增强 ID 的保真度以及文本的控制力。

下图为利用 InstantID 进行风格化的结果,输入仅为最左侧的人物图像。


文章的主要贡献如下:

(1) InstantID 作为一种全新的 ID 保留方法,有效弥补了训练效率与 ID 保真度之间的差距。
(2)InstantID 是可插拔的,与目前社区内文生图基础模型、LoRAs、ControlNets 等完全兼容,可以零成本地在推理过程中保持人物 ID 属性。此外,InstantID 保持了良好的文本编辑能力,使 ID 能够丝滑地嵌入到各种风格当中。
(3)实验结果表明,InstantID 不仅超越目前基于单张图片特征进行嵌入的方法(IP-Adapter-FaceID),还与 ROOP、LoRAs 等方法在特定场景下不分伯仲。它卓越的性能和效率激发了其在一系列实际应用中的巨大潜力,例如新颖的视图合成、ID 插值、多 ID 和多风格合成等。


方法介绍

仅给定一张参考 ID 图像,InstantID 的目标是从单个参考 ID 图像生成具有各种姿势或风格的定制图像,同时保证高保真度。上图概述了我们的方法。它包含三个关键组成部分:(1) 鲁棒的人脸表征;(2) 具有解耦功能的交叉注意力,支持 Image Prompt;(3) IdentityNet,引入额外的弱空间控制对参考面部图像的复杂特征进行编码。

1. 由于 CLIP 只提供了弱语义表征,无法在人脸等强语义场景下直接应用,考虑了人脸识别领域已经相当成熟,所以我们采用预训练的人脸编码器来提取人脸特征。在本文中,我们使用来自 insightface 提供的 antelopev2 模型来提取人脸特征。

2. 如先前方法所述,预训练的文本到图像扩散模型中的图像提示功能能够增强了文本提示,特别是对于难以用文字描述的内容,因此,我们采用和 IP-Adapter 一致的具有解耦功能的交叉注意力机制,但差别在于我们使用人脸特征,而非 CLIP 表征。

3. 引入 IdentityNet 来对人脸图像进行编码。在实现中,IdentityNet 采用与 ControlNet 一致的残差结构,从而保持原始模型的兼容性。在 IdentityNet 中,主要有两个对于原版 ControlNet 的修改:1)只使用五个面部关键点,而不是细粒度的 OpenPose 面部关键点 (两个用于眼睛,一个用于鼻子,两个用于嘴巴)用于条件输入。2)我们消除文本提示并使用 ID 嵌入作为条件加入到 ControlNet 中的交叉注意力层。

实验结果

作者首先展示了方法的稳健性、可编辑性和兼容性,分别对应在空文本、编辑文本、额外使用 ControlNets 下的生成效果。可以看到,InstantID 仍然保持了较好的文本控制能力,同时与开源的 ControlNet 模型兼容。


同时该方法也支持多张图注入,来进一步提升效果。


InstantID 与目前社区内主流的三类方法进行对比。

(1)基于单图特征注入(IP-Adapter 与 PhotoMaker)。相比之下,IP-Adapter 具有可插拔性,兼容社区模型,且其 FaceID 版本的人脸保真度有明显提升,但是对于文本的控制能力出现明显退化;而近期新推出的 PhotoMaker,需要训练整个模型(虽然采用了 LoRA 的方式),风格退化问题减弱,但其人脸保真度未见明显提升,甚至不如 IP-Adapter-FaceID。而我们提出的 InstantID 兼顾了人脸保真度和文本控制能力。


(2)基于微调的人物 LoRAs


(3)非扩散模型的换脸模型 inswapper


此外,InstantID 还支持了多视角生成、ID 插值、多 ID 生成,作为潜在应用场景。

(1)多视角生成


(2)ID 插值


(3)多 ID + 多风格的生成


衍生应用玩法


基于高性能的人像注入和编辑能力,InstantID可以支持很多衍生应用玩法

(1)快速低门槛的真人写真


(2)夸张五官人像定制



(3)非人像混合定制






© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
博士申请 | 美国佐治亚大学卢国玉老师招收计算机视觉/深度学习方向全奖博士生游戏用声优AI配音如何收费?美国演员工会替声优们定了个起步价广东私人诊所一张照片流出:假期被鸡疯的孩子,开学送进了精神科同样是30岁,为什么有人像18岁,有人像50岁凯特王妃露面!一张照片击碎所有阴谋论深度学习近10年,10篇必读论文总结47岁的马伊琍,一张照片「封神」家居自己做过的事系列:电工(1)凯特被曝突然现身商店,全网却找不到一张照片?!网友:太诡异了...凯特在商店被偶遇,全网都翻不出一张照片?动物不会撒谎,也许小狗已经透露了真相......博士申请 | 西交利物浦大学颜宏盛副教授招收深度学习/CV方向全奖博士生深度学习大牛权威预测2024年AI行业热点,盘点开源AI趋势!老钱:“不须放屁”胡塞武装长了翅膀---难对付《国家地理》杂志公布年度照片,29张照片从200万张候选照片中脱颖而出!抖音跳舞不用真人出镜,一张照片就能生成高质量视频!字节新技术连抱抱脸CTO都下场体验了后期狂喜!一张照片丝滑替换视频主角,动作幅度再大也OK|Meta&新加坡国立大学优化LLM数学推理;深度学习建模基因表达调控;基于深度学习的近实时海洋碳汇估算布碌仑又有房客出事!他持电击枪找房东“理论”被反杀,竟只是因为“一张照片”一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制通过体育帮孩子建立深度学习模型,一位清华妈妈是这么做的突发!凯特王妃露面!一张照片击碎所有阴谋论!目击者称她看上去…家居自己做过的事系列:电工(2)从零构建现代深度学习框架(TinyDL-0.01)突发!凯特王妃露面!一张照片击碎所有阴谋论Midjourney V6超进化,大神网友深度评测来了!画质逼真到可怕,人像图片令人惊呆苦等枫叶卡如“移民监”加刑 因一张照片被困加国未能回中国!6053 血壮山河 卢沟桥之变 22DLC邀请函 | 2024美国(HTH)深度学习年会Apache 顶级项目 MXNet 退役!大神李沐创办、亚马逊首选深度学习框架如何从大厂“宠儿”到落入“冷宫”?医学顶刊Nature Medicine!上海交大盛斌团队提出DeepDR Plus:预测糖尿病视网膜病变进展时间的深度学习系统历数5年89篇研究,这篇综述告诉我们深度学习中的代码数据增强怎么样了刘亦菲胖到没腰了?一张照片暴露她的真实身材,全网立刻憋不住了...一张照片,TikTok小姐姐就都能跳舞了大结局!"消失的凯特王妃" 终于露面!一张照片击碎所有阴谋论...
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。