郭德纲与马斯克合体,2024第一个爆火的Al写真为什么是它?
郭德纲飙英语说相声、马斯克大佬秀中文采访...前段时间,这样的 AI 视频在各大平台传疯了。
想象一下,如果他俩突然决定合体,会擦出什么样的火花?
不得不说,AI 又进步了。最近小红书的开源力作 —— 爆火的「InstantID」,满足了网友们的“脑洞大开”。
这个新开源的项目不光可以一张图生成写真,还能自定义融合两张脸。
科技界与相声界的融合体,InstantID 诞生出的“郭斯克”,你最爱哪一款?
如图,你可以看到 20% 的郭德纲 + 80% 的马斯克,甚至可以自由调整比例。
InstantID,是一款图像生成模型。用户只需要一张图片,便可在 30 秒内,轻松获得自己的多风格 AI 写真。
自从小红书开源该项目以来,InstantID 在 Github 一周暴涨 4000+ star。
它的颠覆性效果,也受到了深度学习领域的领军人物 Yann LeCun 的关注。
主题驱动的文本到图像生成,通常需要在多张包含该主题(如人物、风格)的数据集上进行训练,这类方法中的代表工作包括 DreamBooth、Textual Inversion、LoRAs 等,但这类方案因为需要更新整个网络或较长时间的定制化训练,往往无法很有效地兼容社区已有的模型,并无法在真实场景中快速且低成本应用。
而目前基于单张图片特征进行嵌入的方法(FaceStudio、PhotoMaker、IP-Adapter),要么需要对文生图模型的全参数训练或 PEFT 微调,影响原本模型的泛化性能,缺乏与社区预训练模型的兼容性,要么无法保持高保真度。
为了解决这些问题,小红书 InstantX 团队提出了 InstantID,它不训练文生图模型的 UNet 部分,仅训练可插拔模块,在推理过程中无需 test-time tuning,在几乎不影响文本控制能力的情况下,实现高保真 ID 保持。
论文标题:
InstantID: Zero-shot Identity-Preserving Generation in Seconds
https://arxiv.org/abs/2401.07519
https://github.com/InstantID/InstantID
https://instantid.github.io/
在小红书发布的《InstantID: Zero-shot Identity-Preserving Generation in Seconds》论文中,详细阐述了 InstantID 的多个优势。
1. 高效 ID 保留:InstantID 作为一种创新的 ID 保留方法,有效地弥合了训练效率与身份信息保真度之间的鸿沟;
2. 即插即用兼容性:InstantID 计为一个可插拔的模块,与现有的文生图模型、LoRAs、ControlNets等完美兼容。这意味着用户可以在不增加成本的情况下,轻松地在推理过程中保持人物的身份特征,同时保持对文本编辑的灵活控制。
3. 卓越性能:实验结果显示,InstantID 在性能上不仅超越了基于单张图片特征的嵌入方法(如 IP-Adapter-FaceID),而且在特定场景下,其效果与 ROOP、LoRAs 等方法不相上下。这种高性能和高效率的特性,为 InstantID 在实际应用中的广泛应用,如视图合成、ID 插值、多身份和多风格合成等,提供了巨大的潜力。
上图概述了 InstantID 方法,主要包含三个关键组成部分:(1)将弱对齐的 CLIP 特征替换为强语义的人脸特征;(2)人脸图像的特征在 Cross-Attention 中作为 Image Prompt 嵌入;(3)提出 IdentityNet 来对人脸施加强语义和弱空间的条件控制,从而增强 ID 的保真度以及文本的控制力。
1. 由于 CLIP 只提供了弱语义表征,无法在人脸等强语义场景下直接应用,考虑了人脸识别领域已经相当成熟,所以采用预训练的人脸编码器来提取人脸特征。在本次工作中,使用来自 InsightFace 提供的 antelopev2 模型来提取人脸特征;
2. 预训练的文本到图像扩散模型中的图像提示功能能够增强了文本提示,特别是对于难以用文字描述的内容,因此,InstantID 采用和 IP-Adapter 一致的具有解耦功能的交叉注意力机制,但差别在于使用人脸特征,而非 CLIP 表征;
只使用五个面部关键点,而不是细粒度的 OpenPose 面部关键点 (两个用于眼睛,一个用于鼻子,两个用于嘴巴)用于条件输入; 消除文本提示并使用 ID 嵌入作为条件加入到 ControlNet 中的交叉注意力层。
团队详细展示了 InstantID 方法的稳健性、可编辑性和兼容性,分别对应在空文本、编辑文本、额外使用 ControlNets 下的生成效果。可以看到,InstantID 仍然保持了较好的文本控制能力,同时与开源的 ControlNet 模型兼容。
同时该方法也支持多张图注入,来进一步提升效果。
InstantID 与目前社区内主流的三类方法进行对比。
(1)基于单图特征注入(IP-Adapter 与 PhotoMaker)。相比之下,IP-Adapter 具有可插拔性,兼容社区模型,且其 FaceID 版本的人脸保真度有明显提升,但是对于文本的控制能力出现明显退化;而近期新推出的 PhotoMaker,需要训练整个模型(虽然采用了 LoRA 的方式),风格退化问题减弱,但其人脸保真度未见明显提升,甚至不如 IP-Adapter-FaceID。InstantID 兼顾了人脸保真度和文本控制能力。
(2)基于微调的人物 LoRAs。LoRA 模型虽然在个性化图像生成方面表现出色,但它们对数据质量和数量有着特定的要求,这在现实世界的应用场景中可能会受到限制;同时,LoRA模型还需要额外的训练来定制化模型。相比之下,InstantID 则提供了一种高效的单步推理方法,只需一张图像就能完成推断,这种效率对于各种下游应用来说是一个巨大的优势。
(3)非扩散模型的换脸模型 InsightFace Swapper。虽然 InsightFace Swapper 在大多数标准场景下表现良好,但 InstantID 在将人脸与背景融合方面展现出更大的灵活性,尤其是在处理非现实风格(如动漫)时。
此外,InstantID 还支持了多视角生成、ID 插值、多 ID 生成,作为潜在应用场景。
(1)多视角生成。如图所示,最左侧是图像特征保留,最顶侧是姿势参考,按姿势 + 特征 + prompt 合成风格化图像。
(2)ID 插值。20% 的泰勒 + 80% 的杨幂,80% 的杨幂 + 20% 的泰勒,你更喜欢谁?前文所述的“郭斯克”就是利用了该能力。
(3)多 ID + 多风格的生成。从多张图像中分别提取姿势、ID、背景的特征,合成效果很和谐。
基于高性能的人像注入和编辑能力,InstantID 能支持很多衍生应用玩法。
(1)快速低门槛的真人写真。不仅生成速度快,且相比妙鸭成本更低,大约是其 1/300,体验效果好。
(2)夸张五官人像定制。真人化身动漫人物,创意无限。
(3)非人像混合定制。猫身猫头,与自家萌宠合体,温馨又有趣。
InstantID 免费体验地址:
https://huggingface.co/spaces/InstantX/InstantID
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者