郭德纲与马斯克合体，2024第一个爆火的Al写真为什么是它？

公众号新闻

2024-01-30 11:01

郭德纲飙英语说相声、马斯克大佬秀中文采访...前段时间，这样的 AI 视频在各大平台传疯了。

想象一下，如果他俩突然决定合体，会擦出什么样的火花？

不得不说，AI 又进步了。最近小红书的开源力作 —— 爆火的「InstantID」，满足了网友们的“脑洞大开”。

这个新开源的项目不光可以一张图生成写真，还能自定义融合两张脸。

科技界与相声界的融合体，InstantID 诞生出的“郭斯克”，你最爱哪一款？

如图，你可以看到 20% 的郭德纲 + 80% 的马斯克，甚至可以自由调整比例。

InstantID，是一款图像生成模型。用户只需要一张图片，便可在 30 秒内，轻松获得自己的多风格 AI 写真。

自从小红书开源该项目以来，InstantID 在 Github 一周暴涨 4000+ star。

它的颠覆性效果，也受到了深度学习领域的领军人物 Yann LeCun 的关注。

主题驱动的文本到图像生成，通常需要在多张包含该主题（如人物、风格）的数据集上进行训练，这类方法中的代表工作包括 DreamBooth、Textual Inversion、LoRAs 等，但这类方案因为需要更新整个网络或较长时间的定制化训练，往往无法很有效地兼容社区已有的模型，并无法在真实场景中快速且低成本应用。

而目前基于单张图片特征进行嵌入的方法（FaceStudio、PhotoMaker、IP-Adapter），要么需要对文生图模型的全参数训练或 PEFT 微调，影响原本模型的泛化性能，缺乏与社区预训练模型的兼容性，要么无法保持高保真度。

为了解决这些问题，小红书 InstantX 团队提出了 InstantID，它不训练文生图模型的 UNet 部分，仅训练可插拔模块，在推理过程中无需 test-time tuning，在几乎不影响文本控制能力的情况下，实现高保真 ID 保持。

论文标题：

InstantID: Zero-shot Identity-Preserving Generation in Seconds

论文地址：

https://arxiv.org/abs/2401.07519

代码地址：

https://github.com/InstantID/InstantID

项目地址：

https://instantid.github.io/

在小红书发布的《InstantID: Zero-shot Identity-Preserving Generation in Seconds》论文中，详细阐述了 InstantID 的多个优势。

1. 高效 ID 保留：InstantID 作为一种创新的 ID 保留方法，有效地弥合了训练效率与身份信息保真度之间的鸿沟；

2. 即插即用兼容性：InstantID 计为一个可插拔的模块，与现有的文生图模型、LoRAs、ControlNets等完美兼容。这意味着用户可以在不增加成本的情况下，轻松地在推理过程中保持人物的身份特征，同时保持对文本编辑的灵活控制。

3. 卓越性能：实验结果显示，InstantID 在性能上不仅超越了基于单张图片特征的嵌入方法（如 IP-Adapter-FaceID），而且在特定场景下，其效果与 ROOP、LoRAs 等方法不相上下。这种高性能和高效率的特性，为 InstantID 在实际应用中的广泛应用，如视图合成、ID 插值、多身份和多风格合成等，提供了巨大的潜力。

上图概述了 InstantID 方法，主要包含三个关键组成部分：（1）将弱对齐的 CLIP 特征替换为强语义的人脸特征；（2）人脸图像的特征在 Cross-Attention 中作为 Image Prompt 嵌入；（3）提出 IdentityNet 来对人脸施加强语义和弱空间的条件控制，从而增强 ID 的保真度以及文本的控制力。

1. 由于 CLIP 只提供了弱语义表征，无法在人脸等强语义场景下直接应用，考虑了人脸识别领域已经相当成熟，所以采用预训练的人脸编码器来提取人脸特征。在本次工作中，使用来自 InsightFace 提供的 antelopev2 模型来提取人脸特征；

2. 预训练的文本到图像扩散模型中的图像提示功能能够增强了文本提示，特别是对于难以用文字描述的内容，因此，InstantID 采用和 IP-Adapter 一致的具有解耦功能的交叉注意力机制，但差别在于使用人脸特征，而非 CLIP 表征；

3. 引入 IdentityNet 来对人脸图像进行编码。在实现中，IdentityNet 采用与 ControlNet 一致的残差结构，从而保持原始模型的兼容性。在 IdentityNet 中，主要有两个对于原版 ControlNet 的修改：

只使用五个面部关键点，而不是细粒度的 OpenPose 面部关键点（两个用于眼睛，一个用于鼻子，两个用于嘴巴）用于条件输入；
消除文本提示并使用 ID 嵌入作为条件加入到 ControlNet 中的交叉注意力层。

团队详细展示了 InstantID 方法的稳健性、可编辑性和兼容性，分别对应在空文本、编辑文本、额外使用 ControlNets 下的生成效果。可以看到，InstantID 仍然保持了较好的文本控制能力，同时与开源的 ControlNet 模型兼容。

同时该方法也支持多张图注入，来进一步提升效果。

InstantID 与目前社区内主流的三类方法进行对比。

（1）基于单图特征注入（IP-Adapter 与 PhotoMaker）。相比之下，IP-Adapter 具有可插拔性，兼容社区模型，且其 FaceID 版本的人脸保真度有明显提升，但是对于文本的控制能力出现明显退化；而近期新推出的 PhotoMaker，需要训练整个模型（虽然采用了 LoRA 的方式），风格退化问题减弱，但其人脸保真度未见明显提升，甚至不如 IP-Adapter-FaceID。InstantID 兼顾了人脸保真度和文本控制能力。

（2）基于微调的人物 LoRAs。LoRA 模型虽然在个性化图像生成方面表现出色，但它们对数据质量和数量有着特定的要求，这在现实世界的应用场景中可能会受到限制；同时，LoRA模型还需要额外的训练来定制化模型。相比之下，InstantID 则提供了一种高效的单步推理方法，只需一张图像就能完成推断，这种效率对于各种下游应用来说是一个巨大的优势。