Redian新闻
>
郭德纲与马斯克合体,2024第一个爆火的Al写真为什么是它?

郭德纲与马斯克合体,2024第一个爆火的Al写真为什么是它?

公众号新闻



郭德纲飙英语说相声、马斯克大佬秀中文采访...前段时间,这样的 AI 视频在各大平台传疯了。 


想象一下,如果他俩突然决定合体,会擦出什么样的火花? 


不得不说,AI 又进步了。最近小红书的开源力作 —— 爆火的「InstantID」,满足了网友们的“脑洞大开”。 


这个新开源的项目不光可以一张图生成写真,还能自定义融合两张脸。 





科技界与相声界的融合体,InstantID 诞生出的“郭斯克”,你最爱哪一款? 


如图,你可以看到 20% 的郭德纲 + 80% 的马斯克,甚至可以自由调整比例。



InstantID,是一款图像生成模型。用户只需要一张图片,便可在 30 秒内,轻松获得自己的多风格 AI 写真。 


自从小红书开源该项目以来,InstantID 在 Github 一周暴涨 4000+ star。 


它的颠覆性效果,也受到了深度学习领域的领军人物 Yann LeCun 的关注。



主题驱动的文本到图像生成,通常需要在多张包含该主题(如人物、风格)的数据集上进行训练,这类方法中的代表工作包括 DreamBooth、Textual Inversion、LoRAs 等,但这类方案因为需要更新整个网络或较长时间的定制化训练,往往无法很有效地兼容社区已有的模型,并无法在真实场景中快速且低成本应用。


而目前基于单张图片特征进行嵌入的方法(FaceStudio、PhotoMaker、IP-Adapter),要么需要对文生图模型的全参数训练或 PEFT 微调,影响原本模型的泛化性能,缺乏与社区预训练模型的兼容性,要么无法保持高保真度。 


为了解决这些问题,小红书 InstantX 团队提出了 InstantID,它不训练文生图模型的 UNet 部分,仅训练可插拔模块,在推理过程中无需 test-time tuning,在几乎不影响文本控制能力的情况下,实现高保真 ID 保持。



论文标题:

InstantID: Zero-shot Identity-Preserving Generation in Seconds

论文地址:

https://arxiv.org/abs/2401.07519

代码地址:

https://github.com/InstantID/InstantID

项目地址:

https://instantid.github.io/


在小红书发布的《InstantID: Zero-shot Identity-Preserving Generation in Seconds》论文中,详细阐述了 InstantID 的多个优势。 


1. 高效 ID 保留:InstantID 作为一种创新的 ID 保留方法,有效地弥合了训练效率与身份信息保真度之间的鸿沟;


2. 即插即用兼容性:InstantID 计为一个可插拔的模块,与现有的文生图模型、LoRAs、ControlNets等完美兼容。这意味着用户可以在不增加成本的情况下,轻松地在推理过程中保持人物的身份特征,同时保持对文本编辑的灵活控制。 


3. 卓越性能:实验结果显示,InstantID 在性能上不仅超越了基于单张图片特征的嵌入方法(如 IP-Adapter-FaceID),而且在特定场景下,其效果与 ROOP、LoRAs 等方法不相上下。这种高性能和高效率的特性,为 InstantID 在实际应用中的广泛应用,如视图合成、ID 插值、多身份和多风格合成等,提供了巨大的潜力。



上图概述了 InstantID 方法,主要包含三个关键组成部分:(1)将弱对齐的 CLIP 特征替换为强语义的人脸特征;(2)人脸图像的特征在 Cross-Attention 中作为 Image Prompt 嵌入;(3)提出 IdentityNet 来对人脸施加强语义和弱空间的条件控制,从而增强 ID 的保真度以及文本的控制力。 


1. 由于 CLIP 只提供了弱语义表征,无法在人脸等强语义场景下直接应用,考虑了人脸识别领域已经相当成熟,所以采用预训练的人脸编码器来提取人脸特征。在本次工作中,使用来自 InsightFace 提供的 antelopev2 模型来提取人脸特征;


2. 预训练的文本到图像扩散模型中的图像提示功能能够增强了文本提示,特别是对于难以用文字描述的内容,因此,InstantID 采用和 IP-Adapter 一致的具有解耦功能的交叉注意力机制,但差别在于使用人脸特征,而非 CLIP 表征;


3. 引入 IdentityNet 来对人脸图像进行编码。在实现中,IdentityNet 采用与 ControlNet 一致的残差结构,从而保持原始模型的兼容性。在 IdentityNet 中,主要有两个对于原版 ControlNet 的修改: 
  • 只使用五个面部关键点,而不是细粒度的 OpenPose 面部关键点 (两个用于眼睛,一个用于鼻子,两个用于嘴巴)用于条件输入;
  • 消除文本提示并使用 ID 嵌入作为条件加入到 ControlNet 中的交叉注意力层。



团队详细展示了 InstantID 方法的稳健性、可编辑性和兼容性,分别对应在空文本、编辑文本、额外使用 ControlNets 下的生成效果。可以看到,InstantID 仍然保持了较好的文本控制能力,同时与开源的 ControlNet 模型兼容。



同时该方法也支持多张图注入,来进一步提升效果。



InstantID 与目前社区内主流的三类方法进行对比。 


(1)基于单图特征注入(IP-Adapter 与 PhotoMaker)。相比之下,IP-Adapter 具有可插拔性,兼容社区模型,且其 FaceID 版本的人脸保真度有明显提升,但是对于文本的控制能力出现明显退化;而近期新推出的 PhotoMaker,需要训练整个模型(虽然采用了 LoRA 的方式),风格退化问题减弱,但其人脸保真度未见明显提升,甚至不如 IP-Adapter-FaceID。InstantID 兼顾了人脸保真度和文本控制能力。



(2)基于微调的人物 LoRAs。LoRA 模型虽然在个性化图像生成方面表现出色,但它们对数据质量和数量有着特定的要求,这在现实世界的应用场景中可能会受到限制;同时,LoRA模型还需要额外的训练来定制化模型。相比之下,InstantID 则提供了一种高效的单步推理方法,只需一张图像就能完成推断,这种效率对于各种下游应用来说是一个巨大的优势。



(3)非扩散模型的换脸模型 InsightFace Swapper。虽然 InsightFace Swapper 在大多数标准场景下表现良好,但 InstantID 在将人脸与背景融合方面展现出更大的灵活性,尤其是在处理非现实风格(如动漫)时。



此外,InstantID 还支持了多视角生成、ID 插值、多 ID 生成,作为潜在应用场景。 


(1)多视角生成。如图所示,最左侧是图像特征保留,最顶侧是姿势参考,按姿势 + 特征 + prompt 合成风格化图像。



(2)ID 插值。20% 的泰勒 + 80% 的杨幂,80% 的杨幂 + 20% 的泰勒,你更喜欢谁?前文所述的“郭斯克”就是利用了该能力。



(3)多 ID + 多风格的生成。从多张图像中分别提取姿势、ID、背景的特征,合成效果很和谐。



基于高性能的人像注入和编辑能力,InstantID 能支持很多衍生应用玩法。


(1)快速低门槛的真人写真。不仅生成速度快,且相比妙鸭成本更低,大约是其 1/300,体验效果好。



(2)夸张五官人像定制。真人化身动漫人物,创意无限。



(3)非人像混合定制。猫身猫头,与自家萌宠合体,温馨又有趣。


InstantID 免费体验地址:

https://huggingface.co/spaces/InstantX/InstantID

欢迎尝鲜,欢迎 Star!



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·
·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
OpenAI 公开与马斯克反目原因郭德纲抖音开播,曹云金狂刷礼物,“郭德纲”一周涨粉189万;“蛋蛋”快手涨粉301万 | 涨粉周榜打破历史!首位华裔副总统女候选人?曾与马斯克关系密切…2024第一桩暴雷:“最贵国产电动车”,命悬一线!刚从NIH拿了45万研究经费2024第一场翻身仗:狂卖百万的长城,终于挣回面子张郎郎:关于文革中的“一打三反”运动 (恐怖岁月)李在明遇袭:2024第一个黑天鹅历史首位!女华裔副总统候选人...曾是谷歌创始人前妻,与马斯克传出婚外情?打响2024第一枪!甘肃突然爆了,镜头下这一幕我忍不住了2024第一个千亿IPO要来了,张一鸣曾想收购,腾讯、红杉与富达为股东让郭德纲飚英文霉霉说中文的AI,新一轮融资估值4.4亿美元,Benchmark领投在2024第一季度尾部,看经济2024第一天,她即时封神高分刷屏,他拍出2024第一部英雄片2024第一个上学日,南京书记校长“金句”来了!柳岩问郭德纲:“我怀了你的孩子咋办?” 老郭…加拿大移民部2024第一项新规:留学生这文件需10天内验证,否则拒签韩国李在明遇袭:2024第一个黑天鹅求真为你详细解读 SCAT考试氪金跨年夜,2024第一波消费热这位女律师或成为美国首位华裔副总统候选人!! 她传曾与马斯克爆绯闻导致离婚....Baillie Gifford全球长期成长策略:为什么是成长,为什么是现在?|【经纬低调分享】[注意]加拿大移民部2024第一项新规:留学生这文件需10天内验证,否则拒签张郎郎:宁静的地平线2024第一塌房事件曝光!原来真的有比蠢更可怕的事…郭麒麟,接不了郭德纲的班张郎郎:找哥哥(古詩英譯)春江花月夜(其一)– 楊廣首位华裔副总统女候选人?曾与马斯克出轨而离婚!2024第一个惊天大瓜:顶流女明星的亲弟弟爆改萌妹,世界终究成了这个癫样…西雅图2024第一场风雪正赶来!快为极寒和停电做准备,附关键物品清单及紧急资源汇总马云最新动作!或将进军这个爆火的行业…滑粉雪!rua驯鹿!不冻河漂流!2024第一场亲子旅行,就该嗨翻天打破历史!首位华裔副总统女候选人?12岁就开始在餐馆打工!曾与马斯克出轨而离婚!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。