Redian新闻
>
小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜

小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜

公众号新闻

机器之心发布

机器之心编辑部

只需一张照片,整个过程无需训练 LoRA 模型,多风格 AI 写真即刻呈现!

最近,有一群来自小红书的 95 后神秘团队,自称 InstantX,搞了个大动作 —— 开源「InstantID」项目。

InstantID 凭借着高质量的图像生成能力,在开源界掀起了一股热潮:不仅获得了众多技术大佬的点赞,更是在 GitHub 热榜上迅速飙升,成为焦点。

这个「出片神器」,让用户只需上传一张照片,就能轻松定制出多种风格的 AI 写真。


对,你没看错。如图左侧所示,与之前爆火的妙鸭相机至少需要上传 20 张照片不同的是,InstantID 只需一张自拍,不依赖模型训练,不需要等待,瞬间变身。

无论是古典油画的优雅,炫酷的赛博朋克,或是 3D 雕像的立体感,只要是你喜欢的风格,InstantID 都能轻松驾驭。

它不仅风格多样,还能在保持人物面部高保真的同时,无需模型训练,实现秒级出图,效率大幅提升。

InstantID 目前位列 Hugging Face Space Trending 榜首,许多小伙伴玩得不亦乐乎~

比如,把马斯克送上了火星。


让蒙娜丽莎拍「樱花写真」,微笑依旧很神秘。


甚至可以让语文课本中的杜甫从二维变三维,穿越到现代变身「帅大叔」。


图灵奖得主 Yann LeCun,化身多种动漫人物,你猜出了几个角色?


就连 Yann LeCun 本人也点赞转发,调侃自己的「钢铁侠」衣服在哪里。


在个性化图像合成领域,实现强烈风格化写真的同时保持面部高保真度,一直是个挑战。

从效果上看,InstantID 做到了。那它背后运用了哪些方法,有什么独到之处吗?


回顾过去,尽管 Textual Inversion、 DreamBooth 和 LoRAs 等技术已经取得了重大进展。但它们在实际应用中仍受限于高存储需求、耗时的微调过程以及对多张参考图像的依赖。相比之下,现有基于 ID 嵌入的方法虽然只需一次前向推理,但也面临不小挑战:要么需要对大量模型参数进行广泛的微调,要么与社区预训练模型不兼容,要么无法保持高真实性。

InstantID 的出现,打破了这些局限。小红书 InstantX 团队公开了论文《 InstantID: Zero-shot Identity-Preserving Generation in Seconds 》和推理代码,他们表示:InstantID 巧妙地避免了对文生图模型 UNet 部分的训练,仅通过训练一个轻量级的可插拔模块,实现了在推理过程中无需 test-time tuning,同时保持了文本控制的灵活性,确保了面部特征的高保真度。

 
如图所示,InstantID 的工作原理可分为三个关键部分:

  • ID Embedding:团队利用预训练的面部识别模型代替 CLIP 来提取语义人脸特征,并使用可训练的投影层,将这些特征映射到文本特征空间,形成 Face Embedding,具有丰富的语义信息,包括如面部特征、表情、年龄等,为后续的图像生成提供了坚实的基础。
  • Image Adapter:引入一个轻量级的适配模块,将提取的身份信息与文本提示结合起来。这个模块通过解耦的交叉注意力机制,使得图像和文本能够独立地影响生成过程,从而在保持身份信息的同时,允许用户对图像风格进行精细控制,实现「双赢」。
  • IdentityNet:小红书提出了一个名为 IdentityNet 的网络,是 InstantID 的核心部分。它通过强语义条件(如面部特征的详细描述)和弱空间条件(如面部关键点的位置)来编码参考面部图像的复杂特征。在 IdentityNet 中,生成过程完全由 Face Embedding 引导,无需任何文本信息。仅更新新添加的模块,而预先训练的文本到图像模型保持冻结以确保灵活性。

在实际的图像生成过程中,InstantID 首先会接收到用户的文本提示和面部图像。然后通过 ID Embedding 提取关键信息,接着 Image Adapter 将这些信息与文本提示融合。IdentityNet 会根据这些融合后的信息生成图像。

整个过程是自动化的,用户不需要进行任何额外的微调或训练,只需等待二十几秒,就能得到一个既符合文本描述又保留个人身份特征的定制图像。
 


InstantID 不仅解决了训练效率与身份保真度之间的平衡问题,还提供了一系列令人印象深刻的特性。

首先,InstantID 的即插即用和兼容性是其最大的卖点之一。它无需对 UNet 进行额外训练,即可与现有的预训练模型无缝集成,如社区内的文生图基础模型、LoRAs 和 ControlNets。这意味着用户可以在不增加成本的情况下,轻松地在推理过程中保持人物的身份特征,裂变性强。


其次,InstantID 的无需微调特性,使得它在实际应用中极具经济性和实用性。用户只需进行一次前向传播,即可快速生成图像,同时保持对文本编辑的强大控制力,让身份信息与各种风格完美融合。如下图所示,其编辑性强的特点让用户能够通过文本控制性别、头发、服装等细节,确保生成图像的多样性。


性能方面的表现同样卓越,它能够仅凭一张参考图像,就生成具有高保真度和灵活性的先进结果。这一性能不仅超越了基于单张图片特征的嵌入方法,如 IP-Adapter-FaceID,而且在特定场景下,其效果与 ROOP、LoRAs 等方法不相上下。


对于相似度有更高要求的真人写真场景,InstantID 也能完成得不错。不仅能够在秒级时间内完成高质量的图像生成,还避免耗时的 LoRa 训练,相比妙鸭成本更低,大约是其 1/300。通过精细化控制脸部区域,InstantID 能够增强脸部相似度,同时保持整体风格的和谐。


此外,InstantID 的分区域生成方案支持多人多风格的图像生成,耗时基本无增。


它的鲁棒性和泛化性,使其能顺利处理夸张的五官比例。


多视角的生成也没问题。按你指定的姿势图和面部特征,生成新的 AI 写真。


InstantID 的可扩展性良好,能够快速支持多种衍生功能。

比如快速换脸。与 Inswapper 相比,InstantID 生成的作品在面孔和背景的融合上更加灵活。


ID 信息插值。InstantID 支持两脸自定义融合,保留双方特征。


非人像与 ID 的结合,很有特点。


聊到这儿,不妨你亲自尝试一下,感受它的魅力。

操作方式非常简单,进入 InstantID 的 Demo 页面,直接上传照片,便可免费体验 :
https://huggingface.co/spaces/InstantX/InstantID


InstantID 的这些优势,不仅为个人用户提供了强大的创作工具,也为商业应用如电子商务、广告和娱乐产业开辟了新的可能性。InstantID 本次表现令人惊喜,其高效、灵活、强大的性能和易用性,印象深刻。期待小红书该开源项目的后续进展,未来能在多个领域发挥出更大的价值。

附录:
  • 论文地址:https://arxiv.org/abs/2401.07519
  • InstantID 主页:https://instantid.github.io/
  • Demo 尝鲜:https://huggingface.co/spaces/InstantX/InstantID

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
University of Connecticut 康涅狄格大学 学术诚信政策及申诉指南500行代码构建AI搜索工具,贾扬清最新开源项目登顶GitHub热榜餐厅因向“管不好孩子的成年人”征收$50附加费,迅速走红!网友:早应该这样做!一个超级大国的道义形象,在他的笔下瞬间崩塌小红书:小红书2023香水香氛营销宝典这个「AI 写真」开源项目火了! GitHub 一周暴涨四千星,Yann LeCun 亲自转发Meta牵头组建开源「AI复仇者联盟」,AMD等盟友800亿美元力战OpenAI英伟达Yann LeCun杨立昆最新观点:AGI不存在ConvNet与Transformer谁更强?Meta评测4个领先视觉模型,LeCun转赞年入$41万!加州 17 岁华人女孩投资 2000 美元生产这种宠物笼子,迅速致富...小红书百万点赞,杨幂贡献了开年最牛穿搭LeCun转发!大连理工卢湖川、贾旭团队提出可插入图像/视频/3D生成的StableIdentity鹅厂最新AI工具刷屏!杨幂寡姐多风格写真秒秒钟生成,LeCun点赞 | 可免费体验《木棉红》&《好好》Yunnan Landslide: 25 Dead as Rescue Enters Second DayYann LeCun发来肯定:腾讯人像照片生成可以随便玩了Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂开发速率飙升20倍!GPT Pilot明星项目登Github热榜,从0开始构建AIHinton、LeCun、Bengio三巨头,马维英、陈海波等华人入选,2023 ACM Fellow公布500行代码打造AI搜索引擎!贾扬清周末项目登顶GitHub热榜清华微软开源全新提示词压缩工具,长度骤降80%!GitHub怒砍3.1K星停更,网红,exposure,人设,标签,骗子JHU/WashU/UCSB三校放榜!JHU缩招13%!WashU录取缩水...1元=1700000tokens!清华系发布国产Mistral仅2B,老手机都带得动,GitHub一天斩获300+星Yann LeCun:生成模型不适合处理视频,AI得在抽象空间中进行预测带你去阳明山看芒草(多图)吕洪来谈科学养生之九:科学养生需要克服陋习、养成好的生活习惯【会计师全职Offer】Eastern Accounting & Counsulting会计师录用Offer!|求职战报如何用3天时间,迅速掌握新《公司法》办案要点?In Northeast China, Tourists From the South Spark a Winter BoomHinton、LeCun、Bengio、清华马维英等人当选2023 ACM Fellow!效果炸裂!OpenAI 发布首个视频生成模型,这就是 AI 视频的 GPT 时刻清华大学团队NSR综述:混合神经网络(ANN+SNN→HNN)推动类脑计算小红书&新华网:2024小红书父母观察报告马斯克打脸OpenAI,全球最大巨无霸模型Grok-1开源!3140亿参数8个MoE,GitHub狂揽6k星
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。