这个「AI 写真」开源项目火了! GitHub 一周暴涨四千星,Yann LeCun 亲自转发
夕小瑶科技说 分享
作者 | myleen
最近,全网都被一款名叫 InstantID 的 AI 写真生成工具刷屏了!
网友用它,把 AIGC 玩得贼 6。
方便、出图快、效果好,是对 InstantID 的第一印象。
只需上传一张龙妈的表情包,无论龙妈表情多夸张,InstantID 都能轻松还原她的美貌。
它有多火呢?开源后一周 GitHub 暴涨四千星,被深度学习领域的大牛 Yann LeCun 快乐转发。
分分钟满足马斯克的心愿,火星走一趟:
雕像大变“活人”,也是小菜一碟~
这么炸裂的开源项目,背后的团队却很低调。项目论文一共 5 位作者,来自神秘的 InstantX 团队。
就当大家纷纷猜测到底是何方神圣之时,海外“李鬼”网站相继出现,纷纷说自己是 InstantID 本站。
最后终于逼出了正主,作者亲自在 Twitter 上发表声明「请认准官方主页」。随后更新主页信息,公开幕后公司是小红书。
据了解,论文一作 Qixun Wang,在小红书担任算法研究员。通讯作者王浩帆同样也是小红书的工程师,从事可控和条件内容生成(AIGC)方面的研究,20 年硕士毕业于卡耐基梅隆大学。
不得不说,小红书这个开源项目能爆火是有原因的。
直观来看,首先,它出图速度非常快,无需模型训练,20-30 秒出定制版的 AI 写真,支持多种风格。
其次,用户只需要上传一张图片即可,什么角度的照片都可以,不需要 9 张,更不需要 20 张。
这是由于 InstantID 提出了全新的 ID 保留方法,很有效地平衡训练效率与 ID 保真度。
并且 InstantID 是可插拔的,与现有的文生图模型、LoRAs、ControlNets等完美兼容。
这意味着用户可以在不增加成本的情况下,轻松地在推理过程中保持人物的身份特征,同时保持对文本编辑的灵活控制。
如图展示,InstantID 将弱对齐的 CLIP 特征替换为强语义的人脸特征,并人脸图像的特征在 Cross-Attention 中作为 Image Prompt 嵌入。
核心关键是团队提出了 IdentityNet,用于对人脸施加强语义和弱空间的条件控制,从而增强 ID 的保真度以及文本的控制力。
IdentityNet 采用与 ControlNet 一致的残差结构,但使用五个面部关键点(两个用于眼睛,一个用于鼻子,两个用于嘴巴)用于条件输入;同时。消除文本提示并使用 ID 嵌入作为条件加入到 ControlNet 中的交叉注意力层。
官网(https://instantid.github.io/)详细披露了与其他主流方法的对比细节。
基于单图特征注入,如 IP-Adapter、PhotoMaker。IP-Adapter 以其即插即用的特性和对社区模型的兼容性而受到青睐,但在文本控制方面却有所减弱。PhotoMaker 虽然通过 LoRA 技术减少了风格退化问题,但其在面部真实性上的提升并不明显,甚至落后于 IP-Adapter-FaceID。相比之下,InstantID 不仅在保持高面部真实性的同时,还有效维持了对文本的精细控制,实现了两者的平衡。
基于微调的人物 LoRAs。通常来说,LoRAs 需要依赖高质量和大量数据。此外,为了适应特定需求,LoRA 模型通常需要进行额外的定制化训练,而 InstantID 则提供了一种更为高效的解决方案,效率明显提升。
非扩散模型的换脸模型 Inswapper。在非现实主义风格中,InstantID 生成的作品在面孔和背景的融合上更加灵活。
除此之外,InstantID 还支持 ID 插值,它能够在两个或多个不同的个体身份特征之间平滑过渡,创造出介于两者之间的新身份特征,从而生成一系列具有连续变化的个性化图像。
如图,InstantID 通过泰勒和杨幂的照片, “混血”出来的新女神,很好地保留了两人的特征。
想和自己家的猫合体,也不是问题。
目前小红书 InstantX 团队已更新代码和模型,可以线上体验或离线部署,一起顶一顶中国的开源项目!
论文标题:
InstantID: Zero-shot Identity-Preserving Generation in Seconds
论文地址:
https://arxiv.org/abs/2401.07519
代码地址:
https://github.com/InstantID/InstantID
项目地址:
https://instantid.github.io
线上体验:
https://huggingface.co/spaces/InstantX/InstantID
微信扫码关注该文公众号作者