Redian新闻
>
这个「AI 写真」开源项目火了! GitHub 一周暴涨四千星,Yann LeCun 亲自转发

这个「AI 写真」开源项目火了! GitHub 一周暴涨四千星,Yann LeCun 亲自转发

公众号新闻

夕小瑶科技说 分享
作者 | myleen

最近,全网都被一款名叫 InstantID 的 AI 写真生成工具刷屏了!

网友用它,把 AIGC 玩得贼 6。

方便、出图快、效果好,是对 InstantID 的第一印象。

只需上传一张龙妈的表情包,无论龙妈表情多夸张,InstantID 都能轻松还原她的美貌。

它有多火呢?开源后一周 GitHub 暴涨四千星,被深度学习领域的大牛 Yann LeCun 快乐转发。

分分钟满足马斯克的心愿,火星走一趟:

雕像大变“活人”,也是小菜一碟~


这么炸裂的开源项目,背后的团队却很低调。项目论文一共 5 位作者,来自神秘的 InstantX 团队。

就当大家纷纷猜测到底是何方神圣之时,海外“李鬼”网站相继出现,纷纷说自己是 InstantID 本站。

最后终于逼出了正主,作者亲自在 Twitter 上发表声明「请认准官方主页」。随后更新主页信息,公开幕后公司是小红书。

据了解,论文一作 Qixun Wang,在小红书担任算法研究员。通讯作者王浩帆同样也是小红书的工程师,从事可控和条件内容生成(AIGC)方面的研究,20 年硕士毕业于卡耐基梅隆大学。

不得不说,小红书这个开源项目能爆火是有原因的。

直观来看,首先,它出图速度非常快,无需模型训练,20-30 秒出定制版的 AI 写真,支持多种风格。

其次,用户只需要上传一张图片即可,什么角度的照片都可以,不需要 9 张,更不需要 20 张。

这是由于 InstantID 提出了全新的 ID 保留方法,很有效地平衡训练效率与 ID 保真度。

并且 InstantID 是可插拔的,与现有的文生图模型、LoRAs、ControlNets等完美兼容。

这意味着用户可以在不增加成本的情况下,轻松地在推理过程中保持人物的身份特征,同时保持对文本编辑的灵活控制。

如图展示,InstantID 将弱对齐的 CLIP 特征替换为强语义的人脸特征,并人脸图像的特征在 Cross-Attention 中作为 Image Prompt 嵌入。 

核心关键是团队提出了 IdentityNet,用于对人脸施加强语义和弱空间的条件控制,从而增强 ID 的保真度以及文本的控制力。

IdentityNet 采用与 ControlNet 一致的残差结构,但使用五个面部关键点(两个用于眼睛,一个用于鼻子,两个用于嘴巴)用于条件输入;同时。消除文本提示并使用 ID 嵌入作为条件加入到 ControlNet 中的交叉注意力层。

官网(https://instantid.github.io/)详细披露了与其他主流方法的对比细节。

  • 基于单图特征注入,如 IP-Adapter、PhotoMaker。IP-Adapter 以其即插即用的特性和对社区模型的兼容性而受到青睐,但在文本控制方面却有所减弱。PhotoMaker 虽然通过 LoRA 技术减少了风格退化问题,但其在面部真实性上的提升并不明显,甚至落后于 IP-Adapter-FaceID。相比之下,InstantID 不仅在保持高面部真实性的同时,还有效维持了对文本的精细控制,实现了两者的平衡。

  • 基于微调的人物 LoRAs。通常来说,LoRAs 需要依赖高质量和大量数据。此外,为了适应特定需求,LoRA 模型通常需要进行额外的定制化训练,而 InstantID 则提供了一种更为高效的解决方案,效率明显提升。
  • 非扩散模型的换脸模型 Inswapper。在非现实主义风格中,InstantID 生成的作品在面孔和背景的融合上更加灵活。

除此之外,InstantID 还支持 ID 插值,它能够在两个或多个不同的个体身份特征之间平滑过渡,创造出介于两者之间的新身份特征,从而生成一系列具有连续变化的个性化图像。

如图,InstantID 通过泰勒和杨幂的照片, “混血”出来的新女神,很好地保留了两人的特征。

想和自己家的猫合体,也不是问题。

目前小红书 InstantX 团队已更新代码和模型,可以线上体验或离线部署,一起顶一顶中国的开源项目!

论文标题:

InstantID: Zero-shot Identity-Preserving Generation in Seconds

论文地址:

https://arxiv.org/abs/2401.07519

代码地址:

https://github.com/InstantID/InstantID

项目地址:

https://instantid.github.io

线上体验:

https://huggingface.co/spaces/InstantX/InstantID


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
JHU/WashU/UCSB三校放榜!JHU缩招13%!WashU录取缩水...清华大学团队NSR综述:混合神经网络(ANN+SNN→HNN)推动类脑计算鹅厂最新AI工具刷屏!杨幂寡姐多风格写真秒秒钟生成,LeCun点赞 | 可免费体验Yann LeCun:生成模型不适合处理视频,AI得在抽象空间中进行预测LeCun自曝曾因工资太低拒绝谷歌Offer!如果自己加入,会让谷歌研究文化更开放从开源运动中学习,关于 git 和 githubOpenAI像素级抄袭好莱坞IP,反手开撕《纽约时报》,LeCun舌战网友疑似站队支持华裔小哥再获融资7360万美元!天才程序员联合创办,LeCun大佬纷纷站台University of Connecticut 康涅狄格大学 学术诚信政策及申诉指南LeCun 自曝拒绝谷歌研究主管offer!只想专心做研究Code Llama 70B霸榜3连发,练习5个月击败GPT-4!小扎LeCun亲自官宣上新Yann LeCun发来肯定:腾讯人像照片生成可以随便玩了test(12月2日)2个令人惊艳的开源项目,诞生了!图灵奖得主LeCun:为什么未来几年AI更可能变得像狗一样聪明,而不是人类?小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜LeCun转发!大连理工卢湖川、贾旭团队提出可插入图像/视频/3D生成的StableIdentity马斯克打脸OpenAI,全球最大巨无霸模型Grok-1开源!3140亿参数8个MoE,GitHub狂揽6k星ConvNet与Transformer谁更强?Meta评测4个领先视觉模型,LeCun转赞马毅LeCun谢赛宁曝出多模态LLM重大缺陷!开创性研究显著增强视觉理解能力2023晚秋中欧行(5)维也纳:走近哈布斯堡王朝500行代码打造AI搜索引擎!贾扬清周末项目登顶GitHub热榜大厂发函,3 万Star的开源项目被清空奢侈品巨头|历峰 2024精品销售培训生项目火热启动,毕业3年内可投Yunnan Landslide: 25 Dead as Rescue Enters Second DayLLM会写代码≠推理+规划!AAAI主席揭秘:代码数据质量太高|LeCun力赞清华微软开源全新提示词压缩工具,长度骤降80%!GitHub怒砍3.1K星洋姜大丰收- 推荐健康控糖的好蔬菜兼水果又要结婚了...全球科技巨头研发投入大排行!第一名高达5000亿!LeCun表示Meta才是最看重研发的Yann LeCun杨立昆最新观点:AGI不存在500行代码构建AI搜索工具,贾扬清最新开源项目登顶GitHub热榜微信聊天记录导出的开源项目,火了!两首《永远爱你》AI搜索引擎再吸金5.28亿,英伟达贝佐斯入股,LeCun一众大佬夹道祝贺!网友:干翻谷歌开发速率飙升20倍!GPT Pilot明星项目登Github热榜,从0开始构建AI
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。