Redian新闻
>
中山大学与联想团队发布 ConsistentID,单张照片即可成为百变超人

中山大学与联想团队发布 ConsistentID,单张照片即可成为百变超人

公众号新闻

上传一张个人照片就能瞬间变换身份,这不再是科幻片中的情节。

最近,图像生成技术经历了显著的进化,这是由基于扩散的, 文本到图像大型模型的出现和进步驱动的,如GLIDE 、DALL-E 2 、Imagen、稳定扩散(SD)、eDiff-I 和 RAPHAEL。

这一进展催生了跨不同场景的大量应用方法。作为这些应用方法的中心焦点,个性化和定制的肖像生成在学术和工业领域都引起了广泛关注,因为它在电子商务广告、个性化礼物定制和虚拟试穿等下游任务中具有广泛的适用性。

然而,定制化面部生成的主要挑战是基于一个或多个参考图像保持不同属性的面部图像一致性,导致两个关键问题:确保准确的身份(ID)一致性并实现高保真、多样化的面部细节。

当前的文本到图像模型,尽管结合了结构和内容指导,但在精确控制个性化和定制生成方面面临限制,特别是在生成的图像对参考图像的保真度方面。

近日,中山大学联合联想团队发布 ConsistentID,重新构建了一批50万的多模态细粒度 ID 数据集用于训练提出的 FacialEncoder 模型,可支持个性化写真,性别/年龄更改,身份混淆等常见功能。

论文地址:http://arxiv.org/abs/2404.16771

HuggingFace ZeroGPU在线demo已发布:https://huggingface.co/spaces/JackAILab/ConsistentID



1

现有技术缺点

为了提高参考图像个性化人像生成的精度和多样性,出现了许多定制的方法,满足用户对高质量定制图像的需求。这些个性化方法根据推理过程中是否发生微调进行分类,从而产生两种不同类型的:测试时间微调和直接推理。

测试时间微调包括 TextInversion、 HyperDreambooth 和 CustomDiffusion 等方法。用户可以通过为训练后提供一组目标 ID 图像来实现个性化生成。尽管取得了值得称赞的高保真结果,但生成的输出的质量取决于手动收集的数据的质量。

此外,手动收集用于微调的定制数据引入了劳动密集型和耗时的方面,限制了其实用性。

直接推理是另一类模型,包括 IP-Adapter、Fastcomposer、Photomaker 和 InstantID ,采用单阶段推理方法。这些模型通过使用图像作为条件输入或操纵图像触发词来增强全局 ID 一致性。然而,大多数方法经常忽略细粒度的信息,例如地标和面部特征。

虽然 InstantID 通过引入地标在一定程度上提高了ID的一致性,但视觉提示地标限制了关键面部区域的多样性和可变性,导致生成的面部特征僵硬。

总之,需要细致考虑的两个关键挑战存在于个性化肖像生成中:1)忽略细粒度的面部信息和 2)面部区域与整个面部之间的身份不一致。

ConsistentID的方法与现有方法之间的面部特征细节比较

值得注意的是,ConsistentID的方法生成的字符在眼睛、鼻子和嘴巴等面部特征中表现出卓越的 ID 一致性。



2

方法

提出的 ConsistentID 的总体框架

该框架包括两个关键模块:多模态面部 ID 生成器和有目的地制作的 ID 保存网络。多模态面部提示生成器由两个基本组件组成:细粒度多模态特征提取器,专注于捕获详细的面部信息,以及专门用于学习面部 ID 特征的面部 ID 特征提取器。

另一方面,ID 保存网络同时利用面部文本和视觉提示,通过面部注意力定位策略防止来自不同面部区域的 ID 信息混合。这种方法确保了面部区域 ID 一致性的保存。

为了应对这些挑战,引入了一种新的方法 ConsistentID,旨在保持身份一致性并通过多模态细粒度 ID 信息捕获不同的面部细节,在保证高保真度的同时仅使用单个面部图像。

ConsistentID 包括两个关键模块:多模态面部提示生成器和 ID 保存网络。前者包括细粒度的多模态特征提取器和面部 ID 特征提取器,从而能够使用多条件生成更详细的面部 ID 特征,结合面部图像、面部区域及其相应的从多模态大型语言模型 LLAVA1.5 中提取的文本描述。利用初始模块获得的面部 ID 特征,ConsistentID将它们输入到后一个模块中,通过面部注意力定位策略促进每个面部区域的 ID 一致性。

此外,ConsistentID 认识到现有肖像数据集的局限性,特别是在捕获多样化和细粒度的身份保留面部细节方面,这对于 ConsistentID 的有效性至关重要。为了解决这个问题,ConsistentID 引入了测量细粒度 ID 保存 (FGID) 数据集以及细粒度的身份一致性度量,提供了一种独特而全面的评估方法来增强 ConsistentID 在面部细节中的训练和性能评估。



3

评估

定性评估:为了证明 ConsistentID 的有效性,ConsistentID 对最先进的方法进行了比较分析,包括 Fastcomposer、IP-Adapter、Photomaker 和InstantID。ConsistentID 的重点是仅使用一个参考图像进行个性化生成。ConsistentID 利用官方提供的模型,对每种方法使用默认参数,并将推理限制为单个参考图像。与 Photomaker 方法对齐,ConsistentID 使用 Mystyle 数据集进行定量评估,并结合超过10个身份数据集进行可视化。

研究进行了通用重新上下文化样本的定性比较,将 ConsistentID 的方法与使用五个不同身份及其对应的提示的其他方法进行了比较。ConsistentID的 ConsistentID 在高质量生成、灵活的可编辑性和强大的身份保真度方面表现出更强大的能力。

定量评估:遵循 Photomaker,ConsistentID 使用来自 Mystyle  的测试数据集,使用 MLLM LlaVA1.5 在推理过程中获得面部描述。定量比较是在通用重新上下文化设置下进行的,使用一组指标对各种方面进行基准测试。

对该表的彻底分析表明,在大多数评估指标中,ConsistentID 始终优于其他方法,并且在生成效率方面超过了其他基于 IP-Adapter 的方法。这归因于 ConsistentID 的细粒度 ID 保存能力和轻量级多模态面部提示生成器的效率。关于 FID 指标,较低的性能主要归因于基础模型 SD1.5 的有限生成能力。

ConsistentID的模型与其他模型在风格化和动作指令两个特殊任务上的定性比较



4

未来工作

目前,ConsistentID 模型受限于数据集和基模型的训练,还未能做到类似海马体的出图效果。

据悉,该团队预计训练一个更大规模的 ConsistentID,基于 SDXL,整合了更大规模的 LAION-Face, VoxCeleb1, VGGFace2 等公开数据集,并且使用私有的高质量数据进行额外的微调。目的是为了使得 ConsistentID 可以具有更强大的泛化能力以及更强的出图质感,出图即用。

此外,为了调整出图的 ID 多样性,使得单张图片能生成姿态多变的写真图,正在训练的 ConsistentID 模型引入了多 ID 训练方式,用户可以同时输入多张图片来引导出图的变化。并且模型结构上也做了些许调整,保证 ID 特征和控制信息充分地解藕。

代码和最新进展将同步更新在github仓库中(https://github.com/JackAILab/ConsistentID) 

更多内容,点击下方关注:

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Mamba超强进化体一举颠覆Transformer!单张A100跑140K上下文T100比赛,pro们惊人的实力时隔四年, Costco超人气美食重磅回归!72岁男子创新冠持续感染时间最长纪录:持续患病613天,病毒突变超过50个位点 | 环球科学要闻林斌向中山大学捐款1亿,雷军带富了哪些大佬?蟒蛇养殖或可成为更可持续的肉类来源 | 环球科学要闻熵泱——第四十一章时隔四年,Costco这款超人气美食要回归啦!AI画连环画角色更一致了!人物之间的复杂互动也能处理|中山大学&联想团队出品时隔四年, Costco这款超人气披萨终于回归啦!中山大学肿瘤防治中心发表的SCI论文,大数据分析简报(2024)终于!时隔四年, Costco这款超人气美食要回归啦!中山大学和字节发布「视频虚拟试穿」扩散模型VITON-DiT,一键生成换装后视频!喝茶养生助长寿?不一定哦!中山大学研究发现:饮茶量超过这个量,阿尔茨海默症的患病风险增加48%及以上!有一个读法的儿子真好!杨幂+小兰会是什么样?中山大学新AI成果,实现人脸个性化SOTA文末送书 | 中山大学HCP实验室专著《多模态大模型》重磅发布STTT、PHARMACOL RES 中山大学高国全团队揭示非酒精性脂肪肝病发生发展和阿尔兹海默病的关键调控分子妈妈不是超人,也不必是超人动物世界,水上表演廉航来了!多伦多飞往百慕大200加元即可成行刚出炉的招行年报,把大家的小目标定好了:千万资产,即可成为人群中的前0.07%……终于! Costco超人气美食即将回归荐书丨中山大学 HCP 实验室专著《多模态大模型》重磅发布国内首个开源千亿参数MoE大模型来了!性能超Grok-1,单张GPU可跑博士申请 | 中山大学网络空间安全学院苗嘉旭教授招收计算机视觉方向博士/实习生中山大学沈力课题组招募博士后和实习生标注受限也能识别多标签图像!中山大学等发布异构语义转移HST框架 | IJCV 2024平均准确率达96.4%,中山大学&重庆大学开发基于Transformer的单细胞注释方法美股基本面 - 2024_03_12 * 晚报 * 美国核心通胀高于预期 市场仍预测6月最可能降息 欧洲股指创新高 丰田成亚洲​中山大学陈冠英课题组招收2025级博士/硕士研究生微软「诈骗届」王牌框架,真到可怕!一张照片+音频即可生成数字人小米副董事长林斌及夫人向中山大学捐赠1亿元|首席资讯日报微软刚刚发布了VASA-1:单张照片生成超现实真人视频,还没开源但是性能SOTA中山大学杨建华/屈良鹄/李斌团队开发新方法发现新结构型RNA及其调控功能
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。