Redian新闻
>
FaceChain开源虚拟试衣功能,打造更便捷高效的试衣新体验

FaceChain开源虚拟试衣功能,打造更便捷高效的试衣新体验

科技


简介
虚拟试衣这个话题由来已久,电商行业兴起后,就有相关的研发讨论。由其所见即所得的属性,它可以进一步提升用户服装购买体验。它既可以为商家做商品展示服务,也可以为买家做上身体验服务,这让同时具备了 B 和 C 的两个用户属性。随着 AIGC 的兴起,虚拟试衣也取得了一定的突破,FaceChain 近期重点更新了虚拟试衣功能 效果图如下所示:

根据是否需要对衣服做变形生成来划分,虚拟试衣又可分为形变保 ID 与非形变保 ID。其中非形变保 ID(局部保 ID)部分已开源,可以在 FaceChain(https://github.com/modelscope/FaceChain)开源项目中体验到,另外形变保 ID 正在研发中,预计 11 月底开源初版。截止目前 FaceChain 已有 6.1K star,它旨在打造以人物为中心的 AIGC 工具箱,目前其人物写真功能在线体验形态与入口丰富。主要有如下:


a.)万相写真馆在线体验:

https://tongyi.aliyun.com/wanxiang/app/portrait-gallery

b.)魔搭人物写真在线体验:

https://www.modelscope.cn/studios/CVstudio/cv_human_portrait/summary


c.)魔搭写真智能agent在线体验:

https://www.modelscope.cn/studios/CVstudio/FaceChain_agent_studio/summary


除以上体验入口外,该项目也可作为插件在 sdwebui 中集成,另外也在同步拓展 comfyui 的插件中。在功能层面,目前已有人物写真、虚拟试衣、sad talker 等功能,另有更多应用在拓展中。



原理

虚拟试衣的基本模块为 sd、lora、controlnet、inpainting。除了相应基本模块外,还有一些特殊优化及超参设置,最后通过业务代码实现具象的功能。其详细架构图如下:

另外 sd、lora、controlnet、inpainting 等基础模块原理如下:


a.)sd相应原理:


sd 是在 2022 年 diffusion 的技术上进行了 latent 低维特征域的加噪去噪技术迁移,大大加速了 diffusion 技术的相应生态发展。相应原理如下:sd 是一个基于 latent 的扩散模型,常规的扩散模型是基于 pixel 的生成模型,而 latent diffusion 是基于 latent 的生成模型,它先采用一个 autoencoder 将图像压缩到 latent 空间,然后基于文本引导用扩散模型对 latent 进行加噪与去噪过程,最后送入 autoencoder 的 decoder 模块就可以得到生成的图像。sd 模型的基本功能是文生图功能,输入一段文本或一系列提示词,输出对应的图像。


sd 模型的主体结构如下图所示,主要包括以下三部分:

  • autoencoder:encoder 将图像压缩到 latent 空间,而 decoder 将 latent 解码为图像;

  • CLIP text encoder:提取输入文本的 text embeddings,通过 cross attention 的方式送入扩散模型的 UNet 中;

  • UNet:扩散模型的主题,用于实现文本引导下的 latent 生成。

▲ sd模型的基本结构示意图


b.)lora相应原理:


lora 是在 NLP 领域 LLM 大模型上提出的低秩权重矩阵 finetune 技术,此框架大大提升了大模型 finetune 的稳定性,目前其在 SD 上也有大规模的普及应用。相应原理如下:NLP 领域的一个重要范式是在通用域数据进行大规模预训练,然后在下游任务下 finetune。


前人研究表明,过参数化神经网络模型在训练后呈现低秩特性,因此原作者猜测,模型 finetune 过程中权重的变化同样具有低秩特性。因此 lora 通过将权重矩阵进行低秩分解间接训练神经网络的一些密集层,如下图所示。在 finetune 模型时固定原有参数,只训练低秩矩阵 A 与 B。

▲ lora 的低秩分解示意图


通过引入 lora 在特定风格或人物的文生图任务中对 sd 模型进行 finetune,可以有效学习对应的风格或人物信息。相比于全参数微调(full-finetune),lora 更适用于基于少量数据的微调,因此也更适用于在人物写真中学习风格和人物信息。


c.)controlnet相应原理:


controlnet 是一种通过添加额外条件来控制扩散模型的神经网络结构,在 sd 中基于 controlnet 增加条件输入,如边缘映射、分割映射、pose 关键点等信息,可以使生成的图像在上述信息上更接近输入图像,从而增强 sd 图像生成结果的可控性。controlent 定义一组输入条件作为神经网络的额外输入,并通过零初始化的 1*1 卷积(zero convolution)以及原网络模块的可训练副本将其与原始输入进行交互,并将输出结果与原网络输出结果相加。


由于两个 zero convolution 的初始化为 0,因此训练第一步的输出结果与不添加 controlnet 的输出结果一致。该方法可以使得神经网络在特定任务中进行高效 finetune 以提高其性能。在 sd 模型中,controlnet 控制 UNet 的每个层级,使用与 sd 相同的 12 个编码 block 以及一个 middle block,并在输出部分增加 12 个 skip-connections 以及一个 middle block 至 UNet,具体结构如下图所示。

▲ 应用于 sd 模型的 controlnet 结构示意图


d.)inpainting相应原理:


在 sd 中,图像 inpainting 功能是文生图功能的一个扩展:给定模板图像、重绘区域和输入文本,即可根据输入文本的引导生成重绘区域的内容。不同于文生图功能,图像 inpainting 的初始 latent 不是一个随机噪音,而是由模板图像经过 autoencoder 编码之后的 latent 添加高斯噪音得到,其中高斯噪音的比例通过 strength 参数进行控制。


而后对上述初始 latent 进行去噪,为了保证只修改重绘区域以内的内容,在去噪过程的每一步,都将 sd 预测的 noisylatent 在重绘区域外的部分用模板图像相同加噪程度的 noisy latent 替换。这样既能保证重绘区域以外的部分不发生变化,又可以在每一步去噪过程中实现重绘区域内外 latent 的交互,从而保证生成结果的整体自然性。



规划

目前 FaceChain 的整体规划主要有四个维度:a.)真人写真风格,b.)虚拟写真风格,c.)应用拓展,d.)生态拓展。正在进行 comfyui 插件的研发中。



更多阅读


#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
精彩非凡,英国足球城市新体验大模型助力智能化测试在Hydra Lab中的实战:如何打造更聪明的猴子?港科大唐本忠院士、深圳大学王东/张志军JACS|多则优也:双受体工程构筑高效的近红外二区多模态AIEgens《湖天一览楼》1部5章(1)承天寺直上云霄一船静谧的秋天IBM最新推出一款类脑芯片“NorthPole” 用于快速高效的人工智能新加坡MDRT大会参会分享&企业家商会高效的运营模式医研共创、生物科技两手抓,绽妍生物为皮肤问题提供精准高效的解决方案中国公布入境免签新政, 澳洲在列! 大批中澳航线恢复, 往返更便捷! 居民卡即将公布迪拜亚特兰蒂斯皇家酒店,刷新度假酒店新体验打造个人专属形象!工业级人物写真生成工具FaceChain开源告别夏天 - 再登Sarrail Ridge好消息!PRESTO可以用Google钱包支付车费了,更轻松更便捷!这儿竟比Metrotown更好更便捷 大批华人心动了看了复旦教授抑郁症儿子的故事,我顿悟了养废一个孩子,最高效的方法……“触”手可及的视听新体验 ——触觉反馈生态、标准及新进展不社交!把时间花在这里,才是一种高效的生活方式“随申码”(上海城市出行码)再添新使用渠道,出行换乘更加便捷、高效!最高效的团队为何在7人左右?免费领 | 小学初中物理启蒙幽默动画144节,互动学习全新体验,告别枯燥传统模式!VR版鱿鱼游戏近日正式发布,Netflix × Sandbox VR 打造沉浸娱乐新体验云朵睡眠感,亲肤柔软、高颜值,舒服到想裸睡!蕉下轻奢抗菌四件套裸睡新体验!平局读者双十一福利抢先版~更便捷!现在用手机APP就能预订密西,宾顿等的篮球场、溜冰场、足球场等!ubras肌底衣,内衣内裤一网打尽,释放无痕魅力,享受舒适新体验!资料补给站 | 一些比较优秀的数学模拟试卷推荐马自达这款车型获得最高安全评级!拥有极高安全性能,打造极致安全性!抢票更便捷!12306放大招新研究:ChatGPT可伪造看似合理“支持”科学假说的试验数据;西班牙一设计师打造首个AI模特,最高月入1万欧元丨AIGC日报在RTX 4090被限制的时代下,让大模型使用RLHF更高效的方法来了彭博终端有妙招(实操视频)| DLIB <GO>: 灵活又高效的衍生品定价器《编织梦幻的人·达利篇之三》探索更高效的半导体制造关于优化调整健康申报模式的公告!11月起执行!出入境更便捷!上海⇌江苏浙江更便捷!这9条省界断头路已打通,助力长三角互联互通
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。