Redian新闻
>
FaceChain开源虚拟试衣功能,打造更便捷高效的试衣新体验

FaceChain开源虚拟试衣功能,打造更便捷高效的试衣新体验

科技


简介
虚拟试衣这个话题由来已久,电商行业兴起后,就有相关的研发讨论。由其所见即所得的属性,它可以进一步提升用户服装购买体验。它既可以为商家做商品展示服务,也可以为买家做上身体验服务,这让同时具备了 B 和 C 的两个用户属性。随着 AIGC 的兴起,虚拟试衣也取得了一定的突破,FaceChain 近期重点更新了虚拟试衣功能 效果图如下所示:

根据是否需要对衣服做变形生成来划分,虚拟试衣又可分为形变保 ID 与非形变保 ID。其中非形变保 ID(局部保 ID)部分已开源,可以在 FaceChain(https://github.com/modelscope/FaceChain)开源项目中体验到,另外形变保 ID 正在研发中,预计 11 月底开源初版。截止目前 FaceChain 已有 6.1K star,它旨在打造以人物为中心的 AIGC 工具箱,目前其人物写真功能在线体验形态与入口丰富。主要有如下:


a.)万相写真馆在线体验:

https://tongyi.aliyun.com/wanxiang/app/portrait-gallery

b.)魔搭人物写真在线体验:

https://www.modelscope.cn/studios/CVstudio/cv_human_portrait/summary


c.)魔搭写真智能agent在线体验:

https://www.modelscope.cn/studios/CVstudio/FaceChain_agent_studio/summary


除以上体验入口外,该项目也可作为插件在 sdwebui 中集成,另外也在同步拓展 comfyui 的插件中。在功能层面,目前已有人物写真、虚拟试衣、sad talker 等功能,另有更多应用在拓展中。



原理

虚拟试衣的基本模块为 sd、lora、controlnet、inpainting。除了相应基本模块外,还有一些特殊优化及超参设置,最后通过业务代码实现具象的功能。其详细架构图如下:

另外 sd、lora、controlnet、inpainting 等基础模块原理如下:


a.)sd相应原理:


sd 是在 2022 年 diffusion 的技术上进行了 latent 低维特征域的加噪去噪技术迁移,大大加速了 diffusion 技术的相应生态发展。相应原理如下:sd 是一个基于 latent 的扩散模型,常规的扩散模型是基于 pixel 的生成模型,而 latent diffusion 是基于 latent 的生成模型,它先采用一个 autoencoder 将图像压缩到 latent 空间,然后基于文本引导用扩散模型对 latent 进行加噪与去噪过程,最后送入 autoencoder 的 decoder 模块就可以得到生成的图像。sd 模型的基本功能是文生图功能,输入一段文本或一系列提示词,输出对应的图像。


sd 模型的主体结构如下图所示,主要包括以下三部分:

  • autoencoder:encoder 将图像压缩到 latent 空间,而 decoder 将 latent 解码为图像;

  • CLIP text encoder:提取输入文本的 text embeddings,通过 cross attention 的方式送入扩散模型的 UNet 中;

  • UNet:扩散模型的主题,用于实现文本引导下的 latent 生成。

▲ sd模型的基本结构示意图


b.)lora相应原理:


lora 是在 NLP 领域 LLM 大模型上提出的低秩权重矩阵 finetune 技术,此框架大大提升了大模型 finetune 的稳定性,目前其在 SD 上也有大规模的普及应用。相应原理如下:NLP 领域的一个重要范式是在通用域数据进行大规模预训练,然后在下游任务下 finetune。


前人研究表明,过参数化神经网络模型在训练后呈现低秩特性,因此原作者猜测,模型 finetune 过程中权重的变化同样具有低秩特性。因此 lora 通过将权重矩阵进行低秩分解间接训练神经网络的一些密集层,如下图所示。在 finetune 模型时固定原有参数,只训练低秩矩阵 A 与 B。

▲ lora 的低秩分解示意图


通过引入 lora 在特定风格或人物的文生图任务中对 sd 模型进行 finetune,可以有效学习对应的风格或人物信息。相比于全参数微调(full-finetune),lora 更适用于基于少量数据的微调,因此也更适用于在人物写真中学习风格和人物信息。


c.)controlnet相应原理:


controlnet 是一种通过添加额外条件来控制扩散模型的神经网络结构,在 sd 中基于 controlnet 增加条件输入,如边缘映射、分割映射、pose 关键点等信息,可以使生成的图像在上述信息上更接近输入图像,从而增强 sd 图像生成结果的可控性。controlent 定义一组输入条件作为神经网络的额外输入,并通过零初始化的 1*1 卷积(zero convolution)以及原网络模块的可训练副本将其与原始输入进行交互,并将输出结果与原网络输出结果相加。


由于两个 zero convolution 的初始化为 0,因此训练第一步的输出结果与不添加 controlnet 的输出结果一致。该方法可以使得神经网络在特定任务中进行高效 finetune 以提高其性能。在 sd 模型中,controlnet 控制 UNet 的每个层级,使用与 sd 相同的 12 个编码 block 以及一个 middle block,并在输出部分增加 12 个 skip-connections 以及一个 middle block 至 UNet,具体结构如下图所示。

▲ 应用于 sd 模型的 controlnet 结构示意图


d.)inpainting相应原理:


在 sd 中,图像 inpainting 功能是文生图功能的一个扩展:给定模板图像、重绘区域和输入文本,即可根据输入文本的引导生成重绘区域的内容。不同于文生图功能,图像 inpainting 的初始 latent 不是一个随机噪音,而是由模板图像经过 autoencoder 编码之后的 latent 添加高斯噪音得到,其中高斯噪音的比例通过 strength 参数进行控制。


而后对上述初始 latent 进行去噪,为了保证只修改重绘区域以内的内容,在去噪过程的每一步,都将 sd 预测的 noisylatent 在重绘区域外的部分用模板图像相同加噪程度的 noisy latent 替换。这样既能保证重绘区域以外的部分不发生变化,又可以在每一步去噪过程中实现重绘区域内外 latent 的交互,从而保证生成结果的整体自然性。



规划

目前 FaceChain 的整体规划主要有四个维度:a.)真人写真风格,b.)虚拟写真风格,c.)应用拓展,d.)生态拓展。正在进行 comfyui 插件的研发中。



更多阅读


#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
VR版鱿鱼游戏近日正式发布,Netflix × Sandbox VR 打造沉浸娱乐新体验不社交!把时间花在这里,才是一种高效的生活方式资料补给站 | 一些比较优秀的数学模拟试卷推荐最高效的团队为何在7人左右?医研共创、生物科技两手抓,绽妍生物为皮肤问题提供精准高效的解决方案这儿竟比Metrotown更好更便捷 大批华人心动了上海⇌江苏浙江更便捷!这9条省界断头路已打通,助力长三角互联互通《编织梦幻的人·达利篇之三》好消息!PRESTO可以用Google钱包支付车费了,更轻松更便捷!在RTX 4090被限制的时代下,让大模型使用RLHF更高效的方法来了探索更高效的半导体制造ubras肌底衣,内衣内裤一网打尽,释放无痕魅力,享受舒适新体验!关于优化调整健康申报模式的公告!11月起执行!出入境更便捷!IBM最新推出一款类脑芯片“NorthPole” 用于快速高效的人工智能精彩非凡,英国足球城市新体验云朵睡眠感,亲肤柔软、高颜值,舒服到想裸睡!蕉下轻奢抗菌四件套裸睡新体验!平局读者双十一福利抢先版~打造个人专属形象!工业级人物写真生成工具FaceChain开源新研究:ChatGPT可伪造看似合理“支持”科学假说的试验数据;西班牙一设计师打造首个AI模特,最高月入1万欧元丨AIGC日报“随申码”(上海城市出行码)再添新使用渠道,出行换乘更加便捷、高效!《湖天一览楼》1部5章(1)承天寺马自达这款车型获得最高安全评级!拥有极高安全性能,打造极致安全性!大模型助力智能化测试在Hydra Lab中的实战:如何打造更聪明的猴子?彭博终端有妙招(实操视频)| DLIB <GO>: 灵活又高效的衍生品定价器告别夏天 - 再登Sarrail Ridge看了复旦教授抑郁症儿子的故事,我顿悟了养废一个孩子,最高效的方法……迪拜亚特兰蒂斯皇家酒店,刷新度假酒店新体验免费领 | 小学初中物理启蒙幽默动画144节,互动学习全新体验,告别枯燥传统模式!更便捷!现在用手机APP就能预订密西,宾顿等的篮球场、溜冰场、足球场等!一船静谧的秋天中国公布入境免签新政, 澳洲在列! 大批中澳航线恢复, 往返更便捷! 居民卡即将公布直上云霄抢票更便捷!12306放大招新加坡MDRT大会参会分享&企业家商会高效的运营模式“触”手可及的视听新体验 ——触觉反馈生态、标准及新进展港科大唐本忠院士、深圳大学王东/张志军JACS|多则优也:双受体工程构筑高效的近红外二区多模态AIEgens
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。