FaceChain开源虚拟试衣功能，打造更便捷高效的试衣新体验

2023-11-04 13:11

简介

虚拟试衣这个话题由来已久，电商行业兴起后，就有相关的研发讨论。由其所见即所得的属性，它可以进一步提升用户服装购买体验。它既可以为商家做商品展示服务，也可以为买家做上身体验服务，这让同时具备了 B 和 C 的两个用户属性。随着 AIGC 的兴起，虚拟试衣也取得了一定的突破，FaceChain 近期重点更新了虚拟试衣功能 & 效果图如下所示：

根据是否需要对衣服做变形生成来划分，虚拟试衣又可分为形变保 ID 与非形变保 ID。其中非形变保 ID（局部保 ID）部分已开源，可以在 FaceChain（https://github.com/modelscope/FaceChain）开源项目中体验到，另外形变保 ID 正在研发中，预计 11 月底开源初版。截止目前 FaceChain 已有 6.1K star，它旨在打造以人物为中心的 AIGC 工具箱，目前其人物写真功能在线体验形态与入口丰富。主要有如下：

a.）万相写真馆在线体验：

https://tongyi.aliyun.com/wanxiang/app/portrait-gallery

b.）魔搭人物写真在线体验：

https://www.modelscope.cn/studios/CVstudio/cv_human_portrait/summary

c.）魔搭写真智能agent在线体验：

https://www.modelscope.cn/studios/CVstudio/FaceChain_agent_studio/summary

除以上体验入口外，该项目也可作为插件在 sdwebui 中集成，另外也在同步拓展 comfyui 的插件中。在功能层面，目前已有人物写真、虚拟试衣、sad talker 等功能，另有更多应用在拓展中。

原理

虚拟试衣的基本模块为 sd、lora、controlnet、inpainting。除了相应基本模块外，还有一些特殊优化及超参设置，最后通过业务代码实现具象的功能。其详细架构图如下：

另外 sd、lora、controlnet、inpainting 等基础模块原理如下：

a.）sd相应原理：

sd 是在 2022 年 diffusion 的技术上进行了 latent 低维特征域的加噪去噪技术迁移，大大加速了 diffusion 技术的相应生态发展。相应原理如下：sd 是一个基于 latent 的扩散模型，常规的扩散模型是基于 pixel 的生成模型，而 latent diffusion 是基于 latent 的生成模型，它先采用一个 autoencoder 将图像压缩到 latent 空间，然后基于文本引导用扩散模型对 latent 进行加噪与去噪过程，最后送入 autoencoder 的 decoder 模块就可以得到生成的图像。sd 模型的基本功能是文生图功能，输入一段文本或一系列提示词，输出对应的图像。

sd 模型的主体结构如下图所示，主要包括以下三部分：

autoencoder：encoder 将图像压缩到 latent 空间，而 decoder 将 latent 解码为图像；
CLIP text encoder：提取输入文本的 text embeddings，通过 cross attention 的方式送入扩散模型的 UNet 中；
UNet：扩散模型的主题，用于实现文本引导下的 latent 生成。

▲ sd模型的基本结构示意图

b.）lora相应原理：

lora 是在 NLP 领域 LLM 大模型上提出的低秩权重矩阵 finetune 技术，此框架大大提升了大模型 finetune 的稳定性，目前其在 SD 上也有大规模的普及应用。相应原理如下：NLP 领域的一个重要范式是在通用域数据进行大规模预训练，然后在下游任务下 finetune。

前人研究表明，过参数化神经网络模型在训练后呈现低秩特性，因此原作者猜测，模型 finetune 过程中权重的变化同样具有低秩特性。因此 lora 通过将权重矩阵进行低秩分解间接训练神经网络的一些密集层，如下图所示。在 finetune 模型时固定原有参数，只训练低秩矩阵 A 与 B。

▲ lora 的低秩分解示意图

通过引入 lora 在特定风格或人物的文生图任务中对 sd 模型进行 finetune，可以有效学习对应的风格或人物信息。相比于全参数微调（full-finetune），lora 更适用于基于少量数据的微调，因此也更适用于在人物写真中学习风格和人物信息。

c.）controlnet相应原理：

controlnet 是一种通过添加额外条件来控制扩散模型的神经网络结构，在 sd 中基于 controlnet 增加条件输入，如边缘映射、分割映射、pose 关键点等信息，可以使生成的图像在上述信息上更接近输入图像，从而增强 sd 图像生成结果的可控性。controlent 定义一组输入条件作为神经网络的额外输入，并通过零初始化的 1*1 卷积（zero convolution）以及原网络模块的可训练副本将其与原始输入进行交互，并将输出结果与原网络输出结果相加。

由于两个 zero convolution 的初始化为 0，因此训练第一步的输出结果与不添加 controlnet 的输出结果一致。该方法可以使得神经网络在特定任务中进行高效 finetune 以提高其性能。在 sd 模型中，controlnet 控制 UNet 的每个层级，使用与 sd 相同的 12 个编码 block 以及一个 middle block，并在输出部分增加 12 个 skip-connections 以及一个 middle block 至 UNet，具体结构如下图所示。

▲ 应用于 sd 模型的 controlnet 结构示意图

d.）inpainting相应原理：

在 sd 中，图像 inpainting 功能是文生图功能的一个扩展：给定模板图像、重绘区域和输入文本，即可根据输入文本的引导生成重绘区域的内容。不同于文生图功能，图像 inpainting 的初始 latent 不是一个随机噪音，而是由模板图像经过 autoencoder 编码之后的 latent 添加高斯噪音得到，其中高斯噪音的比例通过 strength 参数进行控制。

而后对上述初始 latent 进行去噪，为了保证只修改重绘区域以内的内容，在去噪过程的每一步，都将 sd 预测的 noisylatent 在重绘区域外的部分用模板图像相同加噪程度的 noisy latent 替换。这样既能保证重绘区域以外的部分不发生变化，又可以在每一步去噪过程中实现重绘区域内外 latent 的交互，从而保证生成结果的整体自然性。