Redian新闻
>
速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸

速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸

公众号新闻

机器之心报道

编辑:陈萍、小舟
时隔 8 个月,谷歌又提出了一种能在 20 秒内实现人脸个性化处理的新生成模型。
此前,谷歌和波士顿大学的研究者提出了一种「个性化(Personalization)」的文本到图像扩散模型 DreamBooth,用户只需提供 3~5 个样本 + 一句话,AI 就能定制照片级图像。

对于「个性化」我们可以这样理解,以输入图像为参考,生成的图像在各种情境和不同风格中都能保持对其身份的高度忠实。

举例来讲,输入左侧 4 张小狗的照片,DreamBooth 就可以生成不同类型的小狗,如小狗在景点里旅游、在海里游泳、趴在窝棚里睡觉、甚至人类给它修剪毛发,而生成的图片都高度保持了原图像的特点。


然而,个性化过程在时间和内存需求方面还存在很多挑战。具体到单个个性化模型,进行微调需要大量的 GPU 时间投入,不仅如此,个性化模型还需要很高的存储容量。

为了克服这些挑战,时隔 8 个月,谷歌又提出了一种新的生成模型 HyperDreamBooth。HyperDreamBooth 可以生成不同上下文和风格的人脸,同时还能保留脸部关键知识。

在只使用一张参考图像的情况下,HyperDreamBooth 在大约 20 秒内实现了对人脸的个性化处理,比 DreamBooth 快 25 倍,比 Textual Inversion 快 125 倍,不仅如此,生成的图像与 DreamBooth 质量一样、风格还多样性。此外,HyperDreamBooth 还比常规的 DreamBooth 模型小 10000 倍。


论文地址:https://arxiv.org/pdf/2307.06949.pdf
论文主页:https://hyperdreambooth.github.io/

在我们深入探讨技术细节之前,先看一些效果。

下图中,左边一栏是输入图像,给定一张图像就可以;中间一栏是根据不同的提示生成的人脸,提示语分别是 Instagram 上一张 V 型脸的自拍照;皮克斯卡通人物的 V 型脸;摇滚明星 V 型脸;树皮一样的 V 型脸。最右边生成的是人物专业照片 V 型脸。结果显示,HyperDreamBooth 具有相当大的可编辑性,同时还能保持人物关键面部特征的完整性。


HyperDreamBooth 与 Textual Inversion 、DreamBooth 方法比较有何优势呢?

下图展示了两个示例、5 种风格,结果显示,HyperDreamBooth 可以很好的保持输入图像特性,还具有很强的可编辑性。


接下来我们看看 HyperDreamBooth 具体是如何实现的。

方法介绍

该研究提出的方法由 3 个核心部分组成,分别是轻量级 DreamBooth(Lightweight DreamBooth,LiDB)、预测 LiDB 权重的 HyperNetwork 和 rank-relaxed 快速微调。

LiDB 的核心思想是进一步分解 rank-1 LoRa 残差的权重空间。具体来说,该研究使用 rank-1 LoRA 权重空间内的随机正交不完全基(random orthogonal incomplete basis)来实现这一点,如下图所示:


HyperDreamBooth 的训练和快速微调如下图 2 所示,分为两个阶段。


第 1 阶段:训练 HyperNetwork 以根据人脸图像预测网络权重。该研究使用预先计算的个性化权重进行监督,使用 L2 损失和 vanilla 扩散重建损失函数。第 2 阶段:给定面部图像,用 HyperNetwork 预测网络权重的初步猜测(initial guess),然后使用重建损失进行微调以增强保真度。

HyperNetwork 架构

该研究使用的 HyperNetwork 架构如下图 4 所示。其中,视觉 Transformer(ViT)编码器将人脸图像转换成潜在的人脸特征,然后将其连接到潜在层权重特征(初始化为 0)。Transformer 解码器接收连接特征的序列,并通过使用 delta 预测细化初始权重来迭代地预测权重特征的值。


值得一提的是,这是 transformer 解码器首次被用于 HyperNetwork。

如下图所示,HyperNetwork + 快速微调取得了良好的效果:


实验

下表为 HyperDreamBooth 与 DreamBooth、 Textual Inversion 比较结果。表明,在所有指标上,HyperDreamBooth 得分最高。


下表为不同迭代次数下的比较结果,比较模型包括 HyperDreamBooth、DreamBooth、400 次迭代的 DreamBooth-Agg-1 和 40 次迭代的 DreamBooth-Agg-2。结果显示,HyperDreamBooth 在三项指标上都超过其他模型。


下表为消融实验结果:主要对比的是 HyperNetwork 对性能的影响。


用户研究。该研究还让用户以投票的方式参与评估,结果显示用户对 HyperNetwork 生成的结果偏好强烈。


了解更多内容,请参考原论文。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
3D AI生成出新玩法了:无需数小时,只要45秒,单张图片即可生成 3D模型厉害国保卫战: 债务和骗子陈凯歌新片《少年时代》空降定档;​《速度与激情11》定档“郭德纲一张全家福引争议?”网友辣评:一张图,一部甄嬛传一句话搞定3D模型纹理贴图,全程只需30秒,港大港中大TCL出品 | ICCV'23 Oral真·抓住用户「眼球」:无需专用硬件,谷歌教你用「注意力」提升产品体验|CVPR 2023郭晶晶闺蜜抱5个月女儿裸身跳楼身亡,只留下一句话,背后真相戳痛太多人…AI开卷视频:一句话一张图就能出大片,“人均诺兰”时代不远了只要一句话、30秒,AI就能做个PPT?王小川大模型2个月交卷!开源7B规模里中文最强,GitHub揽星2.2kPromptAppGPT重磅更新!AI助手0门槛开发+运行:几十行代码即可实现AutoGPT纽约电费暴涨,大幅度提升9%,天然气提升8.5%!速度提升30%,Astro 3.0正式发布判断男人行不行,只需一分钟写 bug 速度提升200%!吊爆的 IDEA 使用技巧一则通告+遭贾母厌弃的长子贾赦是谁UOS V20专业版年度更新发布,多文件盘外拷贝速度提升超过 900%星环科技向量数据库从 0 到 1 技术实践:提升数据处理的精确度是重中之重三院院士杨培东团队人工光合作用新突破,实现火星上造氢,或许只需一滴油有些人,说变脸就变脸!江边玩水小心!下水10秒即可感染!MIT推出拾物机器人「最强辅助」,少量训练样本即可实现自然语言控制韩国造出「世界首个室温超导体」?127度即可实现超导2023上半年中国创投回顾:大模型处在分水岭,华东地区热度提升【文献】为什么美国应该向黑人赔偿九剑一魂 - 第24回 汉胡同源 九剑一魂(四)秋季的高级感,只需一件真丝衬衫,优雅迷人,经典不挑人代码效率翻倍,谷歌发布多平台应用开发神器!【老键曲库】 Eros (by Chris Spheeris )1000秒即达大海!700亿处理"负面信息"!日本首排核废水过程曝光Anthropic 创始人:可以给大模型「照 X 光」,AGI 2-3 年可实现视频版Midjourney又进化了:一句话生成视频,谷歌注资,网友大呼好莱坞已死!突破自监督学习效率极限!马毅、LeCun联合发布EMP-SSL:无需花哨trick,30个epoch即可实现SOTA王小川大模型25天再升级!13B版本开源免费可商用,3090即可部署谷歌新模型的算力已是GPT-4的5倍,要大力出奇迹反超OpenAI了?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。