Redian新闻
>
速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸

速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸

公众号新闻

机器之心报道

编辑:陈萍、小舟
时隔 8 个月,谷歌又提出了一种能在 20 秒内实现人脸个性化处理的新生成模型。
此前,谷歌和波士顿大学的研究者提出了一种「个性化(Personalization)」的文本到图像扩散模型 DreamBooth,用户只需提供 3~5 个样本 + 一句话,AI 就能定制照片级图像。

对于「个性化」我们可以这样理解,以输入图像为参考,生成的图像在各种情境和不同风格中都能保持对其身份的高度忠实。

举例来讲,输入左侧 4 张小狗的照片,DreamBooth 就可以生成不同类型的小狗,如小狗在景点里旅游、在海里游泳、趴在窝棚里睡觉、甚至人类给它修剪毛发,而生成的图片都高度保持了原图像的特点。


然而,个性化过程在时间和内存需求方面还存在很多挑战。具体到单个个性化模型,进行微调需要大量的 GPU 时间投入,不仅如此,个性化模型还需要很高的存储容量。

为了克服这些挑战,时隔 8 个月,谷歌又提出了一种新的生成模型 HyperDreamBooth。HyperDreamBooth 可以生成不同上下文和风格的人脸,同时还能保留脸部关键知识。

在只使用一张参考图像的情况下,HyperDreamBooth 在大约 20 秒内实现了对人脸的个性化处理,比 DreamBooth 快 25 倍,比 Textual Inversion 快 125 倍,不仅如此,生成的图像与 DreamBooth 质量一样、风格还多样性。此外,HyperDreamBooth 还比常规的 DreamBooth 模型小 10000 倍。


论文地址:https://arxiv.org/pdf/2307.06949.pdf
论文主页:https://hyperdreambooth.github.io/

在我们深入探讨技术细节之前,先看一些效果。

下图中,左边一栏是输入图像,给定一张图像就可以;中间一栏是根据不同的提示生成的人脸,提示语分别是 Instagram 上一张 V 型脸的自拍照;皮克斯卡通人物的 V 型脸;摇滚明星 V 型脸;树皮一样的 V 型脸。最右边生成的是人物专业照片 V 型脸。结果显示,HyperDreamBooth 具有相当大的可编辑性,同时还能保持人物关键面部特征的完整性。


HyperDreamBooth 与 Textual Inversion 、DreamBooth 方法比较有何优势呢?

下图展示了两个示例、5 种风格,结果显示,HyperDreamBooth 可以很好的保持输入图像特性,还具有很强的可编辑性。


接下来我们看看 HyperDreamBooth 具体是如何实现的。

方法介绍

该研究提出的方法由 3 个核心部分组成,分别是轻量级 DreamBooth(Lightweight DreamBooth,LiDB)、预测 LiDB 权重的 HyperNetwork 和 rank-relaxed 快速微调。

LiDB 的核心思想是进一步分解 rank-1 LoRa 残差的权重空间。具体来说,该研究使用 rank-1 LoRA 权重空间内的随机正交不完全基(random orthogonal incomplete basis)来实现这一点,如下图所示:


HyperDreamBooth 的训练和快速微调如下图 2 所示,分为两个阶段。


第 1 阶段:训练 HyperNetwork 以根据人脸图像预测网络权重。该研究使用预先计算的个性化权重进行监督,使用 L2 损失和 vanilla 扩散重建损失函数。第 2 阶段:给定面部图像,用 HyperNetwork 预测网络权重的初步猜测(initial guess),然后使用重建损失进行微调以增强保真度。

HyperNetwork 架构

该研究使用的 HyperNetwork 架构如下图 4 所示。其中,视觉 Transformer(ViT)编码器将人脸图像转换成潜在的人脸特征,然后将其连接到潜在层权重特征(初始化为 0)。Transformer 解码器接收连接特征的序列,并通过使用 delta 预测细化初始权重来迭代地预测权重特征的值。


值得一提的是,这是 transformer 解码器首次被用于 HyperNetwork。

如下图所示,HyperNetwork + 快速微调取得了良好的效果:


实验

下表为 HyperDreamBooth 与 DreamBooth、 Textual Inversion 比较结果。表明,在所有指标上,HyperDreamBooth 得分最高。


下表为不同迭代次数下的比较结果,比较模型包括 HyperDreamBooth、DreamBooth、400 次迭代的 DreamBooth-Agg-1 和 40 次迭代的 DreamBooth-Agg-2。结果显示,HyperDreamBooth 在三项指标上都超过其他模型。


下表为消融实验结果:主要对比的是 HyperNetwork 对性能的影响。


用户研究。该研究还让用户以投票的方式参与评估,结果显示用户对 HyperNetwork 生成的结果偏好强烈。


了解更多内容,请参考原论文。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
韩国造出「世界首个室温超导体」?127度即可实现超导真·抓住用户「眼球」:无需专用硬件,谷歌教你用「注意力」提升产品体验|CVPR 2023AI开卷视频:一句话一张图就能出大片,“人均诺兰”时代不远了秋季的高级感,只需一件真丝衬衫,优雅迷人,经典不挑人星环科技向量数据库从 0 到 1 技术实践:提升数据处理的精确度是重中之重1000秒即达大海!700亿处理"负面信息"!日本首排核废水过程曝光判断男人行不行,只需一分钟2023上半年中国创投回顾:大模型处在分水岭,华东地区热度提升“郭德纲一张全家福引争议?”网友辣评:一张图,一部甄嬛传陈凯歌新片《少年时代》空降定档;​《速度与激情11》定档谷歌新模型的算力已是GPT-4的5倍,要大力出奇迹反超OpenAI了?Anthropic 创始人:可以给大模型「照 X 光」,AGI 2-3 年可实现王小川大模型25天再升级!13B版本开源免费可商用,3090即可部署速度提升30%,Astro 3.0正式发布UOS V20专业版年度更新发布,多文件盘外拷贝速度提升超过 900%九剑一魂 - 第24回 汉胡同源 九剑一魂(四)3D AI生成出新玩法了:无需数小时,只要45秒,单张图片即可生成 3D模型【文献】为什么美国应该向黑人赔偿突破自监督学习效率极限!马毅、LeCun联合发布EMP-SSL:无需花哨trick,30个epoch即可实现SOTA江边玩水小心!下水10秒即可感染!视频版Midjourney又进化了:一句话生成视频,谷歌注资,网友大呼好莱坞已死!MIT推出拾物机器人「最强辅助」,少量训练样本即可实现自然语言控制【老键曲库】 Eros (by Chris Spheeris )王小川大模型2个月交卷!开源7B规模里中文最强,GitHub揽星2.2k代码效率翻倍,谷歌发布多平台应用开发神器!写 bug 速度提升200%!吊爆的 IDEA 使用技巧三院院士杨培东团队人工光合作用新突破,实现火星上造氢,或许只需一滴油纽约电费暴涨,大幅度提升9%,天然气提升8.5%!有些人,说变脸就变脸!一则通告+遭贾母厌弃的长子贾赦是谁一句话搞定3D模型纹理贴图,全程只需30秒,港大港中大TCL出品 | ICCV'23 Oral厉害国保卫战: 债务和骗子PromptAppGPT重磅更新!AI助手0门槛开发+运行:几十行代码即可实现AutoGPT数十家企业参编中国大模型标准;大模型创企获2.5亿美元投资;微软签署数十亿美元AI算力协议丨AIGC大事日报郭晶晶闺蜜抱5个月女儿裸身跳楼身亡,只留下一句话,背后真相戳痛太多人…
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。