Redian新闻
>
GAN强势归来?英伟达耗费64个A100训练StyleGAN-T,优于扩散模型

GAN强势归来?英伟达耗费64个A100训练StyleGAN-T,优于扩散模型

公众号新闻

选自arXiv

作者:AXel Sauer

机器之心编译

编辑:赵阳

扩散模型在文本到图像生成方面是最好的吗?不见得,英伟达等机构推出的新款 StyleGAN-T,结果表明 GAN 仍具有竞争力。

文本合成图像任务是指,基于文本内容生成图像内容。当下这项任务取得的巨大进展得益于两项重要的突破:其一,使用大的预训练语言模型作为文本的编码器,让使用通用语言理解实现生成模型成为可能。其二,使用由数亿的图像 - 文本对组成的大规模训练数据,只要你想到的,模型都可以合成。


训练数据集的大小和覆盖范围持续飞速扩大。因此,文本生成图像任务的模型必须扩展成为大容量模型,以适应训练数据的增加。最近在大规模文本到图像生成方面,扩散模型(DM)和自回归模型(ARM)催生出了巨大的进展,这些模型似乎内置了处理大规模数据的属性,同时还能处理高度多模态数据的能力。


有趣的是,2014 年,由 Goodfellow 等人提出的生成对抗网络(GAN),在生成任务中并没有大放异彩,正当大家以为 GAN 在生成方面已经不行的时候,来自英伟达等机构的研究者却试图表明 GAN 仍然具有竞争力,提出 StyleGAN-T 模型。


  • 论文地址:https://arxiv.org/pdf/2301.09515.pdf

  • 论文主页:https://sites.google.com/view/stylegan-t/


StyleGAN-T 只需 0.1 秒即可生成 512×512 分辨率图像:


StyleGAN-T 生成宇航员图像:


值得一提的是,谷歌大脑研究科学家 Ben Poole 表示:StyleGAN-T 在低分辨率 (64x64) 时生成的样本比扩散模型更快更好,但在高分辨率 (256x256) 时表现不佳。


研究者们表示,他们在 64 台 NVIDIA A100 上进行了 4 周的训练。有人给这项研究算了一笔账,表示:StyleGAN-T 在 64 块 A100 GPU 上训练 28 天,根据定价约为 473000 美元,这大约是典型扩散模型成本的四分之一……


GAN 提供的主要好处在于推理速度以及可以通过隐空间控制合成的结果。StyleGAN 的特别之处在于,其具有一个精心设计的隐空间,能从根本上把控生成的图像结果。而对于扩散模型来说,尽管有些工作在其加速方面取得了显著进展,但速度仍然远远落后于仅需要一次前向传播的 GAN。


本文从观察到 GAN 在 ImageNet 合成中同样落后于扩散模型中得到启发,接着受益于 StyleGAN-XL 对判别器的架构进行了重构,使得 GAN 和扩散模型的差距逐渐缩小。在原文的第 3 节中,考虑到大规模文本生成图像任务的特定要求:数量多、类别多的数据集、强大的文本对齐以及需要在变化与文本对齐间进行权衡,研究者以 StyleGAN-XL 作为开始,重新审视了生成器和判别器的架构。


在 MS COCO 上的零样本任务中,StyleGAN-T 以 64×64 的分辨率实现了比当前 SOTA 扩散模型更高的 FID 分数。在 256×256 分辨率下,StyleGAN-T 更是达到之前由 GAN 实现的零样本 FID 分数的一半,不过还是落后于 SOTA 的扩散模型。StyleGAN-T 的主要优点包括其快速的推理速度和在文本合成图像任务的上下文中进行隐空间平滑插值,分别如图 1 和图 2 所示。


StyleGAN-T 架构概览


该研究选择 StyleGAN-XL 作为基线架构,因为 StyleGAN-XL 在以类别为条件的 ImageNet 合成任务中表现出色。然后该研究依次从生成器、判别器和变长与文本对齐的权衡机制的角度修改 StyleGAN-XL。


在整个重新设计过程中,作者使用零样本 MS COCO 来衡量改动的效果。出于实际原因,与原文第 4 节中的大规模实验相比,测试步骤的计算资源预算有限,该研究使用了更小模型和更小的数据集;详见原文附录 A。除此以外,该研究使用 FID 分数来量化样本质量,并使用 CLIP 评分来量化文本对齐质量。


为了在基线模型中将以类别为引导条件更改为以文本为引导条件,作者使用预训练的 CLIP ViT-L/14 文本编码器来嵌入文本提示,以此来代替类别嵌入。接着,作者删除了用于引导生成的分类器。这种简单的引导机制与早期的文本到图像模型相匹配。如表 1 所示,该基线方法在轻量级训练配置中达到了 51.88 的零样本 FID 和 5.58 的 CLIP 分数。值得注意的是,作者使用不同的 CLIP 模型来调节生成器和计算 CLIP 分数,这降低了人为夸大结果的风险。


实验结果


该研究使用零样本 MS COCO 在表 2 中的 64×64 像素输出分辨率和表 3 中的 256×256 像素输出分辨率下定量比较 StyleGAN-T 的性能与 SOTA 方法的性能。


图 5 展示了 FID-CLIP 评分曲线:


为了隔离文本编码器训练过程产生的影响,该研究评估了图 6 中的 FID–CLIP 得分曲线。


图 2 显示了 StyleGAN-T 生成的示例图像,以及它们之间的插值。


在不同的文本提示之间进行插值非常简单。对于由中间变量 w_0 = [f (z), c_text0] 生成的图像,该研究用新的文本条件 c_text1 替换文本条件 c_text0。然后将 w_0 插入到新的隐变量 w_1 = [f (z), c_text1] 中,如图 7 所示。



通过向文本提示附加不同的样式,StyleGAN-T 可以生成多种样式,如图 8 所示。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
生成扩散模型漫谈:从万有引力到扩散模型单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖谷歌新作:基于扩散模型的视频生成ELITE项目原作解读:基于扩散模型的快速定制化图像生成梦想还是要有的,万一实现了呢?从攀岩裁判角度看项目普及LG gram Style 轻薄本今晚开卖:搭载 OLED 高刷屏,轻至 999g生成扩散模型漫谈:构建ODE的一般步骤(上)中科大&微软提出SinDiffusion:从单个自然图像学习扩散模型太飒了!手撕C罗现任,贝克汉姆亲自下场支持!曾怀双胞胎的她,如将强势归来妖娆依旧?女人有气质的样子,更让人着迷!英伟达超快StyleGAN回归,比Stable Diffusion快30多倍,网友:GAN好像只剩下快了稀疏模型最新进展!马毅+LeCun强强联手:「白盒」非监督式学习|ICLR 2023统治扩散模型的U-Net要被取代了,谢赛宁等引入Transformer提出DiT美国入境档案--吴有训1922年旧金山Transformer如何做扩散模型?伯克利最新《transformer可扩展扩散模型》论文大红大紫的扩散模型,真就比GAN强吗?富士康血汗工厂攀技花工人之家AIGC玩出新花样!Stable Diffusion公司提出基于扩散模型的视频合成新模型扩散模型再发力!Hinton团队提出:图像和视频全景分割新框架CTO:谁在项目中使用Arrays.asList、ArrayList.subList,就立马滚蛋!从 Styleguidist 迁移到 Storybook还不如GAN!谷歌、DeepMind等发文:扩散模型直接从训练集里「抄」扩散模型和Transformer梦幻联动!一举拿下新SOTA,MILA博士:U-Net已死LG gram Style 高端轻薄本开启预售:搭载 OLED 高刷屏,9999 元起第65届格莱美落幕,Beyoncé打破获奖历史 赢得32座格莱美奖!霉霉、Adele、Harry Styles等均或等年度大奖物理改变图像生成:扩散模型启发于热力学,比它速度快10倍的挑战者来自电动力学开挖扩散模型小动作,生成图像几乎原版复制训练数据,隐私要暴露了邀请函 | 常春藤兔年春晚强势归来,哈佛大学邀您线下共赏!什么都有了,很容易得忧郁症吗?再谈幸福生成扩散模型漫谈:“硬刚”扩散ODE本周剩余工作日阴雨相伴,双休日阳光强势归来!下周初升温迅速7 Papers | 英伟达64个A100训练StyleGAN-T;9类生成式AI模型综述扩散模型和Transformer梦幻联动!替换U-Net,一举拿下新SOTA!DALL-E和Flamingo能相互理解吗?三个预训练SOTA神经网络统一图像和文本
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。