Redian新闻
>
英伟达超快StyleGAN回归,比Stable Diffusion快30多倍,网友:GAN好像只剩下快了

英伟达超快StyleGAN回归,比Stable Diffusion快30多倍,网友:GAN好像只剩下快了

公众号新闻
萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

扩散模型的图像生成统治地位,终于要被GAN夺回了?

就在大伙儿喜迎新年之际,英伟达一群科学家悄悄给StyleGAN系列做了个升级,变出个PLUS版的StyleGAN-T,一下子在网上火了。

无论是在星云爆炸中生成一只柯基:

还是基于虚幻引擎风格渲染的森林:

都只需要接近0.1秒就能生成!

同等算力下,扩散模型中的Stable Diffusion生成一张图片需要3秒钟,Imagen甚至需要接近10秒

不少网友的第一反应是:

GAN,一个我太久没听到的名字了。

很快谷歌大脑研究科学家、DreamFusion第一作者Ben Poole赶来围观,并将StyleGAN-T与扩散模型做了个对比:

在低质量图像(64×64)生成方面,StyleGAN-T要比扩散模型做得更好。

但他同时也表示,在256×256图像生成上,还是扩散模型的天下。

所以,新版StyleGAN生成质量究竟如何,它又究竟是在哪些领域重新具备竞争力的?

StyleGAN-T长啥样?

相比扩散模型和自回归模型多次迭代生成样本,GAN最大的优势是速度

因此,StyleGAN-T这次也将重心放在了大规模文本图像合成上,即如何在短时间内由文本生成大量图像。

StyleGAN-T基于StyleGAN-XL改进而来。

StyleGAN-XL的参数量是StyleGAN3的3倍,基于ImageNet训练,能生成1024×1024高分辨率的图像,并借鉴了StyleGAN2和StyleGAN3的部分架构设计。

它的整体架构如下:

具体到细节上,作者们对生成器、判别器和文本对齐权衡机制进行了重新设计,用FID对样本质量进行量化评估,并采用CLIP来对文本进行对齐。

在生成器上,作者们放弃了StyleGAN3中能实现平移同变性(equivariance)的架构,转而采用了StyleGAN2的部分设计,包括输入空间噪声以及跳层连接等,以提升细节随机变化的多样性。

在判别器上,作者们也重新进行了设计,采用自监督学习对ViT-S进行训练。

随后,作者采用了一种特殊的截断(truncation)方法来控制图像生成的效果,同时权衡生成内容的多样性。

只需要控制参数ψ,就能在确保CLIP分数(用于评估图像生成效果)变动不大的情况下,改善生成图像的风格多样性。

随后,作者们用64个英伟达A100训练了4周,最终得到了这版StyleGAN-T。

那么它的生成效果如何呢?

超快生成低分辨率图像

作者们对当前最好的几种GAN、扩散模型和自回归模型进行了评估。

在微软的MS COCO数据集上,StyleGAN-T实现了64×64分辨率下最高的FID。

(其中,FID是计算真实图像和生成图像特征向量距离的评估用值,数值越低,表示生成的效果越接近真实图像)

但在更高的256×256分辨率生成上,StyleGAN-T还是没有比过扩散模型,只是在生成效果上比同样用GAN的LAFITE要好上不少:

如果进一步将生成时间和FID分别作为纵轴和横轴,放到同一张图上来对比,还能更直观地对比生成质量和速度。

可见StyleGAN-T能保持在10FPS的速度下生成256×256分辨率图像,同时FID值逼近LDM和GLIDE等扩散模型:

而在文本生成图像功能上,作者们也从文本特征、风格控制等方面对模型进行了测试。

在增加或改变特定的形容词后,生成的图像确实符合描述:

即便是快速生成的图像,也能迅速控制风格,如“梵高风格的画”or“动画”等:

当然,偶尔也有失败案例,最典型的就是生成带字母要求的图像时,显示不出正常字母来:

作者们正在努力整理代码,表示不久之后就会开源。

作者介绍

作者们均来自图宾根大学和英伟达。

一作Axel Sauer,图宾根大学博士生,此前在卡尔斯鲁厄理工学院(KIT)获得本硕学位。目前感兴趣的研究方向是深度生成模型、神经网络架构和实证研究。

二作Tero Karras,英伟达杰出研究科学家,对英伟达RTX技术有重要贡献,也是StyleGAN系列的主要作者,主要研究方向是计算机图形学和实时渲染。

不过在这波GAN掀起的“文艺复兴”浪潮下,也出现了“StyleGAN时代迎来终结”的声音。

有网友感慨:

在这之前,最新StyleGAN生成的图像总能让我们大吃一惊,然而现在它给我们的印象只剩下“快”了。

你认为GAN还能撼动扩散模型的统治地位吗?

论文地址:
https://arxiv.org/abs/2301.09515

项目地址:
https://github.com/autonomousvision/stylegan-t

百度研究院、阿里达摩院、量子位智库

年度十大科技报告

总结2022,预见2023。来自百度研究院、阿里达摩院和量子位智库的年度十大科技报告均已发布,点击下方图片即可跳转查看。

百度研究院

阿里达摩院

量子位智库


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
35张图,直观理解Stable Diffusion赛博仓颉,在线造字!Stable Diffusion:没人比我更懂汉字AIGC落地门槛被打下来了:硬件预算一口气降至1/46,低成本上手Stable Diffusion2.0,一行代码自动并行Stable Diffusion、DreamFusion、Make-A-Video、Imagen Video 和下一步PS上的开源Stable Diffusion插件来了:一键AI脑补,即装即用百元入德国精工「随身显微镜」!把世界放大200多倍,孩子玩入迷...北美教育协会推荐志玲姐姐被曝日本“拍piàn”?片段流出,网友:你怎么沦落成这样 ……宛如人间仙境的地方,强力推荐 (多图)Conagen和Natáur达成合作,生产可持续天然牛磺酸Stable Diffusion 2.1版本发布,涩图功能回来了?7 Papers | 英伟达64个A100训练StyleGAN-T;9类生成式AI模型综述3D暴龙模型塞进侏罗纪公园只需一部手机,拍摄角度360°可选,Stable Diffusion又被玩出新花样辣眼睛!柳州丑建筑遗珠,外形像“夜壶”?定位国际精品MALL,因为丑,现在只剩下地方小吃!网友:丑得名不虚传!27岁画作暴涨100多倍,和77岁画廊大佬谈“忘年恋”,是真爱还是炒作?《左手指月》感谢才班的辛苦付出!! 庆祝银班上任!!!7 Papers & Radios | 推理速度比Stable Diffusion快2倍;视觉Transformer统一图像文本爵士乐、放克钢琴曲,Stable Diffusion玩转跨界、实时生成音乐推理速度比Stable Diffusion快2倍,生成、修复图像谷歌一个模型搞定,实现新SOTA拒绝白嫖!Stable Diffusion新版:画师可自主选择作品是否加入训练集Stable Diffusion的魅力:苹果亲自下场优化,iPad、Mac上快速出图从 Styleguidist 迁移到 StorybookStable Diffusion被起诉!结果人类律师水平拉胯,网友:还不如ChatGPT帮他写Jay Alammar再发新作:超高质量图解Stable Diffusion,看完彻底搞懂「图像生成」原理首个超大规模GAN模型!生成速度比Diffusion快20+倍,0.13秒出图,最高支持1600万像素FastTrack Universität 2023莱比锡大学公立语言项目招生简章Julia 快到离谱?不,它并没有比Python快340000,000,000倍告诉Stable Diffusion 2.0你不想要什么,生成效果更好:Negative Prompt显奇效请放过月亮吧!百元入德国精工「随身显微镜」!把世界放大200多倍,孩子玩入迷!“爱” 是很容易被亵渎的一个字输入文字生成音乐,这个音乐版Stable Diffusion火了,网友:电子音乐界要被冲击了 | 在线可玩2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推紧急频道二十分钟的一个片断。GAN强势归来?英伟达耗费64个A100训练StyleGAN-T,优于扩散模型18秒完成渲染!苹果Core ML官宣深度支持Stable Diffusion 2.0
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。