Redian新闻
>
扩散模型和Transformer梦幻联动!一举拿下新SOTA,MILA博士:U-Net已死

扩散模型和Transformer梦幻联动!一举拿下新SOTA,MILA博士:U-Net已死

公众号新闻
羿阁 萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

“U-Net已死,Transformer成为扩散模型新SOTA了!”

就在ChatGPT占尽AI圈风头时,纽约大学谢赛宁的图像生成模型新论文横空出世,收获一众同行惊讶的声音。

MILA在读ML博士生Ethan Caballero

论文创意性地将Transformer与扩散模型融合,在计算效率和生成效果上均超越了基于U-Net的经典模型ADM和LDM,打破了U-Net统治扩散模型的“普遍认知”。

网友给这对新组合命名也是脑洞大开:

All we need is U-Transformer

希望他们没有错过Transffusion这个名字。

要知道,这几年虽然Transformer占尽风头,但U-Net在扩散模型领域仍然一枝独秀——

无论是“前任王者”DALL·E2还是“新晋生成AI”Stable Diffusion,都没有使用Transformer作为图像生成架构。

英伟达AI科学家Jim Fan

如今新研究表明,U-Net并非不可用Transformer替代。

“U-Net并非不可替代”

论文提出的新架构名叫Diffusion Transformers(DiTs)

架构保留了很多ViT的特性,其中整体架构如图左(包含多个DiT模块),具体的DiT模块组成如图右:

更右边的两个灰色框的模块,则是DiT架构的“变体”。主要是探讨在条件输入下,不同的架构是否能对信息进行更好的处理,包括交叉注意力等。

最终结果表明,还是层归一化(Layer Normalization)更好用,这里最终选用了Adaptive Layer Normalization(自适应层归一化)的方法。

对于这篇论文研究的目的,作者表示希望探讨扩散模型中不同架构选择的重要性,以及也是给将来生成模型的评估做一个评判标准。

先说结果——作者认为,U-Net的归纳偏置(inductive bias),对于扩散模型性能提升不是必须的。

与之相反,他们能“轻松地”(readily)被Transformer的标准架构取代。

有网友发现,DALL·E和DALL·E2似乎都有用到Transformer。

这篇论文和它们的差异究竟在哪里?

事实上,DALL·E虽然是Transformer,但并非扩散模型,本质是基于VQVAE架构实现的;

至于DALL·E2和Stable Diffusion,虽然都分别将Transformer用在了CLIP和文本编码器上,但关键的图像生成用的还是U-Net。

经典U-Net架构

不过,DiT还不是一个文本生成图像模型——目前只能基于训练标签生成对应的新图像。

虽然生成的图片还带着股“ImageNet风”,不过英伟达AI科学家Jim Fan认为,将它改造成想要的风格和加上文本生成功能,都不是难点。

如果将标签输入调整成其他向量、乃至于文本嵌入,就能很快地将DiT改造成一个文生图模型:

Stable-DiT马上就要来了!

所以DiTs在生成效果和运算速率上,相比其他图像生成模型究竟如何?

在ImageNet基准上取得SOTA

为了验证DiTs的最终效果,研究者将DiTs沿“模型大小”和“输入标记数量”两个轴进行了缩放。

具体来说,他们尝试了四种不同模型深度和宽度的配置:DiT-S、DiT-B、DiT-L和DiT-XL,在此基础上又分别训练了3个潜块大小为8、4和2的模型,总共是12个模型。

从FID测量结果可以看出,就像其他领域一样,增加模型大小和减少输入标记数量可以大大提高DiT的性能。

FID是计算真实图像和生成图像的特征向量之间距离的一种度量,越小越好。

换句话说,较大的DiTs模型相对于较小的模型是计算效率高的,而且较大的模型比较小的模型需要更少的训练计算来达到给定的FID。

其中,Gflop最高的模型是DiT-XL/2,它使用最大的XL配置,patch大小为2,当训练时间足够长时,DiT-XL/2就是里面的最佳模型。

于是在接下来,研究人员就专注于DiT-XL/2,他们在ImageNet上训练了两个版本的DiT-XL/2,分辨率分别为256x256和512x512,步骤分别为7M和3M。

当使用无分类器指导时,DiT-XL/2比之前的扩散模型数据都要更好,取得SOTA效果:

在256x256分辨率下,DiT-XL/2将之前由LDM实现的最佳FID-50K从3.60降至了2.27。

并且与基线相比,DiTs模型本身的计算效率也很高:

DiT-XL/2的计算效率为119 Gflops,相比而言LDM-4是103 Gflops,ADM-U则是742 Gflops。

同样,在512x512分辨率下,DiT-XL/2也将ADM-U之前获得的最佳FID 3.85降至了3.04。

不过此时ADM-U的计算效率是2813 Gflops,而XL/2只有525 Gflops。

研究作者

本篇论文作者为UC伯克利的William Peebles和纽约大学的谢赛宁。

William Peebles,目前是UC伯克利的四年级博士生,本科毕业于麻省理工学院。研究方向是深度学习和人工智能,重点是深度生成模型。

之前曾在Meta、Adobe、英伟达实习过,这篇论文就是在Meta实习期间完成。

谢赛宁,纽约大学计算机科学系助理教授,之前曾是Meta FAIR研究员,本科就读于上海交通大学ACM班,博士毕业于UC圣迭戈分校。

谢赛宁读博士时曾在FAIR实习,期间与何恺明合作完成ResNeXt,是该论文的一作,之前何恺明一作论文MAE他也有参与。

当然,对于这次Transformer的表现,也有研究者们表示“U-Net不服”。

例如三星AI Lab科学家Alexia Jolicoeur-Martineau就表示:

U-Net仍然充满生机,我相信只需要经过细小调整,有人能将它做得比Transformer更好。

看来,图像生成领域很快又要掀起新的“较量风暴”了。

论文地址:
https://arxiv.org/abs/2212.09748v1

参考链接:
[1]
https://twitter.com/ethanCaballero/status/1605621603135471616
[2]https://www.wpeebles.com/DiT
[3]https://paperswithcode.com/paper/scalable-diffusion-models-with-transformers#code

「2022人工智能年度评选」榜单揭晓

领军人物TOP30


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
生成扩散模型漫谈:统一扩散模型(理论篇)Transformer模仿大脑,在预测大脑成像上超越42个模型,还能够模拟感官与大脑之间的传输Offer捷报 l 约翰霍普金斯大学信息系统Offer+1!雪城学员一举拿下$20000奖学金!ICRA 2023 | CurveFormer:基于Transformer的3D车道线检测新网络大规模的化学语言 transformer 模型捕捉分子结构和性质Offer捷报 l 约翰霍普金斯大学金融硕士学Offer+1!专业录取率仅9%!罗格斯学子一举拿下$20000奖学金!扩散模型和Transformer梦幻联动!一举拿下新SOTASeq2Seq、SeqGAN、Transformer…你都掌握了吗?一文总结文本生成必备经典模型(一)更快更强!EfficientFormerV2来了!一种新的轻量级视觉Transformer雾.湿地全球首个面向遥感任务设计的亿级视觉Transformer大模型《阿凡达2》与奔驰梦幻联动!全球最酷的电动超跑上路了强化学习中的Transformer发展到哪一步了?清北联合发布TransformRL综述梦幻联动!2022 年 FIFA大力神杯背后的路易威登再议胡主席二十大被架走事件扩散模型和Transformer梦幻联动!替换U-Net,一举拿下新SOTA!波心之中Meta发布ConvNeXt V2!仅用最简单的卷积架构,性能不输TransformerAI艺术!吉卜力和星球大战梦幻联动!超越ConvNeXt!Conv2Former:用于视觉识别的Transformer风格的ConvNet《阿凡达 2》与奔驰的梦幻联动!这辆布满鳞片的概念车,上路了那年火车上的故事(下集)(十四)生成扩散模型漫谈:从万有引力到扩散模型扩散模型再下一城!AR-LDM:用扩散模型合成连贯视觉故事!输入字幕就能脑补画面,代词ta都分得清EeSen、FSMN、CLDNN、BERT、Transformer-XL…你都掌握了吗?一文总结语音识别必备经典模型(二)无需新型token mixer就能SOTA:MetaFormer视觉基线模型开源,刷新ImageNet记录统治扩散模型的U-Net要被取代了,谢赛宁等引入Transformer提出DiT清北联合出品!一篇Survey整明白「Transformer+强化学习」的来龙去脉赵丽颖新剧和NYU梦幻联动!中国留学生最爱的美国名校到底有多强?Transformer再胜Diffusion!谷歌发布新一代文本-图像生成模型Muse:生成效率提升十倍超越ConvNeXt!Transformer 风格的卷积网络视觉基线模型Conv2Former学完这个教程,小白也能构建Transformer模型,DeepMind科学家推荐我的“反动”姥爷进博快报#2 | 梦幻联动!见证波科与新朋旧友的双向奔赴Transformer如何做扩散模型?伯克利最新《transformer可扩展扩散模型》论文
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。