Redian新闻
>
SDXL Turbo、LCM相继发布,AI画图进入实时生成时代:字打多快,出图就有多快

SDXL Turbo、LCM相继发布,AI画图进入实时生成时代:字打多快,出图就有多快

公众号新闻

机器之心报道

机器之心编辑部

使用一块 A100,出图的延迟只有 200 毫秒。


本周二,Stability AI 推出了新一代图像合成模型 Stable Diffusion XL Turbo,引发了一片叫好。人们纷纷表示,图像到文本生成从来没有这么轻松。


你可以不需要其他操作,只用在文本框中输入你的想法,SDXL Turbo 就能够迅速响应,生成对应内容。一边输入,一边生成,内容增加、减少,丝毫不影响它的速度。




你还可以根据已有的图像,更加精细地完成创作。手中只需要拿一张白纸,告诉 SDXL Turbo 你想要一只白猫,字还没打完,小白猫就已经在你的手中了。



SDXL Turbo 模型的速度达到了近乎「实时」的程度,让人不禁开始畅想:图像生成模型是不是可以干些其他事了。


有人直接连着游戏,获得了 2fps 的风格迁移画面:



据官方博客介绍,在 A100 上,SDXL Turbo 可在 207 毫秒内生成 512x512 图像(即时编码 + 单个去噪步骤 + 解码,fp16),其中单个 UNet 前向评估占用了 67 毫秒。


如此,我们可以判断,文生图已经进入「实时」时代。


这样的「即时生成」效率,与前不久爆火的清华 LCM 模型看起来有些相似,但是它们背后的技术内容却有所不同。Stability 在同期发布的一篇研究论文中详细介绍了该模型的内部工作原理。该研究重点提出了一种名为对抗扩散蒸馏(Adversarial Diffusion Distillation,ADD)的技术。SDXL Turbo 声称的优势之一是它与生成对抗网络(GAN)的相似性,特别是在生成单步图像输出方面。


论文地址:https://static1.squarespace.com/static/6213c340453c3f502425776e/t/65663480a92fba51d0e1023f/1701197769659/adversarial_diffusion_distillation.pdf


论文细节


简单来说,对抗扩散蒸馏是一种通用方法,可将预训练扩散模型的推理步数量减少到 1-4 个采样步,同时保持高采样保真度,并有可能进一步提高模型的整体性能。 


为此,研究者引入了两个训练目标的组合:(i)对抗损失和(ii)与 SDS 相对应的蒸馏损失。对抗损失迫使模型在每次前向传递时直接生成位于真实图像流形上的样本,避免了其他蒸馏方法中常见的模糊和其他伪影。蒸馏损失使用另一个预训练(且固定)的 扩散模型作为教师,有效利用其广泛知识,并保留在大型扩散模型中观察到的强组合性。在推理过程中,研究者未使用无分类器指导,进一步减少了内存需求。他们保留了模型通过迭代细化来改进结果的能力,这比之前基于 GAN 的单步方法具有优势。


训练步骤如图 2 所示:



表 1 介绍了消融实验的结果,主要结论如下:



接下来是与其他 SOTA 模型的对比,此处研究者没有采用自动化指标,而是选择了更加可靠的用户偏好评估方法,目标是评估 prompt 遵循情况和整体图像。


实验通过使用相同的 prompt 生成输出来比较多个不同的模型变体(StyleGAN-T++、OpenMUSE、IF-XL、SDXL 和 LCM-XL)。在盲测中,SDXL Turbo 以单步击败 LCM-XL 的 4 步配置,并且仅用 4 步击败 SDXL 的 50 步配置。通过这些结果,可以看到 SDXL Turbo 的性能优于最先进的 multi-step 模型,其计算要求显著降低,而无需牺牲图像质量。



图 7 可视化了有关推理速度的 ELO 分数。



表 2 比较了使用相同基础模型的不同 few-step 采样和蒸馏方法。结果显示,ADD 的性能优于所有其他方法,包括 8 步的标准 DPM 求解器。



作为定量实验结果的补充,论文也展示了部分定性实验结果,展示了 ADD-XL 在初始样本基础上的改进能力。图 3 将 ADD-XL(1 step)与 few-step 方案中当前最佳基线进行了比较。图 4 介绍了 ADD-XL 的迭代采样过程。图 8 将 ADD-XL 与其教师模型 SDXL-Base 进行了直接比较。正如用户研究所示,ADD-XL 在质量和 prompt 对齐方面都优于教师模型。





更多研究细节,可参考原论文。




© THE END 

转载请联系本公众号获得授权


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
爆火!清华提出LCM火了!让实时文字生成图像速度提升5-10倍,浏览超百万!有 Turbo Tax small Business账户可以加入的吗?2023 turbo tax, home & business , 17刀一个人2023中文大模型基准测评报告发布;微软Copilot将升级至GPT-4 Turbo;AI奥林匹克数学奖设立丨AIGC大事日报效果超越SDXL!港中大博士生推出超真实人像合成工具,训练用了3.4亿张图华为全屋智能5.0发布;微软Copilot升级GPT-4 Turbo;亚马逊收购交易遭欧盟反垄断警告|AIoT情报Hinton、LeCun、Bengio、清华马维英等人当选2023 ACM Fellow!不用 20 张图!一张图就能生成 AI 头像,这个来自中国团队的项目太好用了快,快,快,微短剧等不及一秒GPT turbo 看了没?!这真是大批失业人员在路上。《留学》国际快讯:THE、QS与软科相继发布新排名,美国前六大银行今年累计裁员超2万人微软Copilot史诗级更新!GPT-4 Turbo免费用,必应深度搜索30秒精准解答红色日记 中国入联 10.17-31实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万2023 ESMO|ADC治疗时代,B7-H3靶向ADC药物在SCLC和sqNSCLC中展现卓越实力人心惶惶!多伦多各大商场、Winners、LCBO惊现警察驻守!用过GPT-4 Turbo以后,我们再也回不去了AI早知道|微软Copilot将可免费使用GPT-4Turbo; 国产670亿参数大模型DeepSeek亮相咱家今天过双十节RAG+GPT-4 Turbo让模型性能飙升!更长上下文不是终局,「大海捞针」实验成本仅4%深夜重磅!GPT-4 Turbo 发布,更强更全能还更便宜,能赚钱的 GPT 商店也要开了Astrohaus将于一月推出更便宜的Freewrite数字打字机新研究:鸽子可以用类似人工智能方式解决问题;谷歌Bard聊天机器人升级,可实时生成回复丨AIGC日报EA Defer有多爽快,RD被拒就有多惨烈文生图10倍速,视频实时渲染!清华发布LCM:兼容全部SD大模型、LoRA、插件等贾扬清创业新动作:推出AIGC提示工具,几个字提示玩转SDXL,细节拉满Airbnb 的 CI/CD 框架引入了 Salesforce DX、Git 和 Buildkite 来提升软件交付效率现场直击OpenAI开发者大会:GPT-4 Turbo、用户自定义GPT、GPT商店,一切都是硅谷新王的架势GPT-4 Turbo更强更便宜,GPTs、GPT商店最大亮点,这是OpenAI首个开发者日罕见!突然30cm跌停!涨的有多高,跌的就有多惨!医药股持续活跃,行情要反转了吗?我行走在“鸟巢”的“顶美空中走廊” (多图)深夜重磅!GPT-4 Turbo 发布,更强更全能还更便宜,GPT 商店要开了可怕!12月份在边境逮捕了19名恐怖分子,混在非法移民群中试图进入美国北上广相继发布定向选调生境外大学认可名单!美本Top10中这所大学竟被排除在外全球首款开源实时操作系统!开发了 20 多年、部署在超 120 亿台设备上的 ThreadX 正式开源现场直击一文总结!OpenAI开发者大会,史上最强GPT-4 Turbo发布,AI圈地震默克尔余毒从美国看中秋的月亮
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。