Redian新闻
>
文生图10倍速,视频实时渲染!清华发布LCM:兼容全部SD大模型、LoRA、插件等

文生图10倍速,视频实时渲染!清华发布LCM:兼容全部SD大模型、LoRA、插件等

公众号新闻



  新智元报道  

作者:谭炜达
编辑:LRS 好困
【新智元导读】全面兼容Stable Diffusion生态,LCM模型成功实现5-10倍生成速度的提升,实时AI艺术时代即将到来,所想即所得!


Latent Consistency Models(潜一致性模型)是一个以生成速度为主要亮点的图像生成架构。

 

和需要多步迭代传统的扩散模型(如Stable Diffusion)不同,LCM仅用1 - 4步即可达到传统模型30步左右的效果。

 

由清华大学交叉信息研究院研究生骆思勉和谭亦钦发明,LCM将文生图生成速度提升了5-10倍,世界自此迈入实时生成式AI的时代。

 

LCM-LoRA: https://huggingface.co/papers/2311.05556

项目主页:https://latent-consistency-models.github.io/

 

Stable Diffusion杀手:LCM

 

在LCM出现之前, 不同团队在各种方向探索了五花八门的SD1.5和SDXL替代方案。

这些项目各有特色,但都存在着不兼容LoRA和不完全兼容Stable Diffusion生态的硬伤。按发布时间顺序,比较重要的项目有:


模型名称

介绍

生成速度

训练难度

SD生态兼容性

DeepFloyd IF

高质量、可生成文字,但架构复杂

更慢

更慢

不兼容

Kandinsky 2.2

比SDXL发布更早且质量同样高;兼容ControlNet

类似

类似

不兼容模型和LoRA,兼容ControlNet等部分插件

Wuerstchen V2

质量和SDXL类似

2x - 2.5x

更容易

不兼容

SSD-1B

由Segmind蒸馏自SDXL,质量略微下降

1.6x

更容易

部分兼容

PixArt-α

华为和高校合作研发,高质量

类似

SD1.5十分之一

兼容ControlNet等部分插件

LCM (SDXL, SD1.5)

训练自DreamShaper、SDXL,高质量、速度快

5x -10x

更容易

部分兼容

LCM-LoRA

体积小易用,插入即加速;牺牲部分质量

5x -10x

更容易

兼容全部SD大模型、LoRA、ControlNet,大量插件

 

这时,LCM-LoRA出现了:将SD1.5、SSD1B、SDXL蒸馏为LCM的LoRA,将生成5倍加速生成能力带到所有SDXL模型上并兼容所有现存的LoRA,同时牺牲了小部分生成质量; 项目迅速获得了Stable Diffusion生态大量插件、发行版本的支持。

 

LCM同时也发布了训练脚本,可以支持训练自己的LCM大模型(如LCM-SDXL)或LCM-LoRA,做到兼顾生成质量和速度。只要一次训练,就可以在保持生成质量的前提下提速5倍。

 

至此,LCM生态体系具备了完整替代SD的雏形

 

截止至2023/11/22,已支持LCM的开源项目:

 

  • Stable Diffusion发行版

    • WebUI(原生支持LCM-LoRA,LCM插件支持LCM-SDXL)、ComfyUI、Fooocus(LCM-LoRA)、DrawThings

  • 小模型

    • LCM-LoRA兼容其他LoRA,ControlNet

  • AnimateDiff WebUI插件

 

计划中添加支持的项目:


  • WebUI主分支持

  • 训练脚本Kohya SS

  • LCM-SDXL、LCM-DreamShaper专属的ControlNet

  • LCM-AnimateDiff


随着生态体系的逐渐发展,LCM有潜力作为新一代图像生成底层完整替代Stable Diffusion。

 

未来展望


自Stable Diffusion发布至今,生成成本被缓慢优化,而LCM的出现使得图像生成成本直接下降了一个数量级。每当革命性的技术出现,都会带来重塑产业的大量机会。LCM至少能在图像生成成本消失、视频生成、实时生成三大方面给产业格局带来重大变化。

 

1. 图像生成成本消失

 

To C产品端,免费替代收费。受高昂的GPU算力成本限制,以Midjourney为代表的大量文生图服务选择免费增值作为商业模型。LCM使手机客户端、个人电脑CPU、浏览器(WebAssembly)、更容易弹性扩容的CPU算力都可能在未来满足图像生成的算力需求。简单的收费文生图服务如Midjourney会被高质量的免费服务替代。

 

To B服务端,减少的生成算力需求会被增长的训练算力需求替代。

 

AI图片生成服务对算力的需求在峰值和谷底涨落极大,购买服务器闲置时间通常超过50%。这种特点促进了大量函数计算GPU(serverless GPU)如美国Replicate、中国阿里云的蓬勃发展。

 

硬件虚拟化方面如国内的瑞云、腾讯云等也在浪潮中推出了图像模型训练相关虚拟桌面产品。随着生成算力下放到边缘、客户端或更容易扩容的CPU算力,AI生图将普及到各类应用场景中,图像模型微调的需求会大幅上涨。在图像领域,专业、易用、垂直的模型训练服务会成为下一阶段云端GPU算力的主要消费者。

 

2. 文生视频

 

文生视频目前极高的生成成本制约了技术的发展和普及,消费级显卡只能以缓慢的速度逐帧渲染。以AnimateDiff WebUI插件为代表的一批项目优先支持了LCM,使得更多人能参与到文生视频的开源项目中。更低的门槛必然会加速文生视频的普及和发展。


3分钟快速渲染:AnimateDiff Vid2Vid + LCM


3. 实时渲染


速度的增加催生了大量新应用,不断拓展着所有人的想象空间。

 

RT-LCM与AR

 

以RealTime LCM为先导,消费级GPU上第一次实现了每秒10帧左右的实时视频生成视频,这在AR领域必然产生深远的影响。

 

目前高清、低延时捕捉重绘视线内整个场景需要极高算力,所以过去AR应用主要以添加新物体、提取特征后低清重绘部分物体为主。LCM使得实时重绘整个场景成为可能,在游戏、互动式电影、社交等场景中都有无限的想象空间。

 

未来游戏场景不需新建,带上AR眼镜,身处的街道立刻转换为霓虹闪烁的赛博朋克未来风格供玩家探索;看未来的互动式恐怖电影时带上AR眼镜,家中熟悉的一切可以无缝融入场景,吓人的东西就藏在卧室门后。虚拟和现实将无缝融合,真实和梦境让人愈发难以区分。而这一切底层都可能会有LCM的身影。

 

RT-LCM视频渲染

 

交互方式 - 所想即所得(What you imagine is what you get)

 

由Krea.ai、ilumine.ai首先产品化的实时图像编辑UI再次降低了创作的门槛、扩大了创意的边界,让更多人在精细控制的基础上获得了最终画作的实时反馈。

 

Krea.ai实时图像编辑


实时图像编辑

 

建模软件 + LCM探索了3D建模的新方向,让3D建模师在所见即所得基础上更进一步,获得了所想即所得的能力。


LCM实时空间建模渲染

 

手是人类最没用的东西,因为手永远跟不上脑子的速度。所见即所得(What you see is what you get)太慢,所想即所得(What you imagine is what you get)会成为未来的创意工作的主流。

 

LCM第一次让展示效果跟上了灵感创意产生的速度。新的交互方式持续涌现,AIGC革命的终点是将创意的成本、技术门槛降低至无限接近于0。不分行业,好的创意将会从稀缺变为过剩。LCM将我们向未来又推进了一步。


欢迎对LCM有兴趣的朋友们加入LCM中文群: https://wx.hlcode.com.cn/?id=NKVa55S


参考资料:
https://latent-consistency-models.github.io/




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
SDXL Turbo、LCM相继发布,AI画图进入实时生成时代:字打多快,出图就有多快抖音封禁“快速过款”玩法;交个朋友入淘周年庆单日GMV破2亿;腾讯混元大模型开放“文生图”功能 | 一周简讯第十章第四节 海陆空三军和国民警卫队DeepMind大模型登Science:1分钟预测10天天气数据,90%指标超越人类最强模型GauHuman开源:基于Gaussian Splatting,高质量3D人体快速重建和实时渲染框架AI实时解读大脑信号,7倍速还原图像关键视觉特征,LeCun转发​NeurIPS 2023 | RayDF:实时渲染!基于射线的三维重建新方法超低训练成本文生图模型PixArt来了,效果媲美MJ,只需SD 10%训练时间微软推出个人消费者订阅服务Copilot Pro,月费20美元;我国首例涉及AI文生图著作权案一审判决丨AIGC日报腾讯混元大模型再进化,文生图能力重磅上线,这里是一手实测实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万ICLR 2024 放榜!接收率31%!清华LCM论文作者:讲个笑话,被拒了。。。唯老是尊——中国养老现状及探讨(一)谷歌搜索推出文生图功能;GitHub辟谣Copilot服务亏损;微软启动AI漏洞赏金计划丨AIGC大事日报申请美国夏校要什么材料?体验型、课程型、研讨型怎么选?一部iPhone实时渲染300平房间,精度达厘米级别!谷歌最新研究证明NeRF没死提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点谷歌发布Prompt Expansion框架,让文生图更轻松!华为&中科大提出TinySAM:手机就能实时跑的分割一切模型深度 deepin-IDE 获推 1.2.7 版本:新图标新界面、引入智谱 AI 插件等腾讯混元大模型开放文生图;微软AI投资重心或转向应用和业务;国产大模型10月榜单公布丨AIGC大事日报媲美Gen-2,Meta多模态创AI生图新里程碑!破文生视频历史难题,静图秒变视频逼真到炸裂李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型开源版「ChatGPT Plus」来了,能做数据分析、插件调用、自动上网,落地真实世界的智能体夏婳:两情难相知(十二)即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了多模态物体幻觉下降23%!UNC斯坦福等推出通用修正器LURE:兼容任意LVLM,专攻三大幻觉成因AI早知道|百度推出视频生成模型UniVG;Soul APP上线自研语言大模型;清华大学首个大模型 Debug苹果文生图大模型亮相:俄罗斯套娃式扩散,支持1024x1024分辨率回国大开眼界,这些东西你吃过吗?(图)荡游威尼斯小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大爆火!清华提出LCM火了!让实时文字生成图像速度提升5-10倍,浏览超百万!小米正式发布小米澎湃OS;​腾讯混元开放文生图功能,代码能力提升20%;荣耀重返中国第三季度智能手机出货量第一……11月必看!“新世界三大男高音”Juan Diego Flórez首次亮相澳洲!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。