Redian新闻
>
成就了Sora和Stable diffusion 3的DiTs,究竟是啥

成就了Sora和Stable diffusion 3的DiTs,究竟是啥

公众号新闻

Sora才刚发布没过多久,Stable AI就发布了Stable Diffusion 3。对于使用人工智能创意设计的人来说,无疑是过大年了。那么本篇文章就专门为这些用户准备,用更直白的话讲述Stable Diffusion 3的两大特色“扩散transformers模型”以及“流匹配”,帮助你在模型发布后更好的使用它来创作。

扩散transformer模型(diffusion transformers),我们下文就简称它为DiTs。那看名字你也清楚了,这是一个基于transformer架构的图像潜变量扩散模型。如果你读过硅星人Pro的文章《揭秘Sora:用大语言模型的方法理解视频,实现了对物理世界的“涌现”》,那么你对于接下来的内容来说已经算是“课代表”级别的了。DiTs跟Sora一样,它也使用了“块”(patches)这个概念,不过由于DiTs是用来生成图片的,它不需要像Sora那样保持不同帧图片之间的逻辑关联,所以它不必生成时间和空间的时空块。

Stable diffusion 3生成

对于DiTs来说,它和4、5年前在计算机视觉领域掀起一场腥风血雨的Vision Transformer (ViT) 是相似的,图像会被DiTs被分割成多个patches,并嵌入到连续向量空间中,形成序列输入供transformer处理。不过这里要注意,因为DiTs是有业务在身的,所以对于条件图像生成任务,DiTs就需要接收并融合外部条件信息,例如类别标签或文本描述。通常通过提供额外的输入标记或者跨注意力机制来实现,使得模型能够根据给定的条件信息指导生成过程。

那么当这个块抵达DiTs内部的时候呢,他就可以被DiTs内部的DiT block来加工成需要的内容了。DiT block是DiTs最核心的一环,它是一种设计用于扩散模型的特殊transformer结构,能够处理图像和条件信息。一般来说,block本身翻译过来就是块,但是为了和patches做区分,所以这里我直接用block。

Stable diffusion 3生成

DiT block又分为三个小block:交叉注意力、adaLN、adaLN-Zero。交叉注意力指的是在多头自注意力层之后添加了一个额外的多头交叉注意力层,它的作用是利用条件信息来指导图像生成,使生成的图片更符合提示词,不过代价是增加了大约15%的计算量。

adaLN中的LN,指的是通过规范化每一层神经网络内部单元的输出,以减少内部协变量偏移(covariate shift)的问题,进而改善模型训练过程中的收敛速度和性能。那adaLN就是对标准层归一化的扩展,它允许层归一化的参数根据输入数据或附加条件信息动态调整。它就和汽车那个悬挂一样,是用来增加模型稳定性和适应性的。

Stable diffusion 3生成

接下来,Stable AI在adaLN DiT block的基础上进行了一项改进,除了回归γ和β之外,还回归维度级的缩放参数α,并在DiT block内的任何残差连接之前立即应用这些参数。而这一个block就是adaLN-Zero,这样做的目的是为了模仿残差网络中的有益初始化策略,以促进模型的有效训练和优化。

经过DiT block后,token序列就会解码为输出噪声预测和输出对角协方差预测。通过标准线性解码器,这两个预测结果的大小和输入图像的空间维度相同。最后是将这些解码后的令牌按照它们原有的空间布局重新排列,从而得到预测出的噪声值和协方差值。

Stable diffusion 3生成

第二章,流匹配(Flow Matching,下文简称FM)。根据Stable AI的说法,是一种高效的、无需模拟的CNF模型训练方法,允许利用通用概率路径监督CNF训练过程。尤为重要的是,FM打破了扩散模型之外的CNF可扩展训练障碍,无需深入理解扩散过程即可直接操作概率路径,从而绕过了传统训练中的难题。

所谓CNF,就是Continuous Normalizing Flows,连续归一化流。这是一种深度学习中的概率模型和生成模型技术。在CNF中,通过一系列可逆且连续的变换将简单的概率分布转换为复杂的、高维数据的概率分布。这些变换通常由一个神经网络来参数化,使得原始随机变量经过连续变换后能够模拟目标数据分布。翻译成大白话,CNF像是摇骰子那样生成数据的。

Stable diffusion 3生成

但是CNF在实际操作中需要大量的计算资源和时间,于是Stable AI就寻思了,那能不能又一个结果只要差不多和CNF一样就行,但是流程要稳定,计算量要低的方法?于是FM就诞生了,FM的本质是一个用于训练CNF模型以适应并模拟给定数据分布演化过程的技术,即使我们并不事先知道这个分布的具体数学表达式或对应的生成向量场。通过优化FM目标函数,也可以逐步让模型学习到能够生成与真实数据分布近似的概率分布的向量场。

相较于CNF而言,FM应该算是一种优化方法,它的目标是训练CNF模型生成的向量场与理想的目标概率路径上的向量场尽可能接近。

Stable diffusion 3生成

看完了Stable Diffusion 3的两大核心技术特性你就会发现,其实它和Sora非常接近。俩模型都是transformer模型(stable diffusion此前采用的是U-Net)、都使用块、都有着划时代的稳定性和优化,而且出生日期还这么近,说他们有血缘关系,我认为并不过分。

不过“兄弟俩”有一个根源性的不同,那就是Sora闭源,Stable Diffusion 3开源。事实上,Midjourney也好,DALL·E也好,他们都是闭源的,唯有Stable Diffusion是开源的。如果你关注开源人工智能,那么你一定发现了,开源社区陷入困境已经有很长一段时间了,没有明显的突破,很多人都对此失去信心。Stable Diffusion 2和Stable Diffusion XL仅改进了生成图片的美观性,而Stable Diffusion 1.5已经可以做到这一点。看到Stable Diffusion 3的革命性改进,能让很多人开源社区的开发者重燃信心。

Stable diffusion 3生成

再说个刺激的,Stable AI的CEO默罕默德艾马德莫斯塔克(মোহম্মদ ইমাদ মোশতাক)在推特中说到,尽管Stable AI在人工智能这个领域的资源比其他一些公司少了足足100倍,但是Stable Diffusion 3架构已经可以接受除了视频和图像以外的内容了,不过目前还不能公布太多。

你说图片和视频我还能理解,可啥叫“以外”的内容?其实我能想到的那就是音频了,通过一段声音来生成图片。让人摸不着头脑,不过一旦Stable AI放出最新的研究成果,我们一定第一时间拿来解读。

Stable diffusion 3生成



欢迎加入这个星球,见证硅基时代发展↓

点个在看,再走吧👀

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
突发!Stable Diffusion 核心团队被曝集体离职他用AI“复活”女儿,究竟是对是错?外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生究竟是谁成就了《繁花》的爆火?Ansible 你快点:Ansible 执行过程分析、异步、效率优化嫉妒的心灵不美丽莫斯科遭遇恐袭,究竟是谁干的?微软新作「Mora」,复原了SoraStable Diffusion 3 论文终于发布,架构细节大揭秘,对复现 Sora 有帮助?Stable Diffusion 3 API 发布!超越Midjourney v6和DALL-E 3发完最后一篇论文,Stable Diffusion核心团队全要离职了菠萝和凤梨究竟是啥关系?突发!Stable Diffusion老板也跑了!核心研发已集体辞职,已经unstable了...接口响应慢?那是你没用 CompletableFuture 来优化!实名羡慕!这些人已经用上了SoraStable Diffusion核心团队被曝集体离职;微软利用AI Agent复现Sora丨AIGC日报3D重建范式变革!最新模型MVDiffusion++:刷新视图合成和3D重建SOTA!超市9块9一包的火锅丸子究竟是啥肉做的?能吃吗?保姆级 Stable Diffusion 教程,看完这篇就够了!大脑的顿悟时刻,究竟是如何产生的?物价回到70年前!西雅图人的最爱,比尔盖茨都排队的Dick's,这周汉堡仅$0.19!Stable Diffusion老板也跑了!核心研发已集体辞职,“稳定AI”乱成一锅粥巴山蜀水造就了她,她造就了苏东坡工作完成就了事,任务式思维害死人两首《万家灯火》Ansible你快点:Ansible执行过程分析、异步、效率优化微软“去OpenAI化”引发高层洗牌:必应CEO被DeepMind联创挤跑!纳德拉会见Stable Diffusion老板英国流行的裸体保洁上门服务,究竟是怎么回事?2023虽然过的不尽人意但是也要总结一下!两月超300万GPTs!深扒全球Top 100 GPTs,有哪些财富密码?《再见,布里诺斯艾利斯》鸿发超市「2000 万美元」买下82街前Walmart超市!开设第4家Hông Phát分店!张国华出任省政协党组书记,究竟是副部级还是正部级?关于朱令铊中毒的一点讨论CEO正式跑路,“游戏人的第一个AI”Stable Diffusion濒临倒闭?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。