渣男 · AI · 数学

科技

2023-09-18 19:09

量子学派，你这个渣男！

一向以钢铁著称的理工直男“量子学派”，

一直声称对数理哲的激情，远超与异性的关系。

一生牵手牛顿，终生只爱图灵。

可近日被曝光与多名女子KISS！

亲密照火遍全网！

↑↑↑

人模狗样的量子君

照片中的美女们，

要身材有身材，要美貌有美貌，性感而酷飒。

而且，在同一时间内多名女性交往。

诡辩无用，有图有真相。

量子学派，你这个渣男！

AI绘画对人类的冲击，

不仅仅只有上面这个渣男。

2023年9月，深圳地铁站，

乘客抬头即现AI短片。

首届AI FASHION WEEK纽约时装周，

70%的服装使借用AI设计。

各大社交短视频平台，

开始签约AI绘画创造的美女主播

......

这些日前的过去进行时，

正以光速渗透至人类的商业世界与现实生活。

AI FASHION WEEK纽约时装周

AI绘图的技术本质

在AI绘画背后的技术黑匣子里，到底藏着什么？

其实，AI几秒成像魔力背后，是先做加法再做减法的自虐过程。

做加法，指前向阶段对图像逐步施加噪声。

直至图像被破坏变成完全的高斯噪声，导致信息衰减。

把与主题相关的颜色形状信息通通加上，不去判断匹配或不匹配。

做减法，指反向过程对图像逐渐降噪，从噪声中重构所需的数据样本，使模型在给定噪声输入的情况下学习生成新图像。

即逐步减去前向阶段添加的冗杂色块，在此过程中学习每个色块的意义。

最终将这些意义经验，积累成自己的大模型数据库。

当大模型成型，AI学成出山与人类打交道时。

只需将人类的需求指令，与大模型数据库进行对应连线，即可几秒成像，惊艳世人。

AI的绘画学习逻辑与人类大相径庭。

人类大脑共有 860 亿个神经元，每一个神经元都与其它神经元有数十个至上千个的链接。

所以，我们可以从无到有地进行：

线条、素描、构图、上色的学习

近乎自动化地赋予每个色块意义，并作出绘画反应。

而AI计算机的数字逻辑电路，只能理解二进制中的0和1。

因此只有在不断降噪的过程中，让AI理解每个色块的数据意义。

并不断积累到自己的大模型数据库中，最终才能做出对人类来说轻而易举的绘画行为。

所以，AI不是从无到有地进行绘画学习。

它是从密密麻麻的涂鸦中，学会了被压在底层的颜色几何形状用法，最后才能做到根据指令生成图画。

噪声会很吵吗？

在现实生活中，绝大多数的随机并非均匀分布。

正态分布，是连续型随机变量中最重要的分布。

如同一条钟形曲，中间高，两边低，左右对称。

大部分数据集中在某处，小部分往两端倾斜。

帕累托法则、橄榄型收入分布、垄断性企业分布等随机分布，都是正态分布。

比如说，在某些国家里：

20%的大城市中居住80%人口、20%人口掌握80%社会财富。

这就是真实世界中的“随机”。

正态分布，也称高斯分布。

正态分布的概率密度函数也可以称为高斯函数。

从一个均值为0、标准差为1的标准正态分布中随机抽取样本，生成一组符合该分布的随机变量，这组变量就称为标准正态分布随机变量。

以下这组随机数，仔细观察可以发现他们大部分都接近均值零。

只有小部分超出了正负一个标准差的范围，这样的随机变量即高斯噪声。

在AI的绘画学习过程中，正是在不断去除冗杂信息时，习得获取核心信息的能力。

3分钟拆解前向过程

在一杯水中，加入一滴墨水。

物质粒子便从高浓度区域向低浓度区域移动，这就是热力学中的分子扩散现象。

AI绘画技术受扩散现象启发，通过逐步向图片中加入高斯噪声来模拟这种现象。

即对原始图像通过逐步添加方差为βt的高斯噪声变成纯噪声图像，从而达到破坏图片的目的。

可以将以下公式看作扩散器，用其对图片加噪来模拟逐步扩散的过程。

开始时，墨水滴入清水中。

逐渐扩散开来，水变得混浊。

即原始图像x0经过以上公式处理后，得到图像x1。

墨水的扩散，使得水中的颜色逐渐改变，图像的细节模糊化。

接下来，将得到的混浊水作为新的状态，再次滴入一滴墨水。

墨水在水中扩散，使得水变得更加混浊，即将x1图像经过以上公式处理后得到x2图像。

对于任意的x（t-1）图像，我们都可以将其作为新的状态，代入公式进行迭代，得到xt的图像。

每次迭代中，墨水的扩散使得水变得更加浑浊，即噪声使得图像的细节更加模糊。

在这个过程中，每一步中的β并不相同，βt最开始是某个接近0的数字，然后逐步递增至接近1。

因为墨水的扩散速度会越来越快，使得水变得更加浑浊，图像的特征也更加模糊。

为何一定要加噪点模糊原始图像？

每张图片都可以用RGB红绿蓝3个通道表示，一张1000×1000像素大小的图片。

在计算机的眼中，可被转化为1000x1000x3的一组数字。

对于计算机来说，读取3000000枚数据很容易。

但是若把它放在算法中，对这个算力有相当高的要求。这种级别的算力，大众显卡无法承担。

所以为了解决这个问题，需要先进行加噪点为图片降维。

减少算力需求，让AI绘画具备在消费级显卡上运行的可能性。

通过循序渐进为图片添加噪点来不断训练AI，让AI从满是噪点的图片中执行降噪。

使其掌握提取关键信息、识别图片内容的能力，这是需要先做加法的另一个原因。

一旦AI学会抓取重点信息，摒弃次要信息，所需要用到的数据量相对原图来说就变得非常小。

所以AI可以学习更多的图片，而众多的图片通过AI的学习和分类，就被打包成了我们当前大热的“模型”。

3分钟拆解反向过程

反向过程，是不断去除噪声的过程。

给定一个噪声图片，对其一步步的去噪还原，直至最终将原始图像恢复。

从第T个timestep开始，模型的输入为Xt与当前的timestep t。

模型中蕴含一个噪声预测器（UNet），它会根据当前的输入预测出噪声，再将当前图片减去预测出来的噪声，就可以得到去噪后的图片。

重复这个过程，直到还原出原始图片为止。

AI通过原始图片在去噪中不断显露，学会了绘画技法，这是对人类绘画的神奇逆练。

什么是噪声预测器（UNet）？

UNet是一种深度学习模型，最初用于解决医学影像分割问题。

它的结构特点是U字形，因此得名UNet。

UNet模型由编码器（Encoder）和解码器（Decoder）组成：

编码器负责逐步压缩输入图像的大小，提取图像的高级特征表示。

解码器则逐步还原压缩后的图像大小，恢复图像的细节信息。

编码器部分，通常由卷积层和池化层组成，用于逐步降低图像的空间分辨率和提取特征。

解码器部分，通常由反卷积层和跳跃连接（skip connections）组成。

跳跃连接，将编码器中的特征图与解码器中的对应层进行连接，确保在推理和还原图片信息时，不会丢失掉之前步骤的信息。

反向过程的降噪程序对应到SD中，即“采样迭代步数”“采样器”参数的来源。

采样器，指用于在生成图像的过程对图像进行去噪声的方法。

去噪的方法有很多种，通常需要在速度和准确性之间做出权衡。

采样步数迭代，指降噪的次数，即生成图像需要的步数，

每一次采样步数，都是在上一次迭代生成的图像基础上生成一张新的图片。

一般来说，采样迭代步数设置在20-40之间即可。

数据构成的画有价值吗？

实现AI生成图画，需要两个条件。

首先，必须有一个足够大的降维数据库，

能够快速提供运算的图片，即模型。

模型在前文提到的加噪降噪过程中逐渐练成。

其次，让AI把人类需求转为数据之后，需要在图片数据库中进行精准连线。

在模型中找到符合要求的图片，进行创作。

所以，AI绘出的图画本质上是一堆数据集。

那AI绘画到底有没有价值？

No.1

价值一：生长1.5个大脑

传统工作流，在创意发散阶段点子有限，组织头脑风暴会动辄几个小时。

当掌握了ChatGPT等大语言模型后，它就可以很好的扮演一个创意助手的角色。

当我们需要发散创意的时候，可以分分钟就能产生几十个不同的思路。

除了文字idea，也可以发散一些画面创意。

比如：确定了大致的元素和画面，通过参考图和关键词，

利用图片模型生成海量的图片创意，进一步开拓设计师的思路。

左右滑动查看更多

No.2

价值二：提速器

甲方领导对画面想法多，诉求不明确，给出的方向过广

想要设计出多版设定看效果，但时间不允许怎么办？

可以用生成式AI工具快速产出多版接近成稿的设定。

STEP1：

以中秋为例，提炼相关元素——中秋、嫦娥奔月、月饼、礼物盒、圆月、灯笼、玉兔、家人团聚赏月、烟花等元素；

STEP2：

开始尝试“拆盲盒”，通过Midjourney生成想要风格的对应元素：一位美丽的仙女，骑着玉兔在云彩中翱翔。

STEP3：

快速拼合元素由于只是设定阶段，快速合成大感觉即可。细节不好的地方，可以用多张图取长补短来合成。

No.3

价值三：拓展能力圈

AI可以拓展我们的能力圈，跨职能完成一些以往需要开发介入才能完成的工作。

我们以一张设计3D科幻风格海报为例。

STEP1：

根据既定的设计风格，选择相关的模型。

【大模型】此次选择的是Rev animated作为大模型，作为万能模型可以较好的适配各种风格场景。

除此以外，也可以选择与目标设计风格接近的大模型。

【lora模型】主要使用的是Xsarchi_127作为主要lora模型，Lunarpunkai为辅助模型。

STEP2：

关键词描述：书写关键词时，可参考lora模型效果图中生成图的关键词，再根据自己实际情况进行增加与删减，这样会比较省心省力。

STEP3：

Controlnet设置：主要使用了Depth这个模式，可以根据生成效果多做组合搭配。

STEP4：

采样器推荐使用：eulera、DPM++2M Karras、DPM++SDE Karras。

STEP5：

生效成果，不同模型不同lora在某个细节表现上都会有优势的地方。

同样参数同样模型下，前后生成的效果也可能不一样。选择一个较满意的效果作为基础图，尝试切换其他lora继续生成。择优合成到基础图中。

STEP6：

最终合成效果，一些高级的创意，用传统的美学工具我们很难完全执行落地，借助AI则可以突破自己的能力限制。

No.4

价值四：赚固定工资以外的钱

AI的能力有多强，在于AI‘懂’你的能力有多强。

学会“调教”AI，掌握与AI对话从而调用知识的能力，

便能掌握驾驭AI的魔法，率先吃上AI的第一口红利。

AI 新时代，信息碎片化和信息差，

使得获取高质量的信息和数据，

变得十分困难。

最好最直接的办法，

就是与行业高手交流学习！

量子学派联合工信部人民邮电出版社，

历时180天打造，

邀请国内AIGC行业头部大佬。

诚意推出这门——

免费「AI前沿工具的直播训练营。」

前300强数字人企业技术创意总监王泽武，

带你实践以下硅基封面AI视频，

构建一个人的媒体帝国！

从入门到实践一站式打通。

往期学员作品+反馈

陪伴式服务

助教陪伴式服务

「督学+知识拓展+社群答疑+一对一辅导」

贯穿整个学习周期，

保证每个学员的学习进度和学习质量，

确保最终的技能交付质量。

结

在AIGC训练营中，你能学到什么？

No.1

掌握向AI“提需求”的能力

这次课程，与市面上的工具课不同。

它提炼了训练AI最核心的技巧，注重训练向AI“提需求”能力。

教你与AI高效对话的模板，简单的提问公式或者几个提示词，就能让AI秒出成果。

根据老师教授的方法，可立刻产出高质商品图。

No.2

提升个人能力，经济选型“保住饭碗”

其次，这门课程还将让你学会如何利用AI工具结合日常工作、学习，实现个人能力的暴增：

a.为你解析AI时代会对普通人造成什么影响；

b.如何抓住AI带来的机遇开启小事业？

c.为你演示AI设计的多种使用场景和应用渠道。

同时，我们会通过实战案例。

让大家体验用AI工具完成变现，增加睡后收入：

a.为你讲解市面上最火的AI绘画工具的用法；

b.AI软件如何一分钟高效做出可变💰素材；

c.没有基础的小白，如何利用AI快速变💰？

现在就和我们一起走进AI，成为第一批驾驭AI的人！

No.3

AIGC：一站式持续成长方案

AI如同一个六边形战士，当你有一个绝妙点子，它能随时点亮技能树，用编程、写作、绘画等技能把你的想法落地：

✦ AI智能对话实训，打造AI高效办公助理

✦ AI绘画专项实训，让你的商业设计落地

✦ AI高阶部署实训，灵活定制个人AI需求

✦ AI商业变现实战，多开拓副业赚钱渠道

在「AI+」时代，

我们不妨在技术上开挂，

在作为人类的独有优势上加码，

做那个被AI解放的人！

用AI重塑你的核心竞争力！

即刻扫码预约

↓↓↓

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章