Redian新闻
>
爵士乐、放克钢琴曲,Stable Diffusion玩转跨界、实时生成音乐

爵士乐、放克钢琴曲,Stable Diffusion玩转跨界、实时生成音乐

公众号新闻

机器之心报道

编辑:袁铭怿、杜伟
除了生成图像,Stable Diffusion玩音乐也不在话下。
你听说过 Stable Diffusion 吧?它是一个从文本生成图像的开源人工智能模型,可以生成「骑马的宇航员」。


现在,Stable Diffusion 模型经过调试可以生成声谱图了,如下动图中的放克低音与爵士萨克斯独奏。


更神奇的是,这个声谱图可以转换成音频片段。


这就是今天要介绍的 Riffusion 模型,它是由 Seth Forsgren 和 Hayk Martiros 出于个人爱好而创建一个 app 项目,通过 Stable Diffusion 实现实时音乐生成。


项目地址:https://github.com/riffusion/riffusion-app

具体而言,1.5 版本的 Stable Diffusion 模型对与文本配对的声谱图进行了微调。音频处理发生在模型的下游。

声谱图 

音频声谱图以可视的形式将声音片段的频率内容表现出来,其中 x 轴表示时间,y 轴表示频率。每个像素的颜色显示了音频在给定频率和时间上的振幅。


我们可以使用短时傅里叶变换(STFT)从音频中计算声谱图,它将音频近似为不同幅度和相位的正弦波组合。


STFT 是可逆的,因此可以从声谱图中重建原始音频。然而,Riffusion 模型得到的声谱图只包含正弦波的振幅,而不包含相位,这是因为相位是混乱的,很难学习。相反在重建音频片段时,我们使用 Griffin-Lim 算法来近似相位。

声谱图中的频率区间使用 Mel 尺度,这是一个音高知觉尺度,由听众判断彼此之间的距离是否相等。

下图是一个解释为声谱图并转换为音频的手绘图像。回放可以直观地了解它们是如何运作的。请注意听下半部分两条曲线的音高,以及顶部四条垂直线如何发出类似于 hi-hat 音的节拍。



我们使用了 Torchaudio,好处在于它有优秀的模块可以在 GPU 上高效地进行音频处理。

图像到图像

使用 diffusion 模型不仅可以将创作条件设置为文本 prompt,还可以设置为其他图像。这对于修正声音的同时保留你喜欢的原始片段的结构非常有用。用户可以使用去噪强度参数控制与原始片段的偏离程度,并向新的 prompt 方向倾斜。

例如,下图为放克萨克斯管的即兴重复片段,然后修改一下,把钢琴音量调高。

放克低音和爵士萨克斯独奏。


放克钢琴曲。

                                                                                  
下例将摇滚独奏改编为民谣小提琴。

摇滚电吉他独奏


原声民间小提琴独奏。


循环和插值

生成短片段固然很有趣,但无限的 AI 生成片段才是我们真正想要的。

假设放入一个 prompt 并生成 100 个具有不同 seed 的片段。我们无法将结果片段连接起来,因为它们有不同的音调、节奏和强拍。

因此,我们的策略是选择一个初始图像,并通过使用不同的 seed 和 prompt 运行图像到图像的生成,并生成该初始图像的变体。这将保留片段的关键属性。为了使它们可循环,我们还创建了具有精确测量数值的初始图像。


然而,即使使用这种方法,片段之间的过渡仍然很突兀。对于具有相同整体结构的同一 prompt 的多种解释,仍然可以在它们的氛围和旋律主题上呈现很大不同。

为了解决这个问题,我们在模型潜在空间中的 prompt 和 seed 之间平滑地进行插值。在 diffusion 模型中,潜在空间是一个特征向量,它嵌入了模型可以生成的整个可能空间。彼此相似的项目在潜在空间中是接近的,并且潜在空间的每个数值都解码为可行的输出。

关键在于,我们可以对带有两种不同 seed 的 prompt 之间的潜在空间进行采样,也可以对带有相同 seed 的两个不同 prompt 进行采样。下面是一个可视化模型示例:


我们的模型可以用来做同样的事,它往往产生光滑的过渡,即使在完全不同的 prompt 之间。这比插入原始音频有趣得多,因为在潜在空间中,所有中间点听起来仍然像合理的片段。

下图是彩色的,以显示相同 prompt 的两个 seed 之间的潜在空间插值。播放这个序列要比只播放两个端点流畅得多。插入片段往往是多样化的,有自己的即兴重复片段和主题。


下面是我们最喜欢的一个,从敲击到爵士乐的 20 步插值。


还有一个是从教堂钟声到电子节拍。


最后是阿拉伯福音的插值,这一次两个 seed 之间有相同的 prompt。


交互式 Web 应用程序

交互式 web 应用程序可以将所有的这些整合在一起,也可以输入 prompt 并无限实时生成插值内容,同时以 3D 方式可视化声谱图时间轴。

当用户输入新的 prompt 时,音频平滑地过渡到新的 prompt。如果没有新的 prompt,应用程序将在同一 prompt 的不同种子之间插入。声谱图被可视化为遵循半透明播放头时间轴的 3D 高度图。


该应用程序是使用 Next.js、React、Typescript、three.js、Tailwind 和 Vercel 构建的,通过 API 进行通信,以在 GPU 服务器上运行推理调用。我们使用 Truss 打包模型并在本地进行测试,然后部署到 Baseten,它提供了 GPU 推理、自动缩放和可观察性。我们在生产中使用了 NVIDIA A10G。

如果你的 GPU 足够强大,可以在五秒内生成 stable diffusion 结果。你可以使用我们的测试烧瓶服务器在本地运行体验。

更多详细内容请参阅原文。

原文链接:https://www.riffusion.com/about

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
谷歌发布从文本生成音乐的AI作曲系统,但暂不计划发布英伟达超快StyleGAN回归,比Stable Diffusion快30多倍,网友:GAN好像只剩下快了限时预约火热开启!爵士乐俱乐部等待加入你的小镇推理速度比Stable Diffusion快2倍,生成、修复图像谷歌一个模型搞定,实现新SOTA启功:有此楼兰神物,王羲之就不再神秘了AIGC落地门槛被打下来了:硬件预算一口气降至1/46,低成本上手Stable Diffusion2.0,一行代码自动并行拒绝白嫖!Stable Diffusion新版:画师可自主选择作品是否加入训练集告诉Stable Diffusion 2.0你不想要什么,生成效果更好:Negative Prompt显奇效意大利钢琴王子与爵士女歌姬的绝世音乐会PS上的开源Stable Diffusion插件来了:一键AI脑补,即装即用Stable Diffusion再迎重磅更新!2.0版「涩图」功能被砍,网友狂打差评Transformer再胜Diffusion!谷歌发布新一代文本-图像生成模型Muse:生成效率提升十倍2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推意大利钢琴家与爵士女歌姬的绝世音乐会18秒完成渲染!苹果Core ML官宣深度支持Stable Diffusion 2.0虎年最牛爵士乐封箱演出,属兔的这次一定要来!FastTrack Universität 2023莱比锡大学公立语言项目招生简章帝都最顶级的爵士乐在地下上演芭蕾背后的故事Stable Diffusion的魅力:苹果亲自下场优化,iPad、Mac上快速出图Stable Diffusion、DreamFusion、Make-A-Video、Imagen Video 和下一步帝都绝对不容错过的顶级爵士乐演出否定狭义相对论给年轻学子们带来的好处。。。。把生活过成爵士乐,即兴而行每日原则:出色的合作如同爵士乐演奏【爱在深秋】--抢跑 《读你》3D暴龙模型塞进侏罗纪公园只需一部手机,拍摄角度360°可选,Stable Diffusion又被玩出新花样AI读脑炸裂!扫描大脑画面,Stable Diffusion逼真复现图像Jay Alammar再发新作:超高质量图解Stable Diffusion,看完彻底搞懂「图像生成」原理Stable Diffusion 2.1版本发布,涩图功能回来了?加特技只需一句话or一张图,Stable Diffusion的公司把AIGC玩出了新花样输入文字生成音乐,这个音乐版Stable Diffusion火了,网友:电子音乐界要被冲击了 | 在线可玩圣诞 北京|地下顶级爵士乐热红酒派对新年伊始,新加坡思想界、知识界、社会出现新气象12月1日,细颈瓶有大动作
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。