Redian新闻
>
输入文字生成音乐,这个音乐版Stable Diffusion火了,网友:电子音乐界要被冲击了 | 在线可玩

输入文字生成音乐,这个音乐版Stable Diffusion火了,网友:电子音乐界要被冲击了 | 在线可玩

公众号新闻
鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

Stable Diffusion被两位普林斯顿校友玩出花儿来了。

这是一张Stable Diffusion生成的图片:

先别着急说“丑”,仔细看,其实这是一份频谱图

还是真的能转换成一段音乐的那种!

并且两位作者还表示:

只是对Stable Diffusion的1.5版本进行了微调。

这个会创作音乐的Stable Diffusion名叫Riffusion(riff+Diffusion),现在打开网页就能玩。

输入提示词,即可获得一段对应的音乐。比如,输入“民谣,女声引入,过渡到青少年流行歌星”。

生成的音乐是酱婶的:

这么一个音乐版Stable Diffusion,上线后立即引来不少网友围观。

连作者自己都赶紧抛出来说:试不上别着急,等我们扩充下GPU。

而有网友已经开始为电子音乐从业者们担心了:

它会像核弹一样冲击电子音乐。

那么问题来了——

Riffusion怎么做到的?

就像开头说到的,作者表示,他们没对Stable Diffusion v1.5做任何修改。

只是用与文本配对的频谱图数据,对模型进行了微调。

这样一来,Riffusion就能根据提示词,生成对应的频谱图了。

这里需要补充的背景知识是,利用短时傅里叶变换(STFT),我们可以从音频中计算出频谱图。而短时傅里叶变换是可逆的,所以根据频谱图,我们也可以重建出一段音频。

不过,作者提到,因为相位具有混沌性,模型学起来比较困难。所以Riffusion生成的频谱图像,其实只有正弦波的振幅,而不包含相位。

实际在重建音频剪辑时,作者们是采用Griffin-Lim算法来近似相位的。

值得一提的是,就像Stable Diffusion能根据文字提示P图,Riffusion也能够依照文本指示,修改音乐的细节。

比如把开头那段萨克斯即兴重复段(也就是riff)

改成钢琴版:

丝滑过渡

看到这里你可能会觉得,Riffusion生成的riff有点短啊。

但其实,Riffusion也有一些时长更长的作品。关键是怎么把不同的音乐片段串联起来。

比如先来一段rap,再自然过渡到爵士乐:

作者们采用的策略,是先选取一个初始频谱图,然后通过改变种子和提示词,去不断修改这张图,使其产生新的变化。

而为了使整段音乐更加和谐统一,作者们还在模型的隐空间内进行了插值。

具体而言,可以对具有两个不同种子的提示的隐空间进行采样,也可以对具有相同种子的两个不同提示的隐空间进行采样。

关于作者

如果你对Riffusion感兴趣,戳进文末链接就可以直接体验起来了~

最后的最后,还得提一嘴,Riffusion其实是个“业余项目”。

它的作者是两位普林斯顿校友。

其中,Seth Forsgren本科在普林斯顿学生物,毕业后搞了不少软件创业项目,今年刚把一个能把手机变成对讲机的项目卖掉。

而Hayk Martiros则是美国无人机独角兽Skydio的技术专家,同样在普林斯顿本科毕业,后来在斯坦福读完了研究生。

在线试玩:
https://www.riffusion.com/?&prompt=jack+johnson+vocals

参考链接:
https://www.riffusion.com/about

「人工智能」、「智能汽车」微信社群邀你加入!

欢迎关注人工智能、智能汽车的小伙伴们加入我们,与AI从业者交流、切磋,不错过最新行业发展&技术进展。

PS. 加好友请务必备注您的姓名-公司-职位哦 ~


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
咖啡乳酪蛋糕(Coffee Cheese Cake)Stable Diffusion团队开撕!“背后公司”刚成独角兽,最新版本遭原作者抢发:这是我们的特斯拉前AI主管出手,Stable Diffusion使用体验拉上一个台阶,还可白嫖算力新晋独角兽陷纠纷!「AI艺术大师」stable diffusion到底归谁所有?Stable Diffusion新玩法,一句话帮你换图,网友魔改《戴珍珠耳环的少女》长这样首个中文Stable Diffusion模型开源,IDEA研究院封神榜团队开启中文AI艺术时代Stable Diffusion背后的故事:独辟蹊径,开源和社区驱动的AI独角兽 | 创始人专访「最牛AI艺术家」Stable Diffusion有多值钱?种子轮融资即晋升独角兽!文件更小,质量更高,大火的Stable Diffusion还能压缩图像?Transformer再胜Diffusion!谷歌发布新一代文本-图像生成模型Muse:生成效率提升十倍川普不是分裂美国的罪魁祸首全面发展数字生态的第一步:解决开发者的问题,共建数字生态 | Q推荐1.01亿美元融资,Stable Diffusion背后的公司两年迅速成长为AI内容生成独角兽英伟达超快StyleGAN回归,比Stable Diffusion快30多倍,网友:GAN好像只剩下快了爵士乐、放克钢琴曲,Stable Diffusion玩转跨界、实时生成音乐ChatGPT与搜索引擎合体,谷歌都不香了,LeCun转发|在线可玩学习语言,成人的困惑与儿童的困惑Stable Diffusion再迎重磅更新!2.0版「涩图」功能被砍,网友狂打差评2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推生成式 AI 火了,Stable Diffusion 幕后开发公司 Stability AI 宣布获得 1 亿美元融资四通桥、海瑞上书和《大明王朝1566》AIGC基于文本生成音乐,现在压力来到配乐行业这边|Github告诉Stable Diffusion 2.0你不想要什么,生成效果更好:Negative Prompt显奇效Jay Alammar再发新作:超高质量图解Stable Diffusion,看完彻底搞懂「图像生成」原理1.01亿美元融资,为Stable Diffusion捐赠算力的公司两年成为独角兽Stable Diffusion背后公司再融1亿美金,网友:资本的盛宴,艺术家却分不到一杯羹?谷歌发布从文本生成音乐的AI作曲系统,但暂不计划发布Stable Diffusion被起诉!结果人类律师水平拉胯,网友:还不如ChatGPT帮他写Stable Diffusion、DreamFusion、Make-A-Video、Imagen Video 和下一步赛博仓颉,在线造字!Stable Diffusion:没人比我更懂汉字从神救世人普渡众生到为了人民Word文档怎么实现在任意位置输入文字?StableDiffusion嵌入现实世界,能在墙上直接长出小猫咪,手机可玩网友白嫖画师原作训练Stable Diffusion引正主不满:未经同意,说用就用?推理速度比Stable Diffusion快2倍,生成、修复图像谷歌一个模型搞定,实现新SOTA
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。