Redian新闻
>
Meta音频AI三件套爆火:一句话生成流行音乐&音效,还能高保真压缩音频|开源

Meta音频AI三件套爆火:一句话生成流行音乐&音效,还能高保真压缩音频|开源

公众号新闻
萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

Meta突然放大招,直接给一系列音频AI模型搞了个“全家桶”。

从文本生成音乐、文本生成音效、到高质量音频压缩,音频编辑音频生成的AI工具全都有,命名为AudioCraft

AudioCraft中的所有模型,全部开源

无论是生成流行音乐:

还是生成音效:

现在都只需要一句文本就能搞定。

值得一提的是,Meta刻意强调自己所有AI的训练数据都是经过授权、或是从公开渠道获取的。

有网友闻讯赶来尝试:

这太疯狂了,刚刚试了一下,生成的声音效果真不错!

还有网友调侃,Meta这是要与OpenAI“划界限”:

很明显,Meta试图将自己与OpenAI区分开来,“我们不使用没授权的数据”

所以,这个音频AI“全家桶”里有些啥,实际生成编辑效果又如何?

从生成到编辑,音频AI三件套

AudioCraft是一个音频AI开源库,目前包含MusicGen,AudioGen和EnCodec三个音频AI工具。

据Meta介绍,为了发布AudioCraft,他们这两天还特意更新了一版EnCodec模型,让它的输出质量更高。

具体来说,这三个模型分别用于文本生成音乐、文本生成音效和音频压缩:

  • MusicGen:基于文本输入生成音乐,使用Meta拥有和专门授权的音乐进行训练

  • AudioGen:基于文本输入生成音效(雨点声、狗吠、警笛等),使用公共音效训练

  • EnCodec:压缩音频,以较低的音损保持音频的高质量

首先是AudioGen,这是一个自回归生成模型。

AudioGen基于10个公开的音效数据集训练,里面包括狗吠、汽车鸣喇叭或木地板的脚步声等各种音效。

然后是MusicGen模型,一共包含300M、1.5B、3.3B三个不同参数量的自回归Transformer。

MusicGen使用了20000小时的音乐来训练,包含10000条内部搜集的高质量音轨,以及ShutterStock和Pond5素材库中的数据,后两者的数据量分别为2.5万和36.5万。

这些音乐数据在32kHz下被重新采样,都配有流派、BPM等基本信息和复杂一些的文字说明。

最后是EnCodec神经音频编解码器(neural audio codec)

编码器能从要压缩的音频信号中学习离散的音频token;随后,基于一个自回归语言模型,将音频信号压缩到目标大小;最后,基于解码器,就能将压缩的信号高保真重建回音频。

基于这种压缩效果,音频能被压缩到比MP3格式还要小10倍。

可直接上手试玩

目前这几个模型都已经开源,框架都是基于PyTorch打造。

包括MusicGen、AudioGen和EnCodec的论文细节,可以在GitHub项目中找到:

不过,训练代码并非全部开源,目前可以看到只有EnCodec、MusicGEN和Multi Band Diffusion是开源的:

其中MusicGEN还开启了Demo试玩,我们之前也测试过

不过对于AudioCraft的发布,网友们的评价也是褒贬不一。

有网友觉得,这样音频生成就变得更加大众化了,所有人都可以上手尝试:

但也有网友认为,这势必导致人类连音频的真假都区分不清:

10年后,说不定我们就分辨不清过去的声音、图片、视频了。

One More Thing

最近,音频生成AI确实很,就连效果都卷起来了。

这两天,一个论文和代码都还在准备的模型AudioLDM2,刚放出demo就已经在网上传开了来:

作者Haohe Liu表示,这个模型在生成音效、音乐和可理解语音三个领域中均达到了SOTA

从它实际生成效果来看,确实不错:

感兴趣的小伙伴们,可以蹲一波后续了~

MusicGEN试玩地址:
https://huggingface.co/spaces/facebook/MusicGen

参考链接:
[1]https://ai.meta.com/blog/audiocraft-musicgen-audiogen-encodec-generative-ai-audio/
[2]https://github.com/facebookresearch/audiocraft
[3]https://twitter.com/LiuHaohe/status/1686782804518973440
[4]https://news.ycombinator.com/item?id=36972347

报名开启!8月9日

欢迎参加「AIGC时代的算力基石」

8月9日15:00量子位行业沙龙「AIGC时代的算力基石」将为你全景解读AIGC算力的发展机遇,邀请到来自昆仑芯、天数智芯、联想集团、首都在线、潞晨科技等代表性企业的嘉宾,聊聊行业的最新趋势!

点击“阅读原文”,报名线下参与AIGC算力沙龙吧 


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
三句话生成CPU!中科院ChipGPT攻克AI芯片设计?代码量减少近10倍《My Love》 by 豆&豆 周末愉快!《原神》冰箱贴:神子&宵宫&申鹤&甘雨&刻晴&优菈&莫娜7位角色!AI越来越神:7人团队开发,一句话生成3D游戏的MoonlanderAI是啥澳洲爆火跨年音乐节Beyond the Valley回归!超豪华音乐阵容+摩天轮+泳池派对!不仅能蹦迪还能野营!夏日几句话就能写歌,还能模拟各种音效,Meta发布开源AI工具AudioCraft无序的蛋白更高效,MIT团队揭示光合作用中光能高效传导机制《一路风景视频版Midjourney又进化了:一句话生成视频,谷歌注资,网友大呼好莱坞已死![超赞]大温小姐姐大秀网红单品走红~都注意了 今夏这么穿搭成流行爆款!夏日病毒羔羊第五章—— 上學了SolidUI:一句话生成任何图形,版本0.2.0功能介绍原创丨《罗刹海市》火到世界,刀郎将中国流行音乐向前推了半个世纪!流行音乐这么玩,这太要人命了!科颜氏全场7-7.5折+满送193元5件套大礼包+2正装!入超值装、高保湿面霜!开源打败闭源?Meta即将推出开源代码生成平台Code Llama,剑指OpenAI Codex刀郎新歌爆火,我看到了中国流行音乐的苍白衰老一个开源库搞定各类文本到音频生成,Meta发布AudioCraft2023回国 人挤人的古镇的小吃(图)一句话生成3D游戏世界!9人开发、AIGC支撑的Roleverse是啥?国内首个视频垂直大模型发布!一句话生成科幻大片预告,人人可玩可口可乐联名无线蓝牙小音响!炫酷超重低音效,不到百元入!真实时、强细节、高保真:更强大的视频重建算法,性能明显提升数字文艺复兴来了:英伟达造出「AI版」米开朗基罗,实现高保真3D重建写在星期一美国流行音乐家托尼·贝内特纽约逝世,享年96岁7 Papers & Radios | LeCun世界模型首次尝试;Meta开源文本音乐生成模型并非Meta开发!名为MetaGPT的AI模型近日开源牙疼&心疼开源打败闭源?Meta 即将推出开源代码生成平台 Code Llama,剑指 OpenAI Codex李云龙、谢耳朵专业陪聊!角色扮演系统ChatHaruhi爆火:支持32个中外角色,开源5.4万条对话数据🔴🟢🟡求分享做酱肉包的馅的方法&分享个苹果手机功能以表感谢。AVS感知无损压缩标准概述——视觉无损质量等级视频浅压缩Holiday Special 七月上 望七月 ~~ poem & song by 盈盈 & AP名利场||美国最赚钱的流行音乐天后,是怎么炼成的?华为盘古大模型3.0正式发布!一句对话生成代码,还能解决世界难题...H Mart本周优惠 | 必买推荐: 牛轧糖冰棒8根装只要$4.99; H Mart入驻Spotify为您分享热门韩国流行音乐H Mart本周优惠 | 橄榄油烤海苔买一送一只要$5.99; H Mart入驻Spotify为您分享热门韩国流行音乐Meta开源文本生成音乐大模型,我们用《七里香》歌词试了下
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。