Redian新闻
>
几句话就能写歌,还能模拟各种音效,Meta发布开源AI工具AudioCraft

几句话就能写歌,还能模拟各种音效,Meta发布开源AI工具AudioCraft

公众号新闻

“AI孙燕姿”不再遥远?
编译 |  周炎
编辑 |  云鹏
智东西8月3日消息,今天,Meta发布了一款开源AI工具AudioCraft,该工具可以帮助用户根据文本提示创作音乐和音频。
Meta称,这款开源AI工具综合使用了AudioGen、EnCodec和MusicGen等大模型,不仅可以生成各种模拟音频效果,还能减少音损。用户使用该AI工具,可在输入文本内容后,生成高质量、逼真的音频和音乐。
目前来看,由于生成任何类型高保真度的音频都需要对不同尺度的复杂信号和模型进行建模,音乐在某种程度被看作是最具挑战性的音频类型。Meta通过自我监督音频表示学习的方式(self-supervised audio representation learning)以及许多分层或级联模型(hierarchical or cascaded models)来生成音乐,这样将原始音频输入到系统中,就可捕获信号中的远程结构(long-range structures),同时生成音频。
与此前的AI工具相比,AudioCraft背后的模型经过授权音乐库的训练,避免了版权风险;其次,由于接受公共音效训练,它可以生成包括狗叫、脚步声在内的各种模拟音效;最后它简化了音频生成模型的整体设计,同时开源的形式也有助于其他人开发自己音乐模型。但目前来看,AudioCraft仍然代替不了人类生成复杂且优秀的音乐作品。

01.
经2万小时授权音乐训练,
压缩文件大小比MP3格式小10倍


从目前Meta的介绍来看,Audiocraft背后使用三种模型中,MusicGen接受过Meta拥有的和特别授权的音乐库进行训练,可以从文本提示生成音乐。
今年6月初,这个名为MusicGen的开源AI模型由Meta推出。据悉,这是一种深度学习语言模型。它接受了2万小时的音乐训其中包括大约40万个录音、文本描述及元数据等。

▲AI模型MusicGen背后的论文基础,来源:Meta AI博客

此外,另一款模型AudioGen接受过公共音效训练,可从文本提示生成音频,比如模拟狗叫或脚步声。从Meta的介绍来看,AudioGen是一个来自Meta和耶路撒冷希伯来大学的研究团队的AI模型,可以通过输入文本来生成音频,亦可以扩展现有音频。AudioGen可以区分不同的声音对象,并在声学上将它们分开。

▲Meta展示AudioGen文本转音频效果,来源:Meta AI博客

最后要说的就是EnCodec编解码器,此前,由于需要对原始音频信号中极长的序列进行建模,原始信号生成音频对研究人员来说存在巨大挑战。以一个几分钟的音乐曲目为例,它在通过44.1Hz的标准质量采样后,会形成数百万个时间步(timesteps)。
相比之下,在Llama和Llama 2等大模型的加持下,用户输入的文本可被处理为子词(sub-words),这样每个样本仅会产生几千个时间步。
因此,Meta团队使用基于深度学习的音频编解码器(neural audio codec)EnCodec,该编码器由AI驱动,可以从原始信号中学习离散音频标记(autoregressive language models)从而为研究人员提供了音乐样本的新固定的“词汇”(vocabulary)。研究人员可以在这些离散的音频标记上训练自回归语言模型,最后,研究人员可使用EnCodec的解码器将标记转回音频空间时生成的新标记及新音乐。

▲编解码EnCodec背后的论文基础,来源:Meta AI博客

据悉,EnCodec可以在音频质量没有损失的前提下,将音频压缩到比MP3格式还要小10倍的程度。这主要得益于EnCodec中带有残差矢量量化瓶颈(residual vector quantization bottleneck),该瓶颈可以生成多个具有固定词汇的并行音频标记流,由于不同的标记流可以捕获不同级别的音频波形信息(audio waveform),所以研究人员可从所有音频流中重建高保真度的音频。

02.
推动模型开源,
AudioCraft生成复杂音乐仍存困难


Meta在公告中还演示了MusicGen和AudioGen工作的流程图,并表示将让这些模型开源,让研究人员和从业人员可以用自己的数据集训练适合自己的模型,并帮助推进人工智能生成音频和音乐领域的发展。

▲MusicGen和AudioGen工作的流程图,来源:Meta AI博客

与其他音乐模型相比,AudioCraft系列模型不仅能够生成长期一致的高质量音乐和音频,还简化了音频生成模型的整体设计,使得该工具简单易用。Meta认为,MusicGen可以变成一种新型的乐器,就像最初出现的合成器一样。
当然,Meta也指出,使用AudioCraft创作复杂而又优秀的音乐还是比较困难的,因此它选择将AudioCraft开源,以使用于训练它的数据多样化。
今年早些时候,谷歌也发布了名为MusicLM的音乐生成模型,并于5月向用户开放。今天,Google Labs还在官网中介绍了知名音乐家Dan Deacon正在使用该模型创作音乐。除此之外,目前比较常见的音乐模型还有Riffusion、Mousai和Noise2Music等。

03.
结语:巨头“押注”音乐大模型,
音乐创作或受到影响


从目前的公告信息来看,AudioCraft不仅可以根据用户的文本提示生成音乐,还可以对音频进行无损压缩。同时开源的形式也有助于更多人参与相关音乐模型的构建,从推动更高质量的音乐创作的生成。
随着,Meta和谷歌两大巨头“押注”音乐大模型,音乐的创作或受到生成式AI影响。但正如Meta所指出的,生成式AI生成复杂的音乐还有很长的路要走。

(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
什么是富丽堂皇:圣家族大教堂为陈奕迅、王菲写歌,抗癌十年的才女,写尽了人生GitHub 1.1万星,模拟软件开发流程,开源框架MetaGPT爆火可口可乐联名无线蓝牙小音响!炫酷超重低音效,不到百元入!一个开源库搞定各类文本到音频生成,Meta发布AudioCraft身在天涯 心在守望如果你要边听音乐边学习,那一定要避开这种音乐一份新报告称Meta将GPT-4作为其下一个人工智能模型的标杆武汉AI方案出台六大计划;360讯飞WPS大模型面向全民开放;阿里云发布开源LLM开发框架​​李嘉诚将投资千亿在欧洲建5G网络;王小川发布开源中英文大模型;​钟薛高回应21家分公司全部注销;故宫禁止未经允许进行商业拍摄北京/杭州内推 | 阿里达摩院OCR团队招聘OCR/文档理解算法实习生炸裂视频100%由AI生成,一句话就能制作超萌猫片EAST、PixelLink、TextBoxes++、DBNet、CRNN…你都掌握了吗?一文总结OCR必备经典模型(二)Meta音频AI三件套爆火:一句话生成流行音乐&音效,还能高保真压缩音频|开源百川智能发布开源中英文大模型,多个榜单评测成绩最佳AI能写高考满分作文,而我只能写零分作文浙江大学发布开源大模型知识编辑工具EasyEdit,效果超越传统微调方法学术党狂喜,Meta推出OCR神器,PDF、数学公式都能转微软赢麻了!联合Meta 重磅发布开源、可直接商用大模型Llama 2,网友:OpenAI 感觉如何?原来,那是上天的一滴泪!三档音综开播,Meta再发AI音乐工具,2%超级听众贡献超18%播放量芍药牡丹,富丽堂皇要闻丨英国签证费涨价即将生效,加拿大宣布开放团聚移民,泰国宣布对中国游客免签5个月「三句话名校梗」读懂梦校3句话就够?ChatGPT能语音聊天和看图了!五种音色选项,背后模型细节公开多LLM协同作战!清华等开源多智能体框架AgentVerse:合作打造Minecraft物品,还能训练宝可梦CTPN、TextBoxes、SegLink、RRPN、FTSN、DMPNet…你都掌握了吗?一文总结OCR必备经典模型(一)微软发布基于LLM的代码生成神器,动动嘴就能写代码!52岁知名音乐人去世,曾为林忆莲、陈奕迅等写歌,《至少还有你》等经典出自他手…杨立昆:生成式AI还不如狗聪明;谷歌建议员工不要将机密内容输入Bard;王小川公司发布开源大模型| AI一周资讯每周硅闻 | 突发!新员工薪资整体缩水;又有巨头宣布大裁员;Meta发布人工智能模型!知道员工所有秘密,Meta版AI聊天机器人来了:使用公司内部数据训练,能写代码、调试,还能总结会议Meta为什么要发布开源Llama 2大模型;2027上市,Meta AR眼镜放弃MicroLED技术踩过垮脸馒化各种坑后,王心凌最新视频我看完只能写下一个服!玻璃缸里的孙凤 (16)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。