Redian新闻
>
一个开源库搞定各类文本到音频生成,Meta发布AudioCraft

一个开源库搞定各类文本到音频生成,Meta发布AudioCraft

公众号新闻

机器之心报道

机器之心编辑部


近来,Meta 发布并开源了多个 AI 模型,例如 Llama 系列模型、分割一切的 SAM 模型。这些模型推动了开源社区的研究进展。现在,Meta 又开源了一个能够生成各种音频的 PyTorch 库 ——AudioCraft,并公开了其技术细节。



  • 代码地址:https://github.com/facebookresearch/audiocraft

  • 项目主页:https://audiocraft.metademolab.com/?utm_source=twitter&utm_medium=organic_social&utm_campaign=audiocraft&utm_content=card


AudioCraft 能够基于用户输入的文本生成高质量、高保真的音频。我们先来听一下生成效果。


AudioCraft 可以生成一些现实场景中的声音,例如输入文本 prompt:「Whistling with wind blowing(风呼啸而过)」



还能生成有旋律的音乐,例如输入文本 prompt:「Pop dance track with catchy melodies, tropical percussions, and upbeat rhythms, perfect for the beach(流行舞曲,具有朗朗上口的旋律、热带打击乐和欢快的节奏,非常适合海滩)」



甚至还可以选择具体的乐器,生成特定的音乐,例如输入文本输入文本 prompt:「Earthy tones, environmentally conscious, ukulele-infused, harmonic, breezy, easygoing, organic instrumentation, gentle grooves(朴实的曲调,环保理念,尤克里里,和声,轻松,随和,有机乐器,柔和的节奏)」



AudioCraft 简介


相比于文本、图像,音频生成是更具挑战性的,因为生成高保真音频需要对复杂的信号和模式进行建模。


为了高质量地生成各类音频,AudioCraft 包含三个模型:MusicGen、AudioGen 和 EnCodec。其中,MusicGen 使用 Meta 具有版权的音乐数据进行训练,基于用户输入的文本生成音乐;AudioGen 使用公共音效数据进行训练,基于用户输入的文本生成音频;EnCodec 用于压缩音频并以高保真度重建原始信号,保证生成的音乐是高质量的。


从原始音频信号生成音频需要对极长的序列进行建模。例如,以 44.1 kHz 采样的几分钟音乐曲目由数百万个时间步(timestep)组成。相比之下,Llama 和 Llama 2 等基于文本的生成模型是将文本处理成子词,每个样本仅需要几千个时间步。


MusicGen 是专门为音乐生成量身定制的音频生成模型。音乐曲目比环境声音更复杂,在创建新的音乐作品时,在长程(long-term)结构上生成连贯的样本非常重要。MusicGen 在大约 400000 个录音以及文本描述和元数据上进行训练,总计 20000 小时的音乐。


AudioGen 模型可以生成环境声音及声效,例如狗叫声、汽车喇叭声或脚步声。


AudioGen 模型架构。

EnCodec 神经音频编解码器从原始信号中学习离散音频 token,这相当于给音乐样本提供了新的固定「词汇」;然后研究团队又在这些离散的音频 token 上训练自回归语言模型,以在使用 EnCodec 的解码器将 token 转换回音频空间时生成新的 token、声音和音乐。


总的来说,AudioCraft 简化了音频生成模型的整体设计。MusicGen 和 AudioGen 均由单个自回归语言模型组成,并在压缩的离散音乐表征流(即 token)上运行。AudioCraft让用户可以使用不同类型的条件模型来控制生成,例如使用预训练的文本编码器完成文本到音频生成。


参考链接:https://ai.meta.com/blog/audiocraft-musicgen-audiogen-encodec-generative-ai-audio/


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
电影预告一键生成,Midjourney+Gen-2生成视频刷屏了Meta音频AI三件套爆火:一句话生成流行音乐&音效,还能高保真压缩音频|开源北京/杭州内推 | 阿里达摩院OCR团队招聘OCR/文档理解算法实习生黄觉与女星手牵手走红毯惹争议,曾在节目表白小14岁妻子错过等明年!搞定各大英语考试语法的“刷题神器”利用进化扩散进行蛋白生成,微软开源新型蛋白质生成AI框架EvoDiff家有多娃的烦恼基于扩散模型的音频驱动说话人生成,云从&上交数字人研究入选ICASSP 2023美国孩子都在用,搞定各大英语考试语法的“刷题神器” ,明天截团!Meta开源文本生成音乐大模型,我们用《七里香》歌词试了下又走了一位老海归-陆元九今年最后一次开团!搞定各大英语考试语法的“刷题神器” ,错过等明年时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了错过等明年!搞定各大英语考试语法的“刷题神器” ,今年最后1团每个人都有失去理智的时候7 Papers & Radios | LeCun世界模型首次尝试;Meta开源文本音乐生成模型错过等明年!搞定各大英语考试语法的“刷题神器” ,本周截团Meta发布首个开源可商用LLM,硬刚OpenAI和谷歌两大巨头给大模型生成文本发身份证:针对大模型生成文本的可编码水印技术今年最后一次上车机会!搞定各大英语考试语法的“刷题神器” ,错过等明年错过等明年!搞定各大英语考试语法的“刷题神器” ,好价开团中“AI孙燕姿”爆火后,Meta发布通用语音生成AI:可合成6种语言,支持多种语音功能【专题速递】音频生成、TTS和AIGC在音乐上的运用学术党狂喜,Meta推出OCR神器,PDF、数学公式都能转美国孩子都在用,搞定各大英语考试语法的“刷题神器” ,后天截团!开源打败闭源?Meta 即将推出开源代码生成平台 Code Llama,剑指 OpenAI CodexMeta为什么要发布开源Llama 2大模型;2027上市,Meta AR眼镜放弃MicroLED技术30分钟音频当数据,任何音色零门槛生成,产品免费体验阿里大模型VideoComposer火了!时间、空间可控的视频生成走进现实几句话就能写歌,还能模拟各种音效,Meta发布开源AI工具AudioCraft闲话人生(236)老同学对话“老之将至”长文本信息准确率超过ChatGPT,Meta提出降低大模型幻觉新方法开源打败闭源?Meta即将推出开源代码生成平台Code Llama,剑指OpenAI Codex超实用的英语口语600句,跟着音频反复跟读,你也能说一口流利英语!(文本+音频)【医学考试】究竟要做多少题,才能搞定各种考试?(文末有福利)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。