Redian新闻
>
吉他摇滚、电子音乐都能搞定,Meta开源音频生成新模型MAGNeT,非自回归7倍提速

吉他摇滚、电子音乐都能搞定,Meta开源音频生成新模型MAGNeT,非自回归7倍提速

公众号新闻

机器之心报道

机器之心编辑部

MAGNeT 有望改变我们体验音乐的方式。

在文本生成音频(或音乐)这个 AIGC 赛道,Meta 最近又有了新研究成果,而且开源了。



前几日,在论文《Masked Audio Generation using a Single Non-Autoregressive Transformer》中,Meta FAIR 团队、Kyutai 和希伯来大学推出了 MAGNeT,一种在掩码生成序列建模方法,可以直接在多个音频 tokens 流上直接运行。与以往工作最大的不同是,MAGNeT 是由单阶段、非自回归 transformer 生成音频。


  • 论文地址:https://arxiv.org/pdf/2401.04577.pdf
  • GitHub 地址:https://github.com/facebookresearch/audiocraft/blob/main/docs/MAGNET.md

具体来讲,在训练期间,研究者预测从掩码调度器获得的掩码 token 的范围;在模型推理阶段, 则通过几个解码步骤逐渐构建输出序列。为了进一步增强生成音频质量,他们提出一种新颖的重评分方法,利用外部预训练模型对来自 MAGNET 的预测进行重评分和排名,然后用于后续的解码步骤。

此外,研究者还探索了 MAGNET 的混合版本,融合自回归和非自回归模型,以自回归的方式生成前几秒,同时对剩余序列进行并行解码。

从生成结果来看,MAGNET 在文本到音频和文本到音乐任务上取得了非常不错的效果,质量媲美 SOTA 自回归基线模型的同时速度是它们的 7 倍。

大家可以听一下生成的音乐效果。


MAGNeT 方法概览

下图 1 为 MAGNeT 原理图,作为一个非自回归的音频生成掩码语言模型,它以条件语义表示为条件,在从 EnCodec 中获得的几个离散音频 token 流上运行。在建模策略上,研究者进行了包括掩码策略、受限上下文、采样机制和模型重评分等几个方面的核心建模修改。



首先来看掩码策略,研究者评估了 20ms 到 200ms 之间的各种跨度长度,并发现 60ms 跨度长度可以提供最佳的整体性能。他们从调度器中采样了掩码率 γ(i),并相应地计算了进行掩码的平均跨度量。此外从计算效率方面考虑,研究者还使用了非重叠跨度。

接着是受限上下文。研究者使用到了 EnCodec 并相应地限制了码本的上下文。具体来讲,音频编码器由多层卷积网络和最终的  LSTM 块组成。EnCodec 感受野的分析结果表明,卷积网络的感受野约为 160ms,而包含 LSTM 块的有效感受野约为 180ms。研究者使用随时间推移的平移脉冲函数并测量了序列中间编码向量的幅度,进而对模型的感受野进行了实证评估。

下图 3 为过程展示,不过 LSTM 尽管在理论上具有无限记忆,但实际观察来看是有限的。



最后是模态推理,包含采样和无分类器指导退火。采样如下公式(3)所示,使用均匀采样从先前一组掩码跨度中选择跨度。在实践中,研究者使用第 i 次迭代时的模型置信度作为评分函数,来对所有可能的跨度进行排序,并相应地选择最不可能进行掩码的跨度。



对于 token 预测,研究者选择使用无分类器指导来完成。在训练期间,他们有条件和无条件地对模型进行优化;在推理期间,他们从获得自条件和无条件概率的线性组合的一个分布中进行采样。

实验及结果

在实验环节,研究者在文本到音乐生成和文本到音频生成任务上对 MAGNeT 进行评估。他们使用了与 Copet et al. (2023) 所用完全相同的音乐生成训练数据,与 Kreuk et al. (2022a) 所用完全相同的音频生成训练数据。

下表 4 展示了用于训练 MAGNeT 以及其他基线方法(包括 MusicGen、MusicLM 和 AudioLDM2)的训练集细节。



下表 1 为 MAGNeT 在文本到音乐生成任务上与其他基线方法的比较结果,使用的评估数据集为 MusicCaps。我们可以看到,MAGNeT 的性能与使用自回归建模方法的 MusicGen 相当,但在生成速度(延迟)和解码两方面比后者快得多。



下图 2a 表明,与自回归基线模型(红色曲线)相比,非自回归模型(蓝色虚线)得益于并行解码在小批大小时表现尤为出色,单个生成样本的延迟低至 600ms,是自回归基线模型的 1/10。可以预见,MAGNeT 在需要低延迟预处理的交互式应用程序中应用潜力很大。此外在批大小达到 64 之前,非自回归模型生成速度都要比基线模型快。



下表 2 展示了跨度长度和受限上下文的消融实验。研究者报告了使用域内测试集时,MAGNeT 在不同跨度长度、有无时间受限上下文情况下的 FAD(Fréchet Audio Distance)分数。



更多技术细节和实验结果请参阅原论文。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
复刻Sora的通用视频生成能力,开源多智能体框架Mora来了外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生从20亿数据中学习物理世界,基于Transformer的通用世界模型成功挑战视频生成3D重建范式变革!最新模型MVDiffusion++:刷新视图合成和3D重建SOTA!第七期智能AI吉他音乐会 | 1月25日,线上听音乐抽万元奖池!《星级男人通鉴》第52章 福建人的媳妇Champ首发开源:人体视频生成新SOTA,5天斩获1k星,demo可玩最强开源多模态生成模型MM-Interleaved:首创特征同步器,刷新多项SOTA一句话让小姐姐为我换了N套衣服,谷歌卷出视频生成新高度,网友:竞赛加码最强开源多模态生成模型MM-Interleaved:首创特征同步器阿尔特曼称GPT-5提升超想象;库克在中国首谈生成式AI;字节推出视频生成新模型丨AIGC大事日报Suno v3音乐生成模型发布,几秒钟生成完整歌曲;富士通用生成式AI加速药物研发丨AIGC日报今日Arxiv最热NLP大模型论文:清华大学让大语言模型自动并行自回归解码,速度提升高达4倍!吉娃娃or松饼难题被解决!IDEA研究院新模型打通文本视觉Prompt,连黑客帝国的子弹都能数清楚双林奇案录第三部之鹤鼎莲方壶: 第二十四节走吧,乘着火车转南疆(上)AI早知道|百度推出视频生成模型UniVG;Soul APP上线自研语言大模型;清华大学首个大模型 Debug上海内推 | 上海人工智能实验室浦视开源体系团队招聘音频生成方向实习生文生视频下一站,Meta已经开始视频生视频了让人物动起来!南大/复旦/阿里提出Champ:人体视频生成新SOTA!3D重建范式变革!最新模型MVDiffusion++:无需相机姿态,即可实现高清3D模型重建Stability AI杀回来了:视频生成新Demo效果惊人,网友:一致性超群Meta清华校友推全新AI「视频生视频」方法!单张A100生成「男人秒变猩猩」大片AI早知道|Gemini推理能力强于GPT-3.5;美图AI视觉大模型将向公众开放;Meta推全新视频生成模型FlowVidMeta 新模型:如果我每14秒生成一个高清视频,好莱坞的各位要如何应对|「变压器」这个小家电用一次就停不下来,大扫除看不到的灰尘都能搞定丨开团谷歌发布视频生成大语言模型 VideoPoet开源音频编辑器 Audacity 的 AI 工具来了 | Linux 中国大规模视觉模型新突破!70亿参数!Apple新作AIM:自回归图像模型CVPR 2024 | 面部+肢体动画,一个框架搞定从音频生成数字人表情与动作两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源《细雨长歌》&《推开世界的门》千元成本搞定专业大模型,系统优化+开源大模型是关键 | 潞晨卞正达@MEET2024模型越大,性能越好?苹果自回归视觉模型AIM:没错从王局看日本居留的难度
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。