Redian新闻
>
大模型学会听音乐了!风格乐器精准分析,还能剪辑合成

大模型学会听音乐了!风格乐器精准分析,还能剪辑合成

公众号新闻
腾讯PCG ARC实验室 投稿
量子位 | 公众号 QbitAI

能处理音乐的多模态大模型,终于出现了!

只见它准确分析出音乐的旋律、节奏,还有使用的乐器,甚至其中的意境也能解读。

而且它不仅会听,只要给它一段文字和图片,它就会在理解图片意境之后,结合文字要求来创作:

甚至是给静默的视频配上声音:

现有的音乐它也能编辑,比如从一段音乐中去除鼓的声音

以上的这些效果,都出自腾讯PCG ARC实验室新推出的基于多模态模型的音乐理解与生成框架M2UGen

它可以进行音乐理解、音乐编辑以及多模态音乐生成(文本/图像/视频到音乐生成)。

研究团队在模型的五种能力上分别和现有模型进行了一一对比,并在多模态音乐生成的三个子任务上(文本/图像/视频到音乐生成)做了主观评测实验,发现M2UGen模型性能均优于现有模型。

此外,由于没有很多合适数据集用于模型训练,研究团队还研发了一套数据生成方法,制作了MUCaps、MUEdit、MUImage、MUVideo四个数据集并发布。

目前团队已将模型代码库在Github开源,并在Huggingface上开放了模型权重和训练所需数据集(需申请)。

那么,M2UGen究竟是怎样实现的呢?

模型共分四个模块

M2UGen模型分为四个模块区域,分别是多模态特征编码器、多模态理解适配器、桥接LLM以及音乐理解与生成模块。

下图展示了M2UGen模型的整体框架:

多模态特征编码器

为了实现多模态音乐理解与生成,模型需要处理多模态输入。

基于此,研究团队应用了一些现有的模态编码器,如音乐编码器MERT、图像编码器ViT和视频编码器ViViT。

ViT和ViViT是视觉领域常用的两个基于Transformer的编码器,在现有的一些LLM相关工作中经常涉及,因此开发者选用这两个分别作为图像和视频编码器。

对于音乐输入,前序工作MU-LLaMA证明了MERT模型显著优于其他比较的音频/音乐编码器,因此在M2UGen中研究团队选用MERT作为音乐输入的编码器。

多模态理解适配器

该模块的主要作用是将编码器输出的特征向量进行信息整合,输入到后续的LLM中和文本输入一起控制LLM的输出。

如下图所示,该模块主要由1D卷积层、线性映射层和一个稠密网络模块(Dense Network)组成。

最后的稠密网络模块如下图:

该模块由三个子模块组成,包含正则化层(Nomarlization)、线性层(Linear)、激活函数(SiLU)等组件。

该过程可由下式表示:

其中Xi表示第i个子模块之后的输出嵌入向量,Lj,i表示第i个子模块的第j层线性层,Ni表示第i个子模块内的正则化层,SiLU是激活函数。

该稠密网络设计延续自团队的前序工作MU-LLaMA。

在稠密网络之后,输出4096维的嵌入向量,提供给下游的LLM使用。

桥接LLM

为了将多模态上下文信息引入LLM,研究者将来自相邻上游多模态理解适配器的输出接入到LLM的指定层。

研究者采用了Meta研发的LLaMA 2模型作为底座LLM,如下图所示。

这里选用的模型版本是LLaMA 2 7B模型,包含N=32个隐层。

从该模型的顶层算起,每L层(L=6)引入一个模态信息,从上至下依次引入音乐、图像和视频模态信息,并使用零初始值注意力模块,底部的(N-3L-1)层则采用原始的注意力模块。

LLM的文本指令从底层,也即第一层输入。利用该技术,LLM被赋予了通过其他模态信息来引导LLM输出的能力。

音乐理解与生成模块

受NExT-GPT工作启发,本模型引入了特定的音频标记[AUD],用来区分音乐问答和生成任务。

在模型训练阶段,对于以音乐作为输出(即音乐生成任务)的训练样本对(如文本指令-音乐对),这些音频标记会添加在LLM输出的末尾,用于指示下游的音乐输出。

在模型推理阶段,假如用户输入的指令和音乐生成有关,比如Generate a music using flute(用笛子生成一段音乐),则LLM的输出会包含音频标记,从而下游的音乐解码器会接收该指令并生成以笛子作为演奏乐器的音乐;

反之如果LLM的输出没有音频标记,则表明用户期望的是音乐理解任务,此时由LLM直接回应用户提问。

研究人员尝试了两种音乐解码器——AudioLDM 2和MusicGen,其中MusicGen的音乐生成表现相较AudioLDM 2更好。

提出新数据集,训练分三阶段

训练数据集

如本文研究贡献所述,本研究构造了四组数据集MUCaps、MUEdit、MUImage和MUVideo,数据样本示例如下图所示。

MUCaps数据集

  • 约1200小时来自AudioSet和一些网站的公开音乐;

  • 利用MU-LLaMA模型对搜集的音乐文件生成音乐注解组成音乐-文本对。

MUEdit数据集

  • 从AudioSet构建音乐池(音乐池和MUCaps不同),并筛选出约60小时相似的音乐-音乐对;

  • 筛选条件包括速度(tempo)、beats(节拍)等,从而得到大体相似,但有一定区别的音乐-音乐对(比如使用的乐器不同);

  • 将音乐-音乐对看作是源-目标对,将源音乐的注解文本输入给MPT-7B[14]模型得到人类端对话,目标音乐的注解文本输入给MPT-7B模型得到模型端对话,也即源音乐和目标音乐都得到对应指令用于模型训练。

MUImage/MUVideo数据集

  • 从AudioSet再另外采样一些图像/视频-音乐对(和MUCaps/MUEdit中的音乐均不同,最小化音乐重复),用BLIP/VideoMAE模型对图像/视频做图像/视频注解;

  • 将图像/视频+音乐的注解文本输入到MPT-7B模型,分别得到人类端和模型端对话。

以上数据集构造脚本可参见:
https://github.com/shansongliu/M2UGen/tree/main/Datasets

而M2UGen模型的训练参考了NExT-GPT的训练方式,分为三个阶段,分别是编码端训练、解码端训练和编解码联合训练。

阶段1:编码端训练

该阶段冻结多模态编码器和LLM,只训练多模态理解适配器;

利用来自MUCaps/COCO/MUVideo的音乐/图像/视频-文本对做阶段1训练;

训练损失为交叉熵损失,即比较LLM的输出和目标注解文本。

阶段2:解码端训练

这一阶段不考虑编码测(模态编码器和适配器),冻结LLM,训练输出映射模块;

此阶段旨在训练LLM生成指示下游音乐解码器输出音乐的指令,或直接根据输入指令对输入的音乐做问答或注解;

需要对齐的是音乐解码器(AudioLDM 2/MusicGen)的文本编码器输出和M2UGen模型输出映射模块产生的条件嵌入向量,即对输出端进行对齐;

此阶段在训练时,通过添加特定的音频标记[AUD]来指示是否生成音乐。如果LLM的输出中包含[AUD],则同时生成文本+音乐(音乐生成),如果不包含,则只生成文本(音乐问答);

损失函数采用交叉熵和均方误差,其中交叉熵是比较LLM输出的音频标记和真值音频标记,均方误差是比较M2UGen模型输出映射模块产生的条件嵌入向量和音乐解码器的文本编码器的输出文本嵌入向量。

阶段3:编解码联合训练

该阶段冻结多模态编码器和LLM,训练多模态理解适配器和输出映射模块,以及LLM中的LoRA参数;

此阶段训练时训练数据有Alpaca(通用知识)、MusicQA、MUImage、MUVideo和MUEdit;

为了使模型可以同时生成音乐和文本, MUImage、MUVideo和MUEdit三个数据集在阶段3训练时LLM输出端添加了特定的音频标记(和阶段2训练类似)。

未来,研究团队的工作重点是进一步提升模型的细粒度音乐理解能力,并改善生成音乐与输入指令之间的相关性,也使音乐编辑能力更加精确。

论文地址:https://arxiv.org/pdf/2311.11255.pdf

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
我们应该感恩吗?---写在感恩节智能乐器厂商「戴乐科技」获峰瑞资本领投Pre-A轮融资,旗下「Aeroband」品牌在全球乐器展亮相并获追捧|早起看早期AI早知道|Stability AI推出最小模型;国内首个视频大模型通过备案;内蒙古首个AI大模型工业互联网平台发布玩乐器、唱歌有助避免失智!研究:单纯听音乐没有用大模型学会写万字长文,AI企业「波形智能」完成千万元Pre-A轮融资|早起看早期说不出她家风格,可我觉得很有风格【居住榜样】中国恐自陷隐性不平等条约龙年到!全世界各大品牌都抢出龙年限量单品!风格各异、毁誉参半,最后一个都说丑!越来越火的红利风格,还能不能买?首次实现微生物从头合成黄腐酚,大连化物所团队构建基于酵母和葡萄糖的新合成途径成果刊登Science,闫建斌与雷晓光团队共同解析紫杉醇生物合成关键酶,在烟草中实现紫杉醇前体生物合成游牧、民乐与乐器的炼金术 | 风滚草音乐之旅巡演【倒计时2周】4大院士领衔,60+嘉宾阵容!合成领域的学术盛宴,就在 2024(第二届)合成生物学与生物医学健康大会!大模型学会写万字长文,AI企业「波形智能」完成千万元Pre-A轮融资|36氪首发[干货]“没有...,...啥都不是”,实用英语句型学起来!我国首部快递包装强制性国标将实施;日本宣布登月探测器精准着陆丨科技早新闻即将开课最后上车,跟顶级剪辑师学剪辑!打通大模型训练任督二脉!国内首个千亿参数、全面开源大模型来了,还联手开发者共训智能乐器厂商「戴乐科技」获峰瑞资本领投Pre-A轮融资,旗下「Aeroband」品牌在全球乐器展亮相并获追捧|36氪首发AI早知道|百度推出视频生成模型UniVG;Soul APP上线自研语言大模型;清华大学首个大模型 Debug360安全大模型3.0来了!垂直大模型,他们这么训年年抢不到~年年抢!多伦多公立教育局的音乐夏令营报名攻略:不烧钱学乐器新年乐器玩起来!北加专业钢琴团课和1对1音乐课程来啦~火星乐园第三部《灰界》第七十六章 族道源长舌控“鼠标”火爆CES!能打字能剪视频,网友:哪能买到,急清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!第七期智能AI吉他音乐会 | 1月25日,线上听音乐抽万元奖池!感恩的心就像一棵树谷歌发布West-of-N,利用合成数据,显著提升LLM奖励模型质量 | 今日Arxiv最热大模型论文菌蛋白合成率提高57%,显著降低碳排放,天工所团队利用工程化菌株实现可食用菌蛋白的高效合成我误读了“更年期综合征”怎么剪辑才能得出“无形的剪辑”?加入戏腔和民乐就是国风音乐了吗?这位国风音乐人不这么认为 | 专访开源大模型火了!(附99个大模型微调模型/数据/工具)!“前男友做鸭,李晨出意外” 刷上热搜!新型学英文的方式火了!看完笑死...
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。