看到甄嬛哭泣表情包，AI当场花3秒作曲一首

科技

2022-11-10 04:11

⭐️欢迎关注预约“新榜和ta的朋友”系列直播

今年AI绘画（Text to Image，文生图）出圈后，AI音乐也有新的技术发展。（相关阅读：《不明觉厉的AI绘画，对内容创作者来说有什么用？》）

你试过文字生成音乐（Text to Music）吗？比如输入文字“赛博朋克街道（cyberpunk street）”，选择时长15秒并提交，等待3秒钟后，AI就生成了以下这段音乐——

听起来是不是有点行走在未来都市的感觉呢？

在此基础上再结合文生图的技术，图片生成音乐（Image to Music）也能实现了。让我们上传一张哭泣的甄嬛，听听AI能作出什么音乐——

低沉的前奏契合了甄嬛此时悲伤的心境，但20秒之后曲调突然变得欢快起来，莫非AI猜到了后来钮祜禄·甄嬛回宫复仇的故事（不是。

对于非专业人士来说，像这样给AI输入关键词或参考图，似乎就能轻松作出各种风格的音乐了。那么内容创作者可以借助AI生成音乐做些什么呢？作为视频配乐是否可行呢？我们带着好奇体验了一番。

一句话，让AI生成个性化音乐

进入Hugging Face（一个AI社区）的“Text-to-Music”项目页面，我们在“prompt”框内输入文字，首先试试“旅行，自然，钢琴，美好”，默认时长30秒，勾选循环形式，点击提交。

https://huggingface.co/spaces/Mubert/Text-to-Music

很快我们得到了这段颇有民族感的音乐，表达的情绪偏柔和。

再试试复杂一点的剧情描述，输入“雨天小猫在草丛中奔跑，身后有一只狗在追它，紧张，流行音乐”，不勾选循环，时长还是30秒。

这次花费的时间长了些，但结果还挺惊艳的，紧凑的节拍一下子就带入画面感了。

我们给AI再加点难度，做一首甲方都想要的“高大上”商业音乐，输入“上流人士登上舞台发表演讲，好莱坞史诗，大气节拍，广告音乐”，不勾选循环，时长改为1分钟。

结果虽然跟想象中颁奖仪式的隆重音乐不太一样，但放在时尚秀场就对了，已经能联想到相机咔咔的声音了。

你可能会好奇以上这些AI音乐在技术上是怎么实现的？

其实这里调用的是Mubert的接口，一个人工智能音乐生成平台，它将音乐家与AI配对，基于庞大的曲目数据库共同创作音乐。与AI绘画不同的是，Mubert的所有音乐都是由人创作的，不是由任何神经网络合成的，即“真人谱曲+AI组曲”。

据官网介绍，训练库包含来自4000多名音乐家的100多万个样本，平台购买了这些音乐demo的版权，然后通过AI进行识别、分类，打上标签，用户可以选择不同的风格流派、情绪和时长来生成一段音乐。

在输入文字描述时，AI并不是从已有曲库中抓取相应的音乐，而是实时生成一个独特的声音组合，AI会为文字选择最接近的标签向量，同样的文字也可能生成不同的音乐，重复的概率很小。

就像刚刚那首“高大上”音乐，AI匹配的标签是“广告，艺术家，独立舞曲”。

既然文字可以生成音乐，AI绘画也体现了文字可以和图片建立关联，那么能不能直接用图片生成音乐呢？

没问题，让我们打开“img-to-music”项目网页（https://huggingface.co/spaces/fffiloni/img-to-music），上传图片后，经由CLIP Interrogator生成文字描述，然后重复上面Mubert文字生成音乐的流程就可以了。

随便从相册里翻出一些照片来试试，上传一碗打工人常吃的沙县河粉，AI会给出类似中华小当家的美食配乐吗？

答案是不，可能是因为AI没看过这部经典动画，但听过歌曲《We Will Rock You》，前面18秒是类似的拍手声，后面10秒则加了一种悠扬的乐声，反正跟美食不太搭。

换一只可爱的小猫咪看看，AI会不会更容易理解？

的确是更贴近了，虽说不是想象中《恋爱循环》那样的甜蜜，但有种灵动俏皮的感觉。

除了平时拍摄的生活照片，我们还可以试着上传AI生成的图片，让AI自己画、自己奏乐。

比如日本网友“zyakobee”最近用NovelAI生成了一张明日香观看月全食的图片，我们把它转成音乐，听出了一种辽阔、神秘的意境，意外跟图片比较契合。

而我们用文心一格生成的一幅古典园林，AI却配上了动感的现代电子音乐，也许曲库里缺少中国风的音乐吧。

沿着AI自动生成绘画和音乐的思路，博主“大谷Spitzer”写了一个在线的可玩小工具，直接输入文字，AI帮你完成剩下的出图与配乐部分同时拼合成视频，“Text to Image to Music to Video”一条龙搞定了。

https://huggingface.co/spaces/DGSpitzer/TXT-2-IMG-2-MUSIC-2-VIDEO?continueFlag=44ca945e9589f8672e34375b95ee34a3

AI给视频配乐，可行吗？

AI音乐不是今年才兴起的，2016年就有AI作曲了，AIVA深度学习了1.5万首交响音乐，是最早获得国际认证的虚拟作曲家之一，其作品被广泛用于网络视频的自动配乐。

此外，人工智能音乐创作工具还包括：

Amper Music：https://www.ampermusic.com/
Ecrett Music：https://ecrettmusic.com/
Google Magenta：https://magenta.tensorflow.org/get-started
Sony Flow Machines：https://www.flow-machines.com/
Soundraw：https://soundraw.io/
网易天音：https://tianyin.163.com/
……

大部分平台只要用户选择一些预设的场景、情绪和类型，就可以快速生成音乐，如果是专业创作者，不满意的地方自己可以进一步调整和修改。

对于音乐人来说，AI已是辅助创作的一大利器。

索尼音乐制作人Richard Frenneaux曾在B站分享了几个AI工具可用于音色转变、人声分离、轨道分离、母带制作等创作流程。

随着AI技术的发展，音乐创作的参与门槛降低了，不懂乐理的人也有机会作出自己想要的音乐，进而应用于视频配乐、播客背景音乐等场景。

更重要的是，AI提供了个性化、定制化的音乐，能为创作者节省挑选音乐的时间，提高内容生产效率。

短剧类博主“给我一个镜头V”的主创陈一川告诉新榜编辑部：“平时为了配个有感觉的音乐，单单找音乐都找了一天。无版权音乐太少了，很多音乐不一定是我想要的感觉，限制性太大。”

找到合适的音乐是一方面，另一方面，创作者使用AI生成的音乐能在一定程度上避免版权纠纷。

一旦音乐侵权，比如YouTube会将视频收益全部归为音乐版权方。但购买版权音乐并不便宜，在某网站购买一首音乐用于“自媒体/短视频/vlog/直播/录播”场景下永久授权的价格近3000元。

相比之下，创作者可以免费使用AI音乐或者花费较低的成本购买用于商业项目。

通过Mubert生成的免版权音乐，用户只需要标注出处，即可在视频、帖子、播客等个人内容中免费使用。如果商用的话需要付费，每月39美元，最多下载500首曲目。还有更便宜的平台，月付费价格仅4.99美元。

“给视频配乐这种应用场景，我觉得AI是完全可以囊括的。”博主“小狮日记”曾做过AI音乐相关的项目，他认为未来AI音乐会发展得更加完善，现在的问题可能是技术还不够，或者说产品化的能力还达不到，导致没有成熟的AI音乐产品出现，瑕疵较多。

从专业角度来看，音乐人“只写小调的A-39”在Mubert相关视频下表示AI生成的音乐质量一般，“学习没几个月的新手用上预置和采样可以做出比这个好不少的片段”。

或许非专业人士听不出太多门道，但我们在体验中也发现AI音乐的准确度不佳，尤其是图片生成音乐的结果可能大相径庭，这与图片提取文字信息的局限性有关，文字和音频目前很难一一对应。

比如上传了一张蓝天白云大草原的经典壁纸，原以为会生成自然平和的音乐，结果变成了有些恐怖的阴沉鼓声。

看到梵高的《星月夜》，AI却生成了奇怪的呻吟声……

由于一篇微信文章最多只能添加10个音频，大家可以自行尝试体验

随机性太强、音乐生成质量不够稳定可能是制约创作者选择AI音乐的一个原因。

但放眼未来，AIGC的浪潮来势汹汹，前有AI绘画，之后说不定“人人都能玩AI音乐”。

作者 | 卷毛

编辑 | 张洁

校对 | 云飞扬

  关于新榜

• 作为数据驱动的互联网内容科技公司，新榜提供新媒体内容营销和企业服务系列产品，助力中国企业数字化内容资产获取与管理，服务于内容产业，以内容服务产业。
• 我们的客户既包括中国平安、腾讯、字节跳动、京东、宝洁、雅诗兰黛、欧莱雅、联合利华、迪士尼等500强，也包括正在蓬勃成长的中小企业、新兴品牌和MCN机构。面向企业的内容化组织建设，新榜提供从公域流量募集分发到私域内容运营建设的各项所需。
• “新媒体，找新榜”是我们的使命。凭借全面稳定的新媒体内容数据产品和企业服务能力，新榜被评为国家级高新技术企业，曾荣获“全国内容科技创新创业大赛一等奖” 、“上海文化企业十佳”、“中国广告新媒体贡献年度大奖”、“金狮国际广告影片奖”、“沙利文中国新经济卓越增长奖”等称号，拥有多个传播评估监测专利。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章