你试过文字生成音乐(Text to Music)吗?比如输入文字“赛博朋克街道(cyberpunk street)”,选择时长15秒并提交,等待3秒钟后,AI就生成了以下这段音乐——在此基础上再结合文生图的技术,图片生成音乐(Image to Music)也能实现了。让我们上传一张哭泣的甄嬛,听听AI能作出什么音乐——
低沉的前奏契合了甄嬛此时悲伤的心境,但20秒之后曲调突然变得欢快起来,莫非AI猜到了后来钮祜禄·甄嬛回宫复仇的故事(不是。对于非专业人士来说,像这样给AI输入关键词或参考图,似乎就能轻松作出各种风格的音乐了。那么内容创作者可以借助AI生成音乐做些什么呢?作为视频配乐是否可行呢?我们带着好奇体验了一番。进入Hugging Face(一个AI社区)的“Text-to-Music”项目页面,我们在“prompt”框内输入文字,首先试试“旅行,自然,钢琴,美好”,默认时长30秒,勾选循环形式,点击提交。https://huggingface.co/spaces/Mubert/Text-to-Music很快我们得到了这段颇有民族感的音乐,表达的情绪偏柔和。
再试试复杂一点的剧情描述,输入“雨天小猫在草丛中奔跑,身后有一只狗在追它,紧张,流行音乐”,不勾选循环,时长还是30秒。这次花费的时间长了些,但结果还挺惊艳的,紧凑的节拍一下子就带入画面感了。我们给AI再加点难度,做一首甲方都想要的“高大上”商业音乐,输入“上流人士登上舞台发表演讲,好莱坞史诗,大气节拍,广告音乐”,不勾选循环,时长改为1分钟。结果虽然跟想象中颁奖仪式的隆重音乐不太一样,但放在时尚秀场就对了,已经能联想到相机咔咔的声音了。你可能会好奇以上这些AI音乐在技术上是怎么实现的?其实这里调用的是Mubert的接口,一个人工智能音乐生成平台,它将音乐家与AI配对,基于庞大的曲目数据库共同创作音乐。与AI绘画不同的是,Mubert的所有音乐都是由人创作的,不是由任何神经网络合成的,即“真人谱曲+AI组曲”。据官网介绍,训练库包含来自4000多名音乐家的100多万个样本,平台购买了这些音乐demo的版权,然后通过AI进行识别、分类,打上标签,用户可以选择不同的风格流派、情绪和时长来生成一段音乐。在输入文字描述时,AI并不是从已有曲库中抓取相应的音乐,而是实时生成一个独特的声音组合,AI会为文字选择最接近的标签向量,同样的文字也可能生成不同的音乐,重复的概率很小。就像刚刚那首“高大上”音乐,AI匹配的标签是“广告,艺术家,独立舞曲”。既然文字可以生成音乐,AI绘画也体现了文字可以和图片建立关联,那么能不能直接用图片生成音乐呢?没问题,让我们打开“img-to-music”项目网页(https://huggingface.co/spaces/fffiloni/img-to-music),上传图片后,经由CLIP Interrogator生成文字描述,然后重复上面Mubert文字生成音乐的流程就可以了。随便从相册里翻出一些照片来试试,上传一碗打工人常吃的沙县河粉,AI会给出类似中华小当家的美食配乐吗?答案是不,可能是因为AI没看过这部经典动画,但听过歌曲《We Will Rock You》,前面18秒是类似的拍手声,后面10秒则加了一种悠扬的乐声,反正跟美食不太搭。
的确是更贴近了,虽说不是想象中《恋爱循环》那样的甜蜜,但有种灵动俏皮的感觉。除了平时拍摄的生活照片,我们还可以试着上传AI生成的图片,让AI自己画、自己奏乐。比如日本网友“zyakobee”最近用NovelAI生成了一张明日香观看月全食的图片,我们把它转成音乐,听出了一种辽阔、神秘的意境,意外跟图片比较契合。而我们用文心一格生成的一幅古典园林,AI却配上了动感的现代电子音乐,也许曲库里缺少中国风的音乐吧。沿着AI自动生成绘画和音乐的思路,博主“大谷Spitzer”写了一个在线的可玩小工具,直接输入文字,AI帮你完成剩下的出图与配乐部分同时拼合成视频,“Text to Image to Music to Video”一条龙搞定了。https://huggingface.co/spaces/DGSpitzer/TXT-2-IMG-2-MUSIC-2-VIDEO?continueFlag=44ca945e9589f8672e34375b95ee34a3
AI音乐不是今年才兴起的,2016年就有AI作曲了,AIVA深度学习了1.5万首交响音乐,是最早获得国际认证的虚拟作曲家之一,其作品被广泛用于网络视频的自动配乐。
Amper Music:https://www.ampermusic.com/
Ecrett Music:https://ecrettmusic.com/
Google Magenta:https://magenta.tensorflow.org/get-started
Sony Flow Machines:https://www.flow-machines.com/
Soundraw:https://soundraw.io/
网易天音:https://tianyin.163.com/
……
大部分平台只要用户选择一些预设的场景、情绪和类型,就可以快速生成音乐,如果是专业创作者,不满意的地方自己可以进一步调整和修改。索尼音乐制作人Richard Frenneaux曾在B站分享了几个AI工具可用于音色转变、人声分离、轨道分离、母带制作等创作流程。随着AI技术的发展,音乐创作的参与门槛降低了,不懂乐理的人也有机会作出自己想要的音乐,进而应用于视频配乐、播客背景音乐等场景。更重要的是,AI提供了个性化、定制化的音乐,能为创作者节省挑选音乐的时间,提高内容生产效率。短剧类博主“给我一个镜头V”的主创陈一川告诉新榜编辑部:“平时为了配个有感觉的音乐,单单找音乐都找了一天。无版权音乐太少了,很多音乐不一定是我想要的感觉,限制性太大。”找到合适的音乐是一方面,另一方面,创作者使用AI生成的音乐能在一定程度上避免版权纠纷。一旦音乐侵权,比如YouTube会将视频收益全部归为音乐版权方。但购买版权音乐并不便宜,在某网站购买一首音乐用于“自媒体/短视频/vlog/直播/录播”场景下永久授权的价格近3000元。相比之下,创作者可以免费使用AI音乐或者花费较低的成本购买用于商业项目。通过Mubert生成的免版权音乐,用户只需要标注出处,即可在视频、帖子、播客等个人内容中免费使用。如果商用的话需要付费,每月39美元,最多下载500首曲目。还有更便宜的平台,月付费价格仅4.99美元。“给视频配乐这种应用场景,我觉得AI是完全可以囊括的。”博主“小狮日记”曾做过AI音乐相关的项目,他认为未来AI音乐会发展得更加完善,现在的问题可能是技术还不够,或者说产品化的能力还达不到,导致没有成熟的AI音乐产品出现,瑕疵较多。从专业角度来看,音乐人“只写小调的A-39”在Mubert相关视频下表示AI生成的音乐质量一般,“学习没几个月的新手用上预置和采样可以做出比这个好不少的片段”。或许非专业人士听不出太多门道,但我们在体验中也发现AI音乐的准确度不佳,尤其是图片生成音乐的结果可能大相径庭,这与图片提取文字信息的局限性有关,文字和音频目前很难一一对应。比如上传了一张蓝天白云大草原的经典壁纸,原以为会生成自然平和的音乐,结果变成了有些恐怖的阴沉鼓声。看到梵高的《星月夜》,AI却生成了奇怪的呻吟声……由于一篇微信文章最多只能添加10个音频,大家可以自行尝试体验随机性太强、音乐生成质量不够稳定可能是制约创作者选择AI音乐的一个原因。但放眼未来,AIGC的浪潮来势汹汹,前有AI绘画,之后说不定“人人都能玩AI音乐”。
作者 | 卷毛
编辑 | 张洁
校对 | 云飞扬
• 作为数据驱动的互联网内容科技公司,新榜提供新媒体内容营销和企业服务系列产品,助力中国企业数字化内容资产获取与管理,服务于内容产业,以内容服务产业。• 我们的客户既包括中国平安、腾讯、字节跳动、京东、宝洁、雅诗兰黛、欧莱雅、联合利华、迪士尼等500强,也包括正在蓬勃成长的中小企业、新兴品牌和MCN机构。面向企业的内容化组织建设,新榜提供从公域流量募集分发到私域内容运营建设的各项所需。
• “新媒体,找新榜”是我们的使命。凭借全面稳定的新媒体内容数据产品和企业服务能力,新榜被评为国家级高新技术企业,曾荣获“全国内容科技创新创业大赛一等奖” 、“上海文化企业十佳”、“中国广告新媒体贡献年度大奖”、“金狮国际广告影片奖”、“沙利文中国新经济卓越增长奖”等称号,拥有多个传播评估监测专利。