谷歌发布从文本生成音乐的AI作曲系统,但暂不计划发布
谷歌新出的神奇 AI 系统可以根据一段文本生成任何类别的音乐,不过公司出于风险考量,目前并没有发布的计划。这款名为 MusicLM 的系统显然不是第一个在 AI 生成音乐领域吃螃蟹的,其他类似的系统有可视化 AI 作曲 Riffusion、舞蹈扩散、谷歌的 AudioML、OpenAI 的 Jukebox。但由于技术限制和有限的训练数据,至今都没能生成编曲复杂或高保真的音乐。但或许 MusicLM 能有所不同。
根据论文中的详尽描述,MusicLM 是使用了 28 万小时的音乐进行训练,才学会从“十分复杂”的描述中生成连续的歌曲。“复杂”的文本可以是“由萨克斯独奏和独唱组成的令人难忘的爵士乐”,或者“低音贝斯且强节奏性的 90 年代柏林电子乐”等等。值得关注的是,MusicLM 所生成的歌曲虽然不一定具有创造性或音乐的凝聚力,但听起来却很像是人类能创造出的。
考虑圈子里没什么艺术家或乐器演奏家,我不好大加赞扬这些生成的样本。但即使是在冗长且弯弯绕绕的描述中,MusicLM 也能捕捉其中演奏器乐、旋律或情绪间的细微差别。
MusicLM 的 AI 能力不仅限于音乐片段的生成。谷歌研究者称,该系统可根据已有哼唱、演唱、口哨、乐器等旋律进行制作,甚至能根据多个连续描述,如“该冥想了”、“该起床了”、“该跑步了”、“该全力付出了”,生成一段“故事性”的叙事旋律,长度可达数分钟,足以被用作电影配乐了。
不仅如此,MusicLM 也可以借助图片和文本的双重引导,生成由特定乐器“演奏”的特定音乐类型,甚至就连 AI “演奏者”的经验水平、启发创作的地点或时代都能指定,比如“健身时的鼓励音乐”。
人无完人,MusicLM 也不是完美的,甚至也有不少缺陷。训练中难免会出现部分样本音质扭曲,生成的人声合唱和声也有很大的改进空间,多数的“歌词”部分还能模糊认出是英语,剩下的就全是合成了好几个音乐人的、电子音极重的胡言乱语了。
即使如此,谷歌研究者仍认为 MusicLM 这类系统所带来的伦理挑战,其中就有将训练集中的音乐,无视版权保护添加至生成乐中这一情况。在实验中,研究者发现约 1% 的系统生成乐和训练中的原曲完全相同,这一高数值明显已经足以劝退谷歌发布当前阶段 MusicLM 的想法了。
“我们承认该类用例下盗用创作内容的潜在风险,”论文的合著者之一如此写道,“我们着重强调,在规避音乐生成相关风险方面,在未来我们还有很长的路要走。”
假设未来某天 MusicLM 或类似的系统真的发布了,这些重要的法律问题也会避无可避,哪怕这些系统的设计初衷是为协助艺术家而非取代他们的存在。即使是在当前相对简陋的 AI 系统上,这类问题已经屡见不鲜了。2020 年 Jay-Z 的唱片公司对油管频道“Vocal Synthesis”提出版权诉讼,后者利用 AI 生成 Jay-Z 翻唱歌曲,如 Billy Joel 的“We Didn’t Start the Fire” 。油管在将视频下架后又将其恢复,并称下架请求“不完整”。目前 deepfake 生产的音乐仍处于法律的灰色地带。
音乐出版商协会的法律实习生 Eric Sunray 所撰写的白皮书中称,MusicLM 之流的人工智能音乐生成系统确实侵犯了音乐版权,因为其“利用训练中的作品织造连贯音频,因此触犯了美国版权保护法的复制权”。随着 Jukebox 的发布,外界对使用受版权保护的音乐材料训练人工智能模型是否合理的质疑不断,类似的担忧在图像、代码,以及文本生成 AI 系统所使用的训练数据上也不断出现,这些训练数据往往是在创作者不知情的情况下从互联网上搜刮而来。
Waxy 公司 Andy Baio 从用户角度提出猜测,由人工智能系统生成的音乐应被视作为衍生作品,因此只有原作品受版权保护。当然,这类 AI 作品能够被成为“原创”还要打个问号,在商用领域的使用也还是未知领域。如果生成乐可以受合理使用(如评论及模仿)保护,那么事情就简单很多,但 Baio 预计法院仍需要具体情况具体分析。
或许过不了多久,这类问题就能有更为明确的说法,一些包括艺术家作品在本人不知情或不同意的情况下仍被用于 AI 系统训练等仍在法院庭审过程中的相关诉讼,很可能会对当前 AI 生成音乐产生影响。时间会证明一切。
查看英文原文:
https://techcrunch.com/2023/01/27/google-created-an-ai-that-can-generate-music-from-text-descriptions-but-wont-release-it
你也「在看」吗? 👇
微信扫码关注该文公众号作者