AI+音乐丨关于音乐创作的想象，与目前第一个现象级音乐生成产品 Suno

2024-01-02 03:01

来源丨深思SenseAI（gh_a54fc6d3826c）

作者丨Vela

编译丨Wes

歌曲《Despacito》是 Youtube 上传播最广、观看人数最多的视频之一，你可能不知道它的名字，但一定听过它的旋律。这首歌甚至不是一首英文歌，但很多人会唱，也清楚它的发音。音乐在国别与民族之上创造了一种共同的语言和文化，它构筑在语言文字之上，是最社会化的自我表达形式之一。

12 月 20 日，来自美国的音乐生成产品 Suno 正式发布，它来自目前最强的文字转音频（TTS）开源模型 Bark。Suno 推出后众多推特网友纷纷分享自己的作品表示惊喜，每个人都可以在官网免费创造自己的音乐作品，我们称它为目前音乐生成领域第一个现象级产品。

生成式 AI 显著降低图文、音频、视频、代码等不同内容形态的创作门槛，产生消费级应用机遇。“内容民主化”来到了音乐。

人们往往把音乐当成一种属于音乐爱好者的小众表达方式，而忽略了声音作为最古老的交流媒介所承载的社会文化意义。在 B 端商业领域，音频生成能大幅降低游戏、电影、广告场景制作音频的成本，在 C 端消费级领域，音乐创作门槛的降低有望让人们皆可通过音乐进行自我表达，让音频作为独立内容形态成为人们在互联网交流的信息载体。

Suno 是什么

Suno，印地语中意为“倾听”。

这家初创公司来自有着哈佛大学和麻省理工学院的马萨诸塞州剑桥市，其目标是实现声音创作的“民主化”，让普通人也能轻松地像使用手机拍照那样轻松的创作和编辑歌曲。不需要任何乐理知识和乐器经验，不需要复杂的流程和工具，只需要想象力，就可以让自己的想法具象化为美妙音乐。

AI Native 产品分析

Suno

1. 产品：Suno.ai

让任何人都可以通过自然语言来轻松地创造属于自己的音乐作品。

2. 产品发展历程：

23 年 4 月推出文本转音频模型 Bark：https://github.com/suno-ai/bark
23 年 7 月音频生成模型增加人声音乐功能
23 年 9 月，用户可以在 Suno 的 Discord 频道体验文字生成音乐
23 年 12 月 20 日推出 Suno 网页版本应用，同时微软旗下 Copilot 集合了 Suno 的功能

3. 创始团队：

创始人 Mikey Shulman
联合创始人：Georg Kucsko、Martin Camacho 和 Keenan Freyberg
四人此前共同在被收购的金融数据 AI 科技创业公司 Kensho 工作，创始成员还有在 Tiktok、Meta 等互联网公司的从业经验

与多数 AI 音乐应用不同的是，它专注于创作全新旋律和人声，而不是模仿已有的知名艺术家声音或歌曲风格。首席执行官兼联合创始人 Mikey Shulman 表示，尽管以特定艺术家风格创作新歌很酷、很有趣，但长期来看，这种体验不会给消费者带来持久的乐趣。

他们的理念是让更多人收获创作音乐的乐趣，同时也更加重视人声音乐。Mikey Shulman 表示“大多数人不会演奏乐器，也不了解复杂的软件，到目前为止，这一直是创作优美音乐的障碍。声乐也是其中一个非常重要的组成部分，也是「Suno」的与众不同之处。”

Suno 的使用方式非常简单，直接用自然语言描述想要生成的音乐，可以是想要的主题、音乐风格或大概的情绪氛围（比如：“一首关于 AI 疯狂炒作的放克风格歌曲”）。然后，Suno 会生成两首旋律和歌词各不相同的曲子。

用户也可以在 Suno 生成的作品基础上进行进一步地编辑，比如修改歌词和音乐风格，或者生成一首完整的曲目。目前，用户还可以自己编写并上传歌词，选择想要的风格（如“情感乡村民谣”）来生成相应歌曲。

用户在官网登陆后即成为免费版本用户，每天可以使用 5 次提示，可生成 10 首歌曲。Suno 的盈利模式为会员订阅，每月支付 8 美元可生成 500 首歌曲，每月支付 24 美元的用户可生成 2000 首歌曲，同时还提供年度订阅折扣。

AI 生成音乐的难点

跟 AI 生成文本和图像相比，使用 AI 生成可用的音乐要困难得多。音乐的复杂性远超语言，它包含了丰富的情感和细微的表达。AI 需要学会如何在保持音乐连贯性的同时，捕捉和复制这些微妙的情感变化。系统需要处理更多元素，从语音到个别音符、排列和流程。

AI 生成音乐的难点包括：

复杂性：音乐具有多层次的结构和丰富的情感表达，这要求模型能习得复杂的音乐理论，并能够理解并模拟人类情感。
数据量和质量：高质量的音乐数据集对于训练有效的 AI 音乐生成模型至关重要。然而，获取大量、多样化且高质量的音乐数据集来训练和解读音乐风格及情绪描述仍然非常困难。
长期连贯性：音乐中的某些模式可能跨越很长的时间跨度，这对于模型来说是一个挑战，因为它们需要记住并利用这些信息来生成连贯的音乐。
风格和情感的表达：捕捉和复制特定风格或情感的音乐是非常复杂的，这需要模型能够理解和模拟音乐的情感维度。
评估和反馈：评估生成的音乐质量是一个主观过程，缺乏客观的度量标准。此外，模型可能需要反馈来改进，但在音乐领域，这种反馈机制不如图像或文本生成领域成熟。
版权和伦理问题：AI 生成的音乐可能涉及到版权问题，尤其是在模仿特定艺术家或作品风格时。此外，还需要考虑 AI 在艺术创作中的角色和伦理责任。

尽管存在这些挑战，AI 音乐生成技术仍在不断发展，研究人员正在探索新的方法来克服这些问题，以创造出更加丰富和多样的音乐作品。

生成音乐领域的激烈竞争

早在 2015～2017 年上一次 AI 创业浪潮当中，就先后涌现出了多家 AI 生成音乐相关的项目。2023 年以来，面向消费者的 AI 生成音频产品和平台之间的竞争也日益激烈。微软 12 月 19 号宣布，已经将 Suno 整合到其 AI 软件平台 Copilot 中。Facebook 和 Google 等巨头也先后推出了能够创作歌曲和声音的 AI 工具。

今年 8 月，脸书母公司 Meta 以 AudioCraft 名义发布了三款 AI 音乐生成研究工具。

MediaGen 专为从文本创建音乐而设计，使用 Meta 获得许可的音乐进行训练。
AudioGen 旨在根据文字描述创建声音效果。
EnCodec 是 Meta 向研究人员提供的解码引擎。
‍

Meta 的目标是通过大规模开放其 AI 工具来推动工具的普及采用。就像此前发布的 Llama 2 一样，这些工具可免费用于商业用途。

谷歌子公司 DeepMind 也与 Youtube 联合推出了人工智能音乐生成模型 Lyria ，并先后推出了一系列具有实验性质的 AI 音乐工具。

23 年 11 月推出了 Dream Track ，它可以按照选定的著名歌手的风格创作原创歌曲。这一工具现阶段可以在 YouTube Shorts 中与其他 AI 音乐工具配合使用，创作者借助这些工具可依据文本提示和哼唱自动生成一首完整的音乐作品。

12 月 14 日，谷歌又推出 AI 音乐创作工具“MusicFX”，仅需几句话，用户即可生成原创的音乐作品。这一创作工具还结合了 DeepMind 的水印技术 SynthID，以便在事后识别出它们是否由 AI 制作而成，一定程度上可以解决音乐创作者对于版权问题的担忧。

Suno 的音乐版权保护

生成式 AI 的兴起引发了各种法律和道德问题，音乐行业成为检验现有知识产权保护极限的关键试验场。音乐产业长期处于知识产权问题的前沿，包括有关采样和合理使用的争议，以及如何为参与一首歌创作的多方进行授信和补偿。

AI 生成音乐则给这个领域带来了新的复杂性，它能模仿艺术家的声音和风格“演绎”他们从未实际唱过的作品。音乐家可能会提起诉讼，称 AI 未经允许地使用了他们的形象，但从法律上讲，这比版权索赔要更加费时费力。音乐行业面临的法律问题也将很快在更多领域出现，例如对名人的视频生成再到对普通人的深度伪造。

Shulman 表示，Suno 公司致力于合法和道德地使用制作音乐。Suno 用于创作原创音乐，不会对特定歌星和音乐家的风格进行模仿。用户可以使用流派和氛围的相关需求进行歌曲创作，而非特定艺术家的名字。

Suno 应用还会阻止用户上传其他音乐作为样本或粘贴他人歌词（但目前对于中文等其他语言的限制似乎还不够，笔者就尝试用某热门中文歌曲的歌词进行了二次创作）。但是用户可以对其他歌曲的歌词进行二创之后来生成歌曲。

关于 AI 音乐创作与自我表达

Suno 的用户原声：忍不住分享给家人朋友

从 B 端和 C 端来看音乐生成类产品的应用场景。TTS（Text-to-Speech）文本到语音技术大幅降低电影、电视、游戏和广告等领域的音频制作成本。电影和游戏制作公司需要大量的背景音乐和音效，AI 可以根据特定场景批量生产相应的音频，广告公司也可以借此创建独特的广告音乐以增强广告效果。

在 C 端消费级领域，音乐创作门槛的显著降低也有望让人们通过音乐进行自我表达，让音乐作为独立内容形态成为一种人们在互联网交流的信息载体。

目前，互联网的内容形态主要由文字、图片和视频构成，对应的头部社交产品依次是以文字为主的推特（X）、微博，以图文为主的 Instagram、小红书，以视频为主的抖音（Tiktok）。而根据内容创作的出发点不同，可分为记录事实和艺术创作，分别侧重熟人社交和陌生人社交。

Instagram 最初通过提供好看的滤镜来美化照片，聚焦记录现实并让现实更美一点，最初获得摄影师的欢迎与推广。之前在 Gen-Z 群体中广泛流行的 Snapchat 故事将拍照从一种 "艺术 "形式变成了一种低门槛的交流方式，全球月活用户达到 7.5 亿。在图文领域，与 Instagram、Snapchat 对应的产品是图片社交分享网站 Pinterest，不同于熟人社交的网络关系链而更偏兴趣社交场景。

而在音频领域，Airchat 属于通过语音更真实地记录与传播事实和思想，本文研究的 Suno 侧重于通过艺术创作实现自我表达。

然而，相比于图文和视频，音乐真的适合自我表达吗？人们往往把音乐当成一种属于音乐爱好者的小众表达方式，而忽略了声音作为最古老的交流媒介所承载的社会文化意义。但仔细想想，自石器时代以来，乐器演奏和集体合唱就是社会和组织中创造叙事最核心的部分，比如国歌、校歌、队歌、新闻联播的前奏，和我们在 KTV 里必点的那首属于青春的歌。

音乐在人类之间创造了一种共同的语言和文化，是个体与组织层面最社会化的自我表达形式之一。然而目前还没有出现以音乐作为独立内容载体的产品，主要原因可能来自音乐创作的复杂性和相应情感表达的模糊性。

音乐创作包含歌词和音频两部分，依赖复杂的乐理和器乐知识。同时，音乐作为时间戳上的连贯性内容，创作需要“所建即所得”的及时反馈。当我们开始演奏一种声音时，就会形成一个反馈回路（feedback loop），当节拍或音调不合适我们会立刻感知到，而如果形成正确的反馈回路我们则会顺畅地进入“心流”状态。然而，目前的多数音乐制作工具都不支持这种流动状态，让音乐创作变得非常困难。

生成式 AI 技术能够实现内容创作的连贯性与反馈及时性。Vercel（和 Trace.ai，让前端设计能够“所建即所得”，如今音频领域出现了 Suno。毕竟，音乐、代码都是一种独特的语言，不是吗？

另一方面，音乐真的可以实现不同情感的表达吗？“声无哀乐”是魏晋时期著名的音乐家、文学家嵇康的观点，他认为声音本身没有哀乐之分，是人的情感赋予了声音哀乐。声音本质上作为一种波动现象，本身是中性的。人在听到特定音乐或声音时产生的情绪反应，是大脑处理声音信息的过程中的生理反应。特定的声音频率、节奏和音调可以刺激我们的大脑和神经系统，使我们感到兴奋、轻松、紧张或悲伤。

比如，大脑会在听到快节奏音乐时产生兴奋反应，在听到小调音乐时产生悲伤反应。这种自动化的情绪反应并非完全是我们赋予声音的过程，而是人的生理反应。因此，对不同音乐进行情感表达也依赖大量的标注数据。

SunoAI 目前生成的歌曲已经具备了较高的专业度和可拆解性，用户可以对曲风和情感进行描述和调整。通过音乐实现跨文化的自我表达，或许就在不远的未来。