AI音乐，可能是极少数确定赚钱的应用

科技

2024-04-28 10:04

新鲜真话，关注一下👆

随着Suno的爆火和迅速盈利，AI音乐似乎来到了Musically时刻——在国民级世界级应用爆发的前夜，音乐产品往往是个排头兵。

当前的应用，是接下来伟大产品的开始……

由音乐软件先验证需求、跑通模式，接下来就是更广泛通用的超级爆发。

作为Spotify的日活用户，AI曲目和播客的落地、爆款内容的诞生，甚至于一些高ARR盈利案例的产生，让我对AI音乐这个赛道很好奇。

读到a16z这篇分析人工智能与音乐结合的文章，非常有启发，分享给大家！！

Enjoy！👇

原文链接：https://a16z.com/the-future-of-music-how-generative-ai-is-transforming-the-music-industry/

2023年4月，第一张病毒式AI 封面发布：代笔人的《Heart on My Sleeve》，它唤醒了音乐界，让他们认识到 AI 内容不仅可以存在，而且可以是好的。

不久之后，谷歌推出了MusicLM，这是一种文本到音乐的工具，可以根据基本提示生成歌曲。

保罗·麦卡特尼 (Paul McCartney) 使用人工智能为披头士乐队的新曲目提取约翰·列侬 (John Lennon) 的声音；格莱姆斯向创作者提供了使用人工智能克隆她的声音的歌曲流的 50% 的版税。

也许最重要的是，Meta 开源了MusicGen，这是一种音乐生成模型，可以将文本提示转换为高质量的样本。仅这一举措就催生了一系列新应用程序，这些应用程序使用和扩展该模型来帮助人们创建曲目。

类似于乐器、录制的音乐、合成器和采样器在推出时都增加了音乐创作者和消费者的数量，我们相信生成音乐将通过模糊艺术家、消费者和制作人之间的界限来帮助艺术家实现类似的创造性飞跃和表演者。

通过极大地减少从想法到创作的摩擦，人工智能将使更多的人能够创作音乐，同时也提高现有艺术家和制作人的创作能力。

在这篇文章中，我们将深入了解人们今天在做什么，探索人工智能音乐可能的发展方向，并概述一些处于该领域前沿的新兴公司和能力。

为了便于理解，这篇文章围绕 5 个核心场景构建，但我们发现另一种对这些产品进行分类的有用方法是按目标受众——为日常消费者构建的产品与具有商业用例的产消者/创造者有很大不同。我们展示了下面的分类：

一、实时音乐流媒体

到目前为止，大多数新兴的生成流媒体产品都属于功能性音乐类别：Endel、Brain.fm和Aimi等应用程序。

它们会生成永不停歇的播放列表，帮助您进入某种情绪或头脑空间，然后根据一天中的时间和您的活动进行调整。

（然而，功能性音乐开始与传统音乐融合，像 UMG 这样的强大唱片公司与 Endel 这样的生成音乐公司合作，创建流行新专辑的“功能性”版本。）

在 Endel 应用程序中，您可以听到处于“深度工作”模式与“尝试放松”模式时的声音有何不同。Endel 还与创意人士合作，根据他们的作品制作音景，例如生成专辑。

音乐流媒体领域的大多数产品都专注于音景或背景噪音，并且它们不产生人声。但是，不难想象未来人工智能驱动的流媒体应用程序也可以用人工智能生成的声音创作更多传统音乐。

正如录制的音乐带来了长时间播放专辑作为一种音乐格式一样，我们可以想象生成模型使“无限歌曲”成为一种新格式。

如果您不必用文本提示产品，这会变得更有趣。如果您可以提供有关您感兴趣的流派或艺术家的一般指导，甚至允许它在不需要提示的情况下从您过去的收听历史中学习，该怎么办？

或者，如果该产品连接到您的日历以在大型会议之前提供完美的“激励”播放列表会怎样？

Spotify 一直在向个性化、自动生成的播放列表迈进。今年 2 月，他们推出了一款AI DJ，可以设置精选的音乐阵容和评论。

它基于您听过的最新音乐以及您最喜欢的旧音乐 - 而且它会根据您的反馈不断刷新阵容。本月，他们推出了“ Daylist ”——一个自动播放列表，可以根据您通常在特定时间收听的内容每天更新多次。

不出所料，Spotify 并没有生成新音乐，而是从现有歌曲中整理这些播放列表。但该产品的最进化版本可能会涉及人工智能生成和人类创建的内容、音景、乐器和歌曲的组合。

二、AI专辑封面

人工智能生成的翻唱可以说是人工智能音乐的第一个杀手级用例。自 4 月份《Heart on My Sleeve》上线以来，AI 封面行业呈爆炸式增长，标签为 #aicover 的视频在 TikTok 上的观看次数超过 100 亿次。

这项活动大部分是由AI Hub Discord的创作者发起的，该中心在 10 月初因多次侵犯版权指控而被关闭之前，拥有超过 50 万会员，如下文所述，这些法律问题尚未得到解决。

该服务器现在已分解为更多私人社区，用户可以在其中训练和共享特定角色或艺术家的语音模型。

许多人使用基于检索的语音转换，这本质上是将某人说话（或唱歌！）的片段转换为另一个人的声音。

尽管存在法律上的不确定性，一些专家甚至创建了如何训练模型并用其制作封面的指南，并且他们将发布他们训练过的模型的链接以供其他人下载。

在本地运行这些模型之一需要一定的技术复杂性。现在有许多基于浏览器的替代方案可以为您完成繁重的工作。

Musicfy、Voicify、Covers和Kits等产品是尝试简化流程的新产品的一些示例。大多数要求您上传自己（或其他人）唱歌的片段来改变声音，但我们预计文本到歌曲即将出现（Uberduck等产品已经为说唱歌手做到了这一点）。

人工智能保险尚未解决的主要问题是法律权利，如果您在这个领域工作，请务必考虑这一点。

然而，类似的法律不确定性也伴随着其他技术变革。例如，围绕采样的诉讼和索赔定义了早期的嘻哈音乐。

经过 20 世纪 90 年代初开始的多年诉讼后，许多“原始”采样艺术家意识到，与那些希望采样其作品的人达成经济安排，无论在创意上还是在经济上都是正和的。

唱片公司投入了整个团队来清理样本，Biz Markie 甚至发行了一张半开玩笑的专辑，题为“所有样本都已清理”。

虽然一些唱片公司和艺术家感到受到人工智能音乐的威胁，但其他唱片公司和艺术家却看到了机遇——他们可以从其他创作者使用自己的声音生成歌曲中获得被动收入，无需任何工作！

Grimes 是最引人注目的例子，她发布了一款名为Elf.tech的产品，使其他人能够用她的声音创作新歌曲。她承诺将与任何能够产生收入的人工智能创作的歌曲分享版税。

我们期望看到基础设施的出现来更大规模地支持这一点。例如，艺术家需要一个地方来存储他们的自定义语音模型、跟踪 AI 封面以及了解跨曲目的流和货币化。

一些艺术家或制作人甚至可能想使用他们的声音模型来测试不同的歌词，看看给定的声音在歌曲中听起来如何，或者在曲目上与不同的合作者进行实验。

三、免版税曲目

转向专业消费者工具，如果您曾经为企业创建过 YouTube 视频、播客或任何类型的视频内容，您可能经历过寻找免版税音乐的困难。

尽管存在库存音乐库，但它们通常难以导航，而且最好的曲目往往会被过度使用。甚至有一种经常被嘲笑的音乐流派定义了这种容易被遗忘但免版税的声音：“穆扎克”或“电梯音乐”。

输入人工智能生成的音乐。Beatoven、Soundraw和Boomy等产品使任何人都可以轻松生成独特的、免版税的曲目。

这些工具通常允许您为歌曲选择流派、情绪和能量级别，然后使用您的输入自动生成新曲目。其中一些工具使您能够在输出不太正确时对其进行编辑，例如增加或减少速度、添加或减少某些乐器，甚至重新排列音符。

我们预计免版税音乐的未来将几乎完全由人工智能生成。

这种类型已经商品化了，所以不难想象一个所有背景音乐都是由人工智能创作的世界，我们打破了质量和成本之间的历史权衡。

这些产品的早期采用者主要是个人内容创作者和中小企业。然而，我们预计这些工具将向高端市场发展，无论是传统企业向游戏工作室等大公司的销售，还是通过 API 在内容创建平台中嵌入音乐生成。

四、新一代AI音乐

也许大型模型与音乐相结合的最令人兴奋的含义是卧室制作人和其他产消者（包括那些缺乏正规音乐培训的人）创造专业级音乐的潜力。这里的一些关键功能包括：

修复：记下制作人演奏的几个音符并“填写”乐句。
绘制：选取歌曲的一部分并推断接下来的几个小节可能会是什么样子。MusicGen 已通过“继续”设置支持此功能。
音频到 MIDI：将音频转换为MIDI，包括弯音、力度和其他 MIDI 属性，可通过 Spotify 的Basic Pitch产品获得。
词干分离：使用 Demucs 等技术将歌曲反编译为词干，包括人声、低音线和打击乐。

您可以想象未来制作人的工作流程如下所示：

获取一首您想要采样的适当清除的歌曲
分割茎并将有趣的音频元素转换为 MIDI
在合成器上弹奏几个音符，然后使用修复来填写乐句
使用 outpainting 将该短语推断为其他几个短语
创作一首曲目（进一步使用生成技术来创建单曲），复制或扩展录音室音乐家，并以特定风格掌握曲目

我们还开始看到专注于生产堆栈各个部分的纯软件产品的兴起；例如，生成样本 ( Soundry AI )、旋律 ( MelodyStudio )、MIDI 文件（Lemonaide、AudioCipher），甚至混音 ( RoEx )。

这些模型必须是多模式的，并且接受音乐和其他音频输入，这一点至关重要，因为许多人缺乏词汇来描述他们正在寻找的确切声音。

我们期望看到硬件和软件之间的紧密循环——包括“生成乐器”的兴起，这些乐器可能是将这些想法直接嵌入到物理产品中的 DJ 控制器和合成器。

五、专业AI音乐工具

最后，我们将讨论一个新类别的人工智能音乐产品：音乐制作人、艺术家和唱片公司工作流程中使用的专业工具。（请注意，虽然我们说专业，但其中许多产品也为独立或业余创作者提供服务。）

这些产品的复杂性和用例以及它们与传统生产工作流程的集成程度差异很大。我们可以将它们分为 3 大类：

基于浏览器的工具，专注于创建或编辑管道的一个元素，并且可供所有人访问；您无需使用传统的生产软件即可从中受益。例如，Demucs（Meta 的开源模型）、Lalal、AudioShake和PhonicMind都进行词干分割。
由人工智能驱动的虚拟工作室技术(VST) 可插入 Ableton Live、Pro Tools 和 Logic Pro 等数字音频工作站 (DAW)。这些 VST（包括Mawf、Neutone和Izotope）可用于在制作人的现有工作空间内合成或处理声音，而无需他们重新调整工作流程。
这些产品试图通过人工智能优先的方法完全重新发明 DAW ，使其更容易被新一代消费者和专业人士所使用。如今，许多最受欢迎的 DAW 已有 20 多年的历史；像TuneFlow和WavTool这样的初创公司正在应对从头开始构建新版本 DAW 的艰巨挑战。