DeepMusic刘晓光:用AI做音乐,我见到了儿时偶像周杰伦 | OMEGA访谈录
短视频方兴未艾,也带动了音频行业的发展,但是因为音乐创作本身具备一定的专业性门槛,非专业人士很难借助音乐来表达自我。然而正如全民K歌等软件降低了录歌的门槛,让大量的非专业人士享受到了自己录歌的过程,AIGC的发展也给音乐创作带来了另一种可能性。
成立于2018年的DeepMusic(灵动音科技),是国内首家基于自研AIGC能力打造音乐引擎的国内人工智能音乐服务商,致力于将AI音乐技术转化为面向各类音乐人群的场景级应用及产品。不同于传统的音乐创作软件,DeepMusic降低的不仅仅是音乐制作工具的使用门槛,而是借助AI技术全方位降低音乐制作过程中诸如作词、作曲、编曲、演唱、混音等一系列难点,让一个不具备乐理知识的人,也能够在DeepMusic的加持下实现音乐创作。
别小看这一举措的意义,目前全球的音乐用户高达16+亿,然而能够参与到音乐制作的人数占比不过寥寥,这一切都源于音乐制作的高门槛阻拦。“我们想要让音乐爱好者可以不用花大量的时间系统学习音乐,没有乐理知识的人也能表达自己的音乐天赋。”正如DeepMusic灵动音科技的创始人兼CEO刘晓光所期待的,DeepMusic在AI的加持下,推出了AI随身音乐工作站“和弦派”,能够基于AI音乐生成引擎,从和弦入手来进行音乐创作,极大程度上让音乐创作轻而易举。
今天的OMEGA访谈录,我们邀请到的就是DeepMusic灵动音科技的创始人兼CEO刘晓光,大家感兴趣的关于AI音乐数据化领域的赛道和机会的问题,他将一一作答:
1. 选择AI音乐数据化赛道创业的原因?
2. DeepMusic有哪些标新立异之处?
3. AI辅助音乐创作是利还是弊?
4. AI辅助音乐创作有着怎样的前景和未来?
5. 参加OMEGA课程的所见所得?
“让每一个人都成为音乐家”
先请刘晓光介绍一下自己和DeepMusic这家公司。
大家好,我是刘晓光,在清华化学系读的本硕博,后来和朋友一起创办了灵动音科技这家公司。我们公司是做音乐的AIGC方向,希望能够用AI去降低音乐的各种各样的门槛,让更多人可以参与到音乐的学习、练习、创作和娱乐中。我们非常坚信我们能够让每一个人都成为音乐家。
晓光你作为一个可以投身化学事业和制药事业的科学家,为什么会选择这样一个创业方向?
其实我和音乐还是有很多渊源的,从三岁半就开始学电子琴,音乐是我的兴趣爱好。我大学时候除了花少部分时间学习,其他时间都基本投入到了和音乐相关的事情上。现在我之所以会做音乐方向的创业,可能和我三段经历非常相关。
第一段经历,我在大学一直当校园歌手,也写了很多歌想制作出来,所以我研究了很多乐器的演奏方法,还学会了编曲和音乐制作。第二段经历,我是清华大学2011年时的吉他协会会长,当时我们吉他协会有30多位骨干,这些骨干里有很多既懂音乐又懂技术的伙伴,后来也成为我们团队最重要的一批理工男。第三段经历,有段时间我去一线做了音乐老师,负责教5-12岁儿童学习音乐基础知识。所以我现在创业,聚集起来的是三个群体的伙伴,清华的理工男朋友们,做音乐教育时积累的朋友们,还有一直在做音乐制作的朋友们,我们三拨人组成了这家公司。
音乐创作也能降本增效
DeepMusic做的产品,是如何从科学上和算法上实现它的机器作曲过程的?
其实我们在做的事情,就是用AI赋能音乐生产过程。这一代的AI都是data driven(数据驱动)的,我们有很多数据,需要对这些数据进行标注,所以我们花了非常多精力,去标注出一个非常丰富且有足够量的数据集。我们希望AI能够读懂这些音乐里面的具体音乐知识,所以我们把音乐通过“音乐信息提取”的方式,把它变成各种各样的音乐的符号。通过音乐的知识和音乐的符号,能够把音乐做一个降维,这样我们就可以通过人类已经创造过的这些音乐,去生成一些新的音乐。
在传统音乐创作上,过去的音乐人是怎么创作的?有了我们的产品之后,会有什么样的变化?
过去我们想去做一个音乐创作/做一首歌,大概要经过“词曲编录混”五个过程,从偏技术角度去讲,这些都来自于不同模态,尤其是混音,它是一个偏工程化的事情。如果你想通过一款产品,完全赋能到这个场景上,我们觉得是可能的,但它的工程化的量是极大的。它需要的一个工程化的基础叫“数字音乐工作站”,即我们去做音乐用的软件,里面有各种各样的模块技术,能够帮助音乐人提供里面的一些价值,这个价值可能分成两部分:
第一,比如说作词,音乐人可以运用AIGC技术,快速给自己提供灵感,从而让创作过程变得更简单。
第二,在曲和伴奏的制作过程中,音乐人都需要这样的灵感,所以我们在曲和编曲这块投入了最大精力。我们认为这是在AI音乐领域里最交叉的两个环节了。
普通人利用DeepMusic来制作自己的歌曲,成本大概是怎样的?和GarageBand这类产品最大的不同是什么?
这个成本包括时间成本和金钱成本。普通人想做一首自己的歌,金钱成本主要在编曲、录音和混音,起码得花费4000元以上,这还是词曲创作主要由自己完成的情况;而运用DeepMusic的产品“和弦派”,编曲的金钱成本相对于传统方式而言几乎可以忽略不计。
时间成本方面,用户只要输入和弦,就可以快速得到想要的编曲,并且可以随意变换风格、音色,及每一个乐器的演奏方式。我们的内测用户大多可以在10分钟内完成一首歌曲的初步编曲。如果用户不懂和弦知识,和弦派也将提供“哼唱配和弦”等算法,进一步降低门槛。
关于和弦派和GarageBand的最大不同,主要体现在三方面:
一、 我们自研了音频引擎Mutrix,让音乐编辑可以在不同性能、不同系统、不同品牌的手机上都可以实现,做到了真正的跨平台高性能音乐创作体验。
二、 Garageband对于普通人而言使用门槛依旧很高,需要了解甚至会演奏每一个你想编辑的乐器,才能得到高质量的创作结果。和弦派是运用基于和弦的乐器生成算法,用户不需要乐器学习也能得到高质量的编曲结果。
三、 传统的工作站都在以很多轨道去呈现音乐信息,和弦派是用更直观的功能谱呈现音乐创作部分的信息。用户可以更直观地输入和弦、旋律、歌词,然后AI制作功能就能很直观很简便地帮助用户在和弦派中一站式获得高质量的完整性很强的Demo。
我们必须承认,GarageBand是一个非常强大的苹果手机音乐工作站。总结来说,和弦派和GarageBand拥有接近的上限,但和弦派大大降低了门槛,包括设备的门槛、学习的门槛和音乐认知的门槛。
音乐创作的中心还是人的情感
音乐往往蕴含了很多超越声音本身所表达的内容,情感、情绪等等,如果只给模型听一首歌的一部分,你觉得它能理解创作者的真实意图吗?怎么能确定它理解的就是正确的呢?
首先我们认为,AI去听懂人类的音乐可能分成几层:最浅的一层是里面运用了什么音乐知识,比如有人声、吉他、鼓点,音高什么样,歌词段落什么样,重低音什么样等等,这些是AI去听懂音乐所含音乐知识的过程,其实涉及一个领域叫“音乐信息提取”。再进一步,不管是想让AI去理解知识也好,还是直接去了解其中表达的情感也好,一定要有一些配对的数据,比如人要标注大量的音频里表达的是什么。我们觉得可以直接从音频去标注一些音乐片段里面表达了什么,但这其实是会比较困难的,因为一个人认为是情感,另一个人不一定认为是情感。
你觉得将来AI会完全替代人去做创作吗?
其实我们还是比较深度地思考过这件事情,不只是音乐,很多内容场景实际上都分为了艺术型内容和功能型内容。其中艺术型的内容是人,他还是要表达自己的情感,可能会通过一些创作的方式,最终还是要达到一个自己的艺术追求;这种场景下,工具或者AI再有能力,依然没办法完成这个场景。但如果是功能化的场景,比如我想用AI生成一个视频配乐,那我觉得AI是完全可以做到的。
尤其是现在短视频制作如火如荼,像抖音这样的平台就是一个非常大的利好。一方面视频配乐受到平台版权局限;另一方面我们想匹配到更好的音乐比如卡点功能,以前都需要创作者付出大量工作时间才能够完成,但AI可以通过各种各样的手段,去控制一段音乐去配上一个视频,实际上它就可以把创作流程缩短很多。
它会涉及版权问题吗?
我们会让用户在这个产品里提供其创作的一首歌的词曲,然后我们的AI为其创作伴奏,其实伴奏就是各种乐器的音轨以及乐器的演奏,这些是不涉及版权的。实际上它更像一个工程化场景,没有特别创作化的场景,更多还是用户自己去创作,我们的产品更多是帮其完成不太容易学习的除创作以外的所有部分。
AI辅助音乐创作商业化前景广阔
您现在在做的这个事,您觉得它会成为一个单独市场吗?如果未来咱们已经积累了大量数据,但是巨头突然冲进来了,也可以随时来做这个事,那你有没有觉得这种挑战也会很大?
我认为大家已经慢慢关注到音乐标注是一个很重要的事情了。其实音乐标注的门槛比别的像自然语言图像的标注都会困难一些,因为音乐标注需要非常深的一些音乐知识。我们从最开始做这家公司时就认识到这件事情,所以我们有一个十几人的数据组,他们都是非常专业的音乐人,把这些数据标注得非常精准。
其实这里边要建立的一个模态连接,就是音乐的符号,它是描述音乐信息的一些自然语言,和音乐音频模态进行一些连接。想把音频描述成这些自然语言/符号的话,它的门槛超级高,并且我要非常精准的数据,比如你想把自然语言和音频这两个模态之间进行连接的时候,你也需要大量的对位的这种数据。
大模型出来以后,资本集中的力量,第一批一定要放在自然语言上,之后是图像上,之后一定就是音频了,所以音频的成果在未来不久一段时间里一定就会出来。它最开始的一个体验大概率是自然语言和音频的交互,但是自然语言想做更精细化的控制,一定需要更精细的音乐数据和音频的对位数据。在未来,不管最终音乐人会用什么样的生产路径,这种对位数据都是很重要的。我们自己也为数据这件事做了自己的标注工具,现在有些大厂在做音乐生成/音乐识别工作时会要这些数据,其实最精准的一批数据都是我们提供的。
我问一个比较商业化的问题,现在有多少人在使用我们的应用,是B端还是C端为主?
我们认为我们在做的是音乐的AIGC,AI其实代表的就是它的商业前景,它的商业价值主要体现在,它会让一些内容的生产过程变得更快更便宜。所以我们认为,AIGC提供的价值能够在这种已有的商业里去提供更多可能性。像这样的功能,我们提供给B端,像赋能在全民K歌端上的这个功能,目前已经让我们的 AI编曲技术触达了千万级用户。
同时我们希望我们的技术不仅能够赋能到现有的商业模式,还能够让更多人进入到更深度的音乐世界里,不只是停留在听音乐和唱歌这类简单的音乐娱乐行为里面。我们在做AIGC音乐产品时,可能往两个方向去走:
第一,在功能性音乐上直接能够满足很多场景,像我们的BGMCAT产品,目前每个月都会收到上万次音乐生成的申请;第二,我们另外一个产品是口袋乐队,我们希望可以通过它,让用户去理解音乐,并且进一步降低玩音乐的门槛。我们想用这种非常亲民的可视化方式,让每个人能够感受到音乐带上视觉、听觉的各种各样的交互。
DeepMusic降低了音乐制作的门槛,我们注意到公司和全民K歌之前有过合作,能否谈谈未来商业化路径有哪些?
研发全民K歌的腾讯音乐娱乐集团是我们很关键的战略投资人,为我们提供了非常多市场化的验证场景。比如我们刚刚把AI编曲功能实现到突破临界值后,全民K歌便给了我们“AI换曲风”的场景,到目前为止用户使用AI伴奏已经超过3亿次,这样的验证会比“图灵测试”更有说服力。
其实以AI音乐技术服务平台并不是DeepMusic的目标,DeepMusic是真的心系广大的音乐爱好者,希望让大家可以更轻松地体会到音乐实践的快乐。创作之所以对大多数人而言是枯燥的,是因为这个过程需要耗费大量脑力和能量。我们通过全新的AI辅助创作功能,给予用户大量灵感,就能让每一次对音乐修改消耗的能量值大大降低,让本来枯燥的过程变成有趣的过程。
我们的产品“和弦派”将不断完善AI创作功能,帮助音乐人提升工作效率,降低音乐甲乙方的沟通难度。同时让AI辅助的创作方式成为本来不具备创作和制作能力的音乐爱好者的主流音乐实践方式。我们相信AIGC应用端的商业模式落地很可能在音乐领域很快达成。未来AI将真正参与到音乐实践各个环节,让音乐可以在“和弦派”中一站式完成,好的作品、有消费价值的作品也会越来越多。届时我们会为用户争取更多的收益。
现在人们常常感叹乐坛没落,您觉得DeepMusic的出现,能不能给乐坛带来一些惊喜?
这里所提到的感叹乐坛没落,可能是说没有新的优秀的音乐人,没有新的优秀的音乐作品出来了。我并不这么认为,我觉得只是音乐发行渠道的变化让获得关注的歌有了一定变化。其实好的作品依然存在,只是被算法淹没了。然而近两三年,商业作品已经在往更高的艺术性演进了。
我觉得DeepMusic的出现很难在短期内给乐坛带来惊喜,音乐这样的内容领域一直是头部集中的,而AIGC技术在音乐领域做的事情是降低门槛,做出趣味性等。这会先给广大音乐爱好者带来新的有趣的音乐实践体验,而给乐坛带来影响还需要一定周期。
方便透露一下DeepMusic之后还有哪些方向上的突破吗?
我们接下来的主要目标是:把已经研发很久的AIGC技术做产品化落地。我觉得谈不上新的突破,就是踏踏实实地把一个个痛点解决,让一个个技术能力真正突破用户愿意长期使用的临界值。我相信AI创作旋律、AI配和弦等功能会给音乐爱好者带来惊喜的。
“当CEO和当歌手有很多相同的部分”
创办DeepMusic是否让您圆了追星梦?和哪些乐坛大咖有过合作?
我最爱的音乐人是周杰伦和李健,最爱的幕后工作者是钟兴民和黄雨勋(我还扒过他们编曲的大部分歌曲),在创业过程中,我有机会见到了我所有的偶像们。健哥在精神上给予我们很大帮助,他鼓舞我们要坚持做对的事情,克服一些短期诱惑。雨勋老师在研发上给予我们很大帮助,他手把手地将最先进的编曲思路和手法交给我们,并为我们制作了一些最顶级的训练数据。我一直在向我的偶像们学习,坚持对音乐的敬畏。虽然我主要的任务是做产品、管理公司等等,但我依然坚持每个月完成一首编曲。
能否聊聊看是如何拿到李健的投资的?他用过DeepMusic的产品吗?
第一次因为DeepMusic项目和我的偶像健哥接触是2017年年底,我想他做出决策的最主要原因,也许是因为他当时看到了我对AI音乐这件事情如此坚定且有热情。健哥毕业于清华最累的系之一——清华电子系,基本所有理工科课程都要学得很深入,所以2017年健哥完全能领会到“神经网络”是什么,这给了我惊吓级别的惊喜。另外健哥不用智能手机,所以我的目标就是让健哥因为DeepMusic的产品换智能手机!
从喜欢音乐到创办了一家自己的公司,当上CEO和当歌手可能路径截然不同,您觉得最难的地方是什么?
我觉得人类大脑有一个特别好的机制,就是会让我们忘记很多痛苦经历的细节,从而让我们更好地生存下去。关于难的事情,我的回答和其他同阶段的创业者没有太大区别,只是因为有时候太痛苦了,我会选择放大所有创业带给我的幸福体验。
其实我觉得当CEO和当歌手有很多相同的部分,前者最核心的是自己的作品被听众持续需要,这其实和做产品非常相似。另外在这两个身份上,“启动效应”都有重要的作用。我是一个ETJ非常极致的ENTJ,所以当CEO一直让我很苦恼的是:做决策时总要面对很多不确定性。好在我自己在不断进步,我越来越会把要验证的环节描述得更清楚,拆到更细,在遇到问题和挫折的时候,坚定自己可以做成,如此一来好像确实更容易做成。
上次在OMEGA活动还看到您弹琴的片段,请您谈谈参加OMEGA课程的感受。
我觉得通过OMEGA课程的学习,我发现了很多自己在创业过程中总结出的“小经验”,是经过了严密的科学论证的结论,还有很多自己在困惑的事情,原来也有那么多已经可以进入书本的经验能够借鉴。我会把自己没有想透彻的业务问题和思考逻辑与班上的同学分享,被他们一句话指出核心问题的时候非常爽。另外我在课堂上有所收获的同时,我应该也为其他伙伴带来了基于音乐的情绪价值。我有多次组织一堆创业者创作班歌、排练录音的经验,沉浸在音乐中时,所有人都可以忘记一切烦恼,甚至拥有心流体验,我希望可以把这样的体验带给我的用户、同学。
微信扫码关注该文公众号作者