Redian新闻
>
所以,KTV打分是有几个评委蹲在里面吗?

所以,KTV打分是有几个评委蹲在里面吗?

其他

如果你还有在KTV唱歌的“古早回忆”的话,是不是有过以下经历:


在KTV唱得声泪俱下,歌曲结束系统评分39;飙高音飙到觉得自己邓紫棋第二,结果机器评价说你的声音像腾格尔。


而你朋友鬼哭狼嚎,一个音拖老长;又或者没有技巧,只有嗓门,但得分就是比你高。


面对占据一半屏幕的打分界面,只觉得瞬间兴趣全无,只想一把关掉,安心唱歌。


K歌房里的我|Giphy


而年轻一些的,不知道KTV评分(甚至KTV)为何物的朋友,可能在短视频里刷到过这种神奇场面:本来唱得干涩难听,打开一个叫“声卡”的东西后,突然一键美声,余音绕梁。


不知从何时开始,唱歌也跟“科技狠活”捆绑在了一起,给你打分、给你修音,说你唱得差的也是它,让你一键成天籁的也是它。


作为K歌软件重度用户的作者深有体会。问:我唱得好听吗?从前,作答的是听众反馈;现在,则是屏幕上的那串分数。仿佛只有借助这剔除了主观因素的“第三只眼”,好与不好才有说服力。


但等等,电脑,是怎么听懂我唱歌的?


K歌和评分是怎么走到一起的


1971 年,当日本音乐家井上大佑带着他制造的十台 Juke 8卡拉OK机前往小酒馆时,可能并没有想到,在不到二十年时间里,这些如电子游戏机般的铁盒子将席卷世界,“改变亚洲的夜晚”,乃至为他赢得诺贝尔奖(尽管是搞笑版的)。


改变亚洲夜晚的KTV|wikimedia commons


八十年代正是卡拉OK在日本风靡的时候。约上三五好友,下班后高歌一曲,是当时许多上班族释放压力、宣泄情绪的选择。慢慢地,大家不再满足于录唱,进而追求更高的音质、更舒适的场地、视听结合的享受,以及更趣味的功能——比如,卡拉OK评分。


音乐娱乐的蓬勃发展带动生产商研发投入。1982 年,日本歌乐(Clarion)公司推出首款带打分功能的家用卡拉 OK 机 MW-5000A。随着卡拉 OK 从日本传入亚洲各国乃至全世界,评分系统也跟着漂洋过海,逐渐成为音乐娱乐中脱不开的一环。


卡拉OK机|wikimedia commons


不过,让机器给人类的歌声评分没有那么容易。


K歌评分的主要思路是比对旋律特征,音高和节奏是两项重要指标。用户演唱的旋律特征和原唱越相似,在机器看来则代表着“音准越好”“节奏越对应”,得分就会越高。


做到这些需要三步走:一是根据评分标准,提取原曲的旋律特征,建立标准模板库;二是通过算法提取被评分的干音(设备采集的未经任何后期处理的人声录音)旋律特征;最后,把两者特征相似度进行量化评估,得出分数。


K歌评分三步走


提取原曲旋律、建立标准库,离不开指令型文件MIDI(Musical Instrument Digital Interface)。这是一种编曲界应用最广泛的音乐标准格式,是计算机和电子乐器通用的“语言”。与mp3、wav等波形文件不同,MIDI文件不传输声音信号,而是传递音符、控制参数等指令,以此控制电子乐器发出适宜的声音。


MIDI文件的编辑界面 | 开源软件Aria Maestosa


由于MIDI是计算机可理解的“乐谱”,内含乐曲的标准音符,算法便可以直接从其主音轨中抽取较为准确的旋律信息,如标准的音高音长等。


相较MIDI的信息“直给”,用户K歌干音的旋律特征则需要靠估算得来。首先,要把干音切为一格格短而平稳的声音信号,就像钟表上一分钟被均分成许多秒一样;接着通过算法估计每格声音信号的基音频率(基音指发声体振动中频率最低、一般而言强度最大的振动,它可以决定音高),生成音高序列;此外还要消除噪音,修正可能存在的杂音、错音。


得出分数前的最后一步,便是把原唱和用户歌声的旋律特征进行相似度匹配。简单粗暴的方法是直接计算两段音高序列轮廓的余弦相似度。然而用户歌声的音符和原唱不一定等长,可能影响匹配准确性,于是也有算法会通过线性缩放用户歌声音符长度后再进行比较;或是通过延伸、缩短用户歌声的时间序列,使比较的两者在时间上对齐,再计算相似度等。


你可以通过KTV打分界面上跳动的音符感受到这些步骤,歌声驱动的光标画出的可以看作你的音高轮廓线。只要每个音“高度”适宜,长短合拍,机器就会奖你大大的Perfect。


光标跳动,Perfect出现 | 作者提供


当然,仅凭两个指标很难全面衡量一首歌曲的演唱质量,系统所认定的“高分”演唱在人类耳中并不一定好听。翻翻头部K歌软件的相关话题,总逃不开灵魂呐喊:“我明明唱得很好,为什么分数这么低?!”


从回答数看,大家有很多话想说 | 百度知道


人民群众在长期实践中甚至总结出了一套高分技巧:录音清晰、歌声音量大、声音平稳、尾音拖长,都可能让你获得系统青睐。


至于美妙音色,动情演绎?对不起,不在考虑范围内。


气沉丹田?这机器也懂啊?


唱歌评分需要些新花样。


2012年,在线K歌app唱吧率先把音乐娱乐挪到线上,两年后,背靠腾讯的全民K歌也加入赛道,拉开了在线KTV独占鳌头的时代大幕。主打社交属性、拥有连麦、PK等录唱新玩法的在线K歌逐渐取代线下KTV,成为这一代年轻人的K歌首选。


K歌也PK | 作者提供


在互联网公司技术实力的加持下,K歌评分进入2.0时代。这导致的结果是,靠干嚎骗过机器的难度大幅提升了。


2021年前后,一些K歌软件推出多维打分模型,除了原有的音准、节奏两项,还新增了技巧、气息、情感等几个向度。


多维评分雷达图 | 作者提供


实现思路是拆解各向度的特征,将其转化为可量化的指标。比如技巧中的颤音,这是音高在一定范围内出现的周期性变化,视觉化后反映为音高线类似正弦波形状的上下浮动。


但现存算法的分辨率不如人意,于是有人想到过滤对角化(Filter Diagonalisation Method,FDM),一种源自量子物理,通常被用于研究分子动力学与核磁共振的算法。它能比较精确地把局部基频分解为正弦波,并直接返回其频率和振幅,系统据此判断颤音的存在并检测相关参数。这一跨界让检测准确度比传统方法高了一倍。


带有颤音的频谱图(上)和音高轮廓图(下),音高线抖动部分为颤音 | 参考文献[4]


滑音是另一种常用的歌唱技巧。在算法里,它可以表现为音高线的连续滑动,即音高轮廓图呈现出上行或下行的S形。由于两端有一定的音高差并发生在有限的时间内,音高变化必然伴随加减速,这一过程必定存在两个拐点。通过这些特性找到滑音两个端点,即可辨认滑音。


插图:带有滑音的频谱图(上)和音高轮廓图(下),灰色部分是滑音 | 参考文献[4]


声乐讲究的“气沉丹田”,也在音频工程师们的努力下有了标准。比如,一个发声句句末的长音是否唱足了、声音质量好不好、前后变化程度如何,可以作为衡量歌唱气息是否充足、平稳、控制得当的标准。也有人从气口(唱歌时的吸气时刻)入手:如果原唱相邻两个音之间距离超过阈值,则设置为有气口,据此检测用户是否有不合时宜的断句或未唱满的情况。


歌唱气息评分相关专利 | 参考文献[5]


情感这样的主观领域,则被音频工程师们转化为演唱投入程度,并用音频能量来量化。通过测量不同时间尺度的音量特征和强弱起伏情况,算法便读懂了“感情”。


没有感情(上)与有感情(下)的演唱音频波形图,真实演绎“全是感情” | 参考文献[6]


不过,老方法里的提取和匹配旋律特征仍然是核心,这里面也有了技术迭代。以匹配节奏为例,市面上较为流行的做法,要么是直接比对音符长短,要么是匹配干音音高轮廓与原唱的相似度,但这对漏唱、错音或者跑调选手来说都相当不友好。


新提出的计算思路有点类似音乐游戏:首先,检测干音中音量突然变大的点,再辅以纠偏手段,这样基本能判断演唱中每个音符的起始;再根据乐曲风格设置不同长度和权重的得分窗口,只要用户演唱的音符起始点落到窗口内,就视为得分。这样既兼顾了节奏准确,又有了一定的发挥空间。


落点在窗口内距离模板的音符起始点越近,得分就越高 | 参考文献[6]


此外与老方法相比,新方法强调大数据的运用和算法更新,用户的歌声也参与到模型的投喂和训练中。这使得流行音乐依然是各大算法模型评价得最准的项目,而且越多人唱,它评得就越准。


所以下回想挑战机器的评分权威,你最好选首冷门歌曲。


不好听?一键美音走起


更让人欣慰的是,今天的声音娱乐的技术已经发展到,即便你唱歌大跑调,也能一键成天籁,就像某些歌手一样。


这主要通过调整干音的音准、节奏、音色完成。智能修音可以把跑调、杂音的部分修饰掉,除了涉及旋律特征提取和比对,还有节奏对齐、人声变调变速等步骤,让你至少不跑调,跟上拍。


提升或衰减人声中的不同频段,则能让人声变得悦耳。比如,适宜的40Hz-150Hz低音频段参数,能让人声丰满柔和,150Hz-500Hz中低音频段则与力度、浑厚程度有关,而500Hz-2000Hz的中音频段则能让人声明亮透彻——根据这些发声特点进行调整,再加上混响,原本干涩的录音就能变得圆润丰沛、富有穿透力。


干瘪的声音变圆润 | 作者提供


部分K歌软件甚至声称能基于用户上传的干音音频得到用户音色模型,从而在修音过程中把个人独特的“情感“、“唱法“等也一并模拟(通过上文你应该知道可以如何做到),得到更自然的“裸妆”效果。


不过算法的能力毕竟有限,极端情况下会把人修成洛天依 | 作者提供


柯南的万能变声蝴蝶结也照进现实。说话者身份、性别能被区分,除了依靠基音,主要还因为共振峰分布的差异。对这两者做出改变,我们就可以实现音调和音色的调整。


小黄人和巨人 | 作者提供


正如当初卡拉OK的风靡恰逢经济不景气,在刚度过的疫情三年里,歌唱让人欢乐、让人宣泄,让人找到社会支持,声音修饰也给了更多人展露歌喉的勇气。歌声,逐渐发展出了娱乐以外的社会意义。


而作为普通用户的我,仍旧习惯用歌声自娱自乐,也娱乐他人。至于唱得好听吗?屏幕显示出的那串分数,也许并不那么重要。


参考文献

[1]カラオケ歴史年表http://www.karaoke.or.jp/03nenpyo/#1990%E3%80%9C

[2]王佳迪. 鲁棒的音乐评分方法研究[D].电子科技大学,2015.

[3]Yang, L., Rajab, S. K., & Chew, E. (2016). AVA: A Graphical User Interface for Automatic Vibrato and Portamento Detection and Analysis.

[4]Yang, L. (2017). Computational modelling and analysis of vibrato and portamento in expressive music performance (Doctoral dissertation, Queen Mary University of London).

[5]江益靓. 歌唱气息评分方法及装置:. 

[6]K歌中的歌唱评价与嗓音分析https://mp.weixin.qq.com/s/sjSirgHAkGT56AHmoS4zdg



作者:方点点

编辑:睿悦

封面图来源:Giphy

本文来自果壳,未经授权不得转载.

如有需要请联系[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
赴北美:两个单程可能比往返便宜。所以,前往北美的机票可以买起来了!家里一地的棉花,罪魁祸狗们却埋在里面酣睡:拆家怪累的!270万元的“铁架房”来了!只有几个铁架子、半堵墙……中介:还是比较实惠的“所以,你是不睡觉么?”身价没有几个亿,不好意思做类ChatGPT这个评价褒贬不一的游戏,能撼动《怪物猎人》的地位吗?独家对话董明珠:“不是有问题就不行,而是有问题不解决才不行”闲话人生(226)新年乐往事,感恩三贵人所以,我现在能摘口罩了吗?哇塞!人寿对远洋的金融支持有几个亿了高校春招现“KTV公主”一职,网友怒了:“四年学习一朝就业KTV?”校方、涉事酒店回应…特斯拉召!回!36.2万台车有安全隐患,你的特斯拉在里面吗!所以,赵本山春晚消失后去哪了?所以,我有欣赏的艺人吗?(此篇多图,附无奈的“彩蛋”)[家居] 分享今年我养的那些植物,看看有几个是认识的。苏月的婚姻路(3)在奥地利阿尔卑斯山区徒步离家的时候排队抢“歼20”!千亿巨头重组引爆A股,封单资金超总市值!3万股东沸腾,20cm涨停会有几个?600份豪华学生礼包免费领取!$3000演唱会门票抽奖!SONICA音乐节、卢广仲、神秘明星演出都在里面~被亲生母亲抛弃、丧父后被继母虐待、14岁辍学去KTV打工,如今身家过亿的她狠狠打了所有人的脸…00后KTV必点曲被热议,这届年轻人还没抛弃KTV?周鸿祎突然离婚,前妻分走90亿!还有几个重大疑点回应…所以,过年带回家的书你看了吗?手枪抢劫算什么!劫匪改用“突步枪” 2女1男全部有武器在手 蹲在餐馆后巷作案免费送 Amazon Fire TV Stick!订阅 Sling TV 即可,首月再减 $15,可看中国电视频道紧急召回300,000瓶星巴克饮品!在里面发现玻璃渣,千万不要误食!心理不成熟的人,总有这三类想法,来看看你有几个?洛杉矶东边这家烤牛肠店火了,Ktown排队的人少一半地球就是一个大监狱,每个人都在里面服刑换到千般恨提问 | 还有几个月发年终奖,我要跳槽吗?蹲在厂区的VC多起来了所以,到底是哪个家长举报的“停车坐爱”据说,这道题难倒了全球99%的人:新西兰究竟有几个国家?答案惊呆了我!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。