Redian新闻
>
MP3是如何骗过你耳朵的?

MP3是如何骗过你耳朵的?

科技




  点击图片跳转视频!   




写在前面:


现在几乎所有音乐软件都普及了 FLAC 无损格式,MP3 格式早已成为过去时。但这个记忆中最常见的音频格式,虽然大小只有别人的几分之一,音质却并不差,不免让人好奇它到底使用了哪些黑科技。



  以下是文字稿 ▼  


本视频的部分内容引用了重轻老师在小宇宙的播客,「 不在场 」节目的第二季第一集,在此特别感谢重轻老师的支持。


从爱迪生发明留声机开始,人类保存和传播声音的历史已经有 140 多年。


但在最近的 20 年里,一种音频格式的诞生却改变了人们的音乐体验。那就是 MP3 。


作为世界上应用最为广泛的音频格式,MP3 的诞生第一次让音乐成为一种人人可以触及的大众消费品。


应该有不少小伙伴拥有的第一个音乐播放器,就是 MP3 Player 吧,甚至在当年,大家都默认 MP3 就是音乐的代名词。


但同样是数字音频, MP3 只有标准 CD 大小的十二分之一,而对于人耳来说,这两者的区别,有,但要比图片压缩之类的要难以察觉的多了,所以它对音乐做了什么? 又丢掉了什么呢?


大家好我是差评君,今天跟大家聊聊你最常见到的音频格式——MP3。



 MP3 到底丢失了什么?

压缩前后的区别是什么?


如果我们想减少一个文件的体积,最直接的方法就是压缩。


通常我们理解的压缩,都是重复压缩。比如你去超市买 5 瓶可口可乐,小票上不会写 5 次可乐,只用写“ 可口可乐*5 ”就行了。这个过程就相当于把文件里重复的部分用更短的字节编码。文件本身不会丢失数据,解码后也不会损耗任何信息,只是让文件体积变小了。


这是一种无损压损,实际上 MP3 的最后一步就是这么干的,它用一种叫 Huffman Coding 的算法来完成。但如果只用这种算法,MP3的体积并不会显著缩小。


因为声音本身是一种极其混乱,信息熵非常高的数据。所以这种方式不可能让它缩小到 CD 体积的 10 % 。


那既然无损压缩这条路走不通了,干脆就丢掉一些信息好了。


那 MP3 到底丢了哪些声音呢?


我们要想知道答案,最简单的方式就是对比。


我们把同一段声音的 MP3 和它的无损版本并列在两条轨道上,把其中一轨反相,那如果它俩的声音是一样的,就会互相抵消,我们就应该得到一个静音效果。这也是降噪耳机的工作原理。


但因为 MP3 是有损压缩,所以实际听起来会是这样:

但只有这样我们还说不出 MP3 和无损的区别。如果一段音乐就是在 MP3 和无损之间不断切换的,你真的能区分的出来吗?我相信你是听不出来的。


这就是 MP3 算法的神奇之处,它的压缩并不是简单的丢掉声音数据,而是在丢掉数据的同时,你却察觉不到。



 MP3诞生史  


Brandenburg 和 Dieter Seitzer 的故事


70 年代末,有一个叫 迪特·塞策 ( Dieter Seitzer ) 的德国教授突然冒出个超前的想法。他想让大家可以坐在家里,用 ISDN 的电话线,打电话来点播音乐,就跟点唱机差不多。


ISDN 是当时流行的数字线路,也叫“ 一线通 ”,你可以用它打电话、收发传真之类的,但它的速率只有128kbps 。


所以当迪特把这个想法申报专利的时候,专利局的工作人员告诉他这事儿没戏。除非你能让 ISDN 的网络速率提高十二倍,那才够传输 CD 的数据量。


迪特一听,提网速这事儿估计自己干不了,但如果发明出一种只有 CD 1/12 大小 的音频格式,不就可以搞这个“ 数字点唱机 ”了吗。于是他转头把这个发明工作交给了自己一个叫 Karlheinz Brandenburg 的学生。


Brandenburg 的硕士论文研究方向是一个叫 ATC 的语音压缩算法,迪特也是看中了这点才找到他的。但 Brandenburg 接到这个任务的时候也很郁闷。


心想 tnnd 你一个教授都做不出来,我小小一博士生怎么做的出来,但导师交待的任务又不能不完成,所以他就打算用几年的时间来证明这事儿不可能,然后论文一写,把博士学位混到手算球!而就在他证明“ 不可能发明一个比 CD 小 12倍 的音频文件 ”的过程中,他却发现,哎,这事还真是有可能的。



 心理声学与MP3  


让 Brandenburg 觉得这事儿有戏的关键,是一个极其冷门的学科,叫心理声学( Psychoacoustics )


这是一门心理物理学的分支研究,最早源于人们对音乐和乐器的探索,后来成为了研究人的生理感官和客观声音世界之间关系的学科。听起来很复杂,其实很好理解,比如人耳的声音定位,听力范围这类研究,都属于心理声学的范畴。


在心理声学里有一个非常经典的研究,就是等响曲线。这个曲线告诉我们,人耳对于不同频率的声音,感知相差极大。人类的听觉范围在 20-20000Hz 之间,而在这个范围里的不同频率下,我们听到的响度是不一样的。


低频的声音需要更大的声压才能和中频较小的声压,所形成的声音大小听起来相等。

就比如贝斯就需要更大的音量,才能跟吉他声听起来差不多大。这也是为什么贝斯这类低音乐器的音箱要比其他音箱的体积大得多。


而图中的最低点出现在 3000Hz 左右,所以说明人对这个频率的声音最敏感,只需要比较小的声压就能听到。比如我们听到的大部分的警报声,基频都在 1000-3000Hz ,这样人耳才能更容易捕捉这些声音,从而避免危险。


有意思的是,随着年龄增大,我们对于声音的接收范围也在变小,大多数成年人听不到频率在 16000Hz 以上的声音。


沿着这个方向,等响曲线的发现者又研究出了一个更加神奇的事情,让我们意识到我们的感官和客观到底差距有多么巨大。


这个东西,就是“ 掩蔽 ”( Masking )


声音掩蔽 Sound Masking


1958 年的某天下午,一个叫 Licklider 的心理学家去看牙医,他跟医生说,我不需要打麻药。然后掏出了一副耳机,开始听震耳欲聋的音乐。在巨大的音乐声中,牙医帮他搞定了三颗龋齿,而他就像被打了麻醉剂一样,竟然没有感觉到疼。


Licklider 把这项技术命名为 Audiac ,之后他带着这玩意和牙医一起巡诊拔牙,还帮助了不少妇女缓解了分娩时的疼痛。


Audiac 用了一种强烈的听觉刺激来抑制疼痛,这就是一种跨感官的掩蔽效果


在听觉系统中,一种声音也会被另一种同时发出的声音所掩盖。比如在一个乐队里,往往是吉他声在 C 位,但如果突然有相似频率的乐器加入,比如小号。那吉他的声音就会被短暂的淹没。这一过程叫作同频掩蔽


我们用一个动画来举例子,当一个频率从低到高的噪音经过一个正弦音的时候,这个声音会被噪音掩盖。


听起来就是这样:

再比如你上课的时候,想用一声咳嗽来掩盖自己放屁的声音,那你最好要满足三个条件,一是咳嗽声的时长大于等于屁声,二是咳嗽声的响度要大于等于屁声。三是要保证二者的频率接近。这三个条件都满足,才是一次出色的掩蔽。


那这和 MP3 有什么关系呢?MP3 的算法就是利用了人耳的这种特性,将歌曲中不同频率里被淹没的声音瞬间,给丢掉了。这样就可以在减少文件体积的条件下,最小程度的损失音质。


时间掩蔽 temporal masking


但这还不够。


当我们听到一个噪音戛然而止的之后,实际上会有一个 100-200ms 的逐渐减弱的掩蔽效果。在噪音完全停止后的这段时间里,比他更小的声音会被掩蔽,我们是完全听不见的,就像我们的耳朵需要 200ms 的时间回复知觉一样。


不光如此,噪音还会掩蔽在它之前的声音,虽然只有 50ms,但对于感官来说已经是相当长的一段时间了,这意味着我们的大脑需要 50ms 的缓冲才能报告到意识里。

而这个前后过程,就叫作时间掩蔽


MP3 压缩算法的核心,就是利用一个精心迭代了许多年的人体听觉心理学模型,把音乐里的每一个瞬间对应在 MP3 文件格式里的每一帧( FRAME ),检查这个帧内,上述两种掩蔽作用所发生的频率和时间段,把那些被掩盖的,我们听不到的音频信息统统丢掉。


这个过程并不单纯是精确地,机械式地判断,它的底色其实是感官上的把控。


在 MP3 算法测试初期,测试人员需要在海量的歌曲中找出 MP3 压缩算法的问题。它们要在各种歌曲的 MP3 和无损版本之间对比,而且每听一首歌他们都要评级,一共有四个等级,分别是:听不出区别、有一点区别、有点难听和非常难听。特别是最后两个选项,可以说是非常主观的判断了。


这意味着 MP3 算法的发明和改进,实际上把人的主观评判作为考量的目标之一。我们不能说这种算法是完全主观的,它也不是绝对客观的,所以它的效果也不可能在所有歌曲中都是平均的。



 Vega和音频编码标准之战  


说到这,就不得不提 MP3 发明过程中的一个小故事。在 MP3 压缩算法测试的最后阶段曾遇到过一个大难题,当时 Brandenburg 和他的同事们觉得自己的算法已经非常牛逼了,几乎在所有的双盲测试中都很难听出区别。


有天他无意中看到杂志上说大家喜欢用 Suzanne Vega 的歌曲 Tom's Diner 来测试自己的音箱,而他正好在弗劳恩霍夫实验室( Fraunhofer )看到了这张 CD ,于是他就把这首歌上传到了电脑上。


这首歌非常简单,是一个纯人声,没有伴奏的歌曲。但当他通过 MP3 的压缩算法处理这首歌之后,却得到这样一个效果。


在 MP3 较低的比特率下,Vega 的声音变得沙哑,不自然。于是在之后的一年时间里,研发团队又对 MP3 算法做了几千次的微小调整, Brandenburg 说自己至少听了三千遍这首歌,可能比地球上任何人听得次数都多。


最后他们成功压缩了这首 Tom's Diner ,也通过这首歌,真正完善了 MP3 的压缩算法。


许多年之后,Brandenburg 真的遇到了 Vega ,而且还现场听她唱了那首Tom's Diner。尽管已经听了无数遍,但他说,这首歌依然很好听。


Brandenburg 终于在 1989 年发表了他的论文。下一步就是将这项技术推向世界。也就是在 90 年代初,业界突然出现好几种新兴技术,它们正在寻找一种新的音频编码标准来使用,这其中包括我们熟悉的“ CD-ROM ”和“ DVD ”。于是他和他的团队向动态影像专家组( MPEG )提交了参赛作品,他们要和另外 13 个团队竞争新的音频编码标准。而最大的竞争对手来自一个名为 MUSICAM 的组织,这个组织的背后是飞利浦,当时飞利浦手握 CD 光盘的专利,可以说是如日中天。


所以尽管他们团队的技术数据量更小,音质也更强,但最后还是输给了 MUSICAM 。


因为MUSICAM 的算法需要的处理能力更少。在当时处理器普遍不太行的时代,确实更有优势。


因此在当年,MP3 是一个妥妥的失败品。连它的发明者也已经开始着手研究新的音频编码。MP3 就这样被扔进了历史的垃圾堆里。


直到 90 年代中期,两种革命性技术的诞生,让 MP3 这颗弃子重新活了过来,那就是万维网和 Windows 95。


一个同样来自德国的研发团队,开发了一种用于 MP3 的软件播放器,并且发布在了 Windows 系统上。


当时,1 GB 大小的硬盘刚刚开始普及,存储空间非常珍贵,反而处理器有了巨大的提升。所以体积更小的 MP3 慢慢被大家接受,也意外的成为了新的音频编码标准。1995年7月14日是 MP3 的生日,Karlheinz Brandenburg 和他在弗劳恩霍夫研究所的同事们( Fraunhofer )决定把这个压缩算法的文件扩展名,根据行业标准的全称 MPEG-2 Audio Layer III ,命名为 .MP3。


到了 90 年代后期,“ MP3 ”取代“ SEX ”成为搜索引擎上查询最多的词。某次 Brandenburg 在香港出差时,看到橱窗里摆着 30 种不同品牌的 MP3 播放器,他心想,“ 好吧,我们终于赢了。”



 MP3 正在消失  


MP3 的诞生比我想象的要复杂的多,它是一个耗时多年,经历了无数迭代才得到的科研成果。这个成果可以说是重塑了人类音乐产业。也正是由 MP3 开始,音乐,成了一种人人可以触及的大众消费品。


从黑胶、磁带,再到 CD、MP3,每一次技术革新都在改变人们的音乐体验,也在改变大家消费音乐的方式。而 MP3 在这段历史中格外的与众不同。推崇它的人认为,MP3 无比伟大,它让大家都能便捷地享受音乐;而反对它的人,视它如猛兽,因为它吞噬了唱片公司赖以生存的版权,以及唱片业曾经的黄金时代。


今天,数字音乐留了下来,但 MP3 已经走到了被时代淘汰的边缘。我们再也不需要把音乐下载到播放器里,再用播放器来听音乐,大家都是用手机在线听歌,5G 通讯和几百G内存,让音频压缩变得更没必要,音乐平台也渐渐转向了FLAC等无损格式。


但我们都记住了那个听 MP3 的时代,和那些陪伴过我们的音乐。


好了这就是今天的内容,这期视频跟平时有点不一样,我们引用了重轻老师在小宇宙的播客,「 不在场 」节目的第二季第一集,感谢重轻老师的支持,也希望大家能去小宇宙收听重轻老师的「 不在场 」节目。谢谢各位的观看,如果你喜欢的话欢迎你一键三连,如果你有什么想说的,也欢迎你在评论区和弹幕里跟我们互动,最后最后拜托拜托关注一下我们,我们下次再见。


撰文:杨子   视频制作:张咏 & 小爪
动效: 天宇   美编:焕妍(视频)& 萱萱(推文)

图片、资料来源:

不在场 S2E1 MP3   -重轻

Equal-loudness contour

Karlheinz Brandenburg,Dieter Seitzer,Huffmancoding   -Wikipedia

How MP3 Got Its Groove  -Internet hall of fame

The History of MP3 Technology   -ThoughtCo.

The Human Auditory System   -ScienceDirect

The Music Industry Strikes Back | System Shock Ep 2  -Bloomberg Quicktake: Originals

How a Suzanne Vega Song Helped Create the MP3 - Great Big Story

Perceptual Coding: How Mp3 Compression Works -WaybackMachine

SOUND THAT KILLS PAIN  -  Will Stephenson

语音信号处理  -韩纪庆

声学发展史之——心理声学(Psychoacoustics)  -知乎 子鱼

MP3 走到了终点,为电话和广播而生的技术,改变了整个音乐产业  -好奇心日报

BGM:

djB - 223's (Instrumental)

Byour_elf-Hero_Instrumental

Kar Vogue - Feel It Still (Edit Instrumental Mix)

red-dot-watermark-high-musicbed-licensed

Goldroom - Silhouette

PETO - UloveitwhenIMSAD

Twin Musicom - Rhodesia



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
中国企业是如何修炼“内功”开拓全球娱乐多媒体新战场的?​网课,是如何把妈妈逼疯的?底线是如何被击穿的?Web3是什么?资深Web3行业大佬Mark为大家解读金正恩宣布朝鲜出现奥密克戎!病毒是如何进入朝鲜的?最高增速517%,神经介入是如何逆袭的?要全面、准确、辩证地理解普京引人关注的隐形正畸行业,商业模式究竟是如何构建的?陌上花开781 见过世界却没见过你,望我们以终为始,共赴山海一种止痛药是如何变成“毒品”的?|赛先生书评“天临四年,知网被查”:这个“知识基础设施”是如何变成过街老鼠的?疫情之下,上海大厂是如何让项目平稳上线的?直播间的金钱帝国,是如何建造起来的?专访点点互动CMO吴庆,出海爆款《菲菲大冒险》是如何炼成的?《沙丘》背后的故事,一场征服宇宙的圣战三士渡2022研究生录取再攀高峰!近百枚美国藤校&TOP30名校录取“春种一粒粟,秋收万颗子”是如何被智慧农业颠覆的?在一片红海中,vivo X80是如何把高端这事做成的?朝鲜药店是如何应付金正恩亲自突击检查的?能用耳朵听的特稿是什么样的?【健康养生】推介一个增强免疫力的好方法只有5天时间,且GT同时备考...顶着巨大压力的我是如何成功分手的?有大格局的公司,是如何对待离职员工的?本土化最火的血染甄嬛本是如何创作的?一个商业顾问,是如何住酒店的?王心凌Twins郑秀妍……浪姐3是8090后的集体回忆杀“我是如何优先获得国航的候补机票,踏上回国之路的?”我是如何阅读一篇《经济学人》的?维基百科又双叒叕翻车!高中生瞎编俄罗斯历史骗过教授印度与俄罗斯的感情刀锋战士:漫威里的“边角料”是如何成为IP的?成年人是如何渐渐失去朋友的?关于乌克兰和俄罗斯,我们还是要理清一些基本的事实:你被希拉里骗过吗?从小遭家暴、恋爱被小三、负债过万重病缠身:1年时间逆风翻盘,她是如何做到的?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。