天猫精灵今天推出Sound系列，沉淀四年的智能声学有何不同？

科技

2022-06-01 12:06

天猫精灵一群工程师在实验室磨了4年

”

作者 | 余快

编辑 | 王川

“用几千元买多个智能音箱，还不如配一套传统音箱听得舒坦。”

在后智能音箱时代，人们越来越意识到这一点。

音箱应该是一扇一尘不染的玻璃窗，音乐和声音像光一样透过它，呈现所有声音最真实的、最原始的状态。

一个高品质的音箱，应该是频响曲线更平直（音染少）、更大的低音单元（低频量感更足）、辐射角度大（更广的听音范围）、额定功率大（更远的听音范围）、更低的总谐波失真（声音还原度高）等。

但是在现实中，极致的听觉体验与智能化技术成本之间，却有着天然的矛盾，一度成为智能音箱的珠穆朗玛峰。

从苹果Homepod高端产品，最终缩减到Mini款，华为Sound经历多次产品迭代，才逐渐形成声量，便可以看出难度。

这本质是一场声学架构、人工智能、硬件、声学、审美等各方面实力的综合考验。

天猫精灵普惠款智能音箱，大多有超越价格的声音表现。直到上周，其才第一次公布了来自哈曼、JBL、飞利浦等业界专家成立的精灵声学团队，也是这些专家成加入4年之后，首次对外公开精灵声学实验室（Genie Sound Lab）。

一周前，精灵声学专家对雷峰网在内的媒体，用盲听方式展示了与全球顶级声学机构波士顿声学（BostonAcoustics）联合调音后的声音表现，当时虽然要透过直播软件和现场收音两重声音压缩，仍能感觉低音与众不同。

双方联合调音的Sound系列智能音箱，主打极致低音与精准现场还原，今天开始预售。雷峰网第一时间体验了天猫精灵Sound Pro。

高质量的声音体验如何判定？

从雷峰网的天猫精灵Sound Pro开箱体验看，它目前满足了一款高端智能音箱应有的期待。

外形神似春笋，黑色与各类家居都较为百搭，机身采用了飞织网布进行包裹，按键区域在机身顶部，形似飞碟，金属材质，配置了灯带，质感十足。

小编立马来了一段音乐初体验。

鼓声输出自然而饱满，能够感受到鼓声的深度和弹性，环境低频包裹饱满，轻快类音乐的鼓点有层次感，细节也清晰自然。

主打低频，但低频声音没有掩盖音乐本身，这对于强调低频的产品来说极为难得。

智能灯带会跟随音乐闪烁，音乐节奏感和律动感非常强。

空间感上，360 度环绕设计，在摆放位置上的影响降到了最小。

音质表现到位，内容资源非常多，市面主流音乐平台内容都有，另外还有电台、有声内容和以及儿童学习资源等。

初体验，小编最想详细聊聊的还是低频音质。

低频：音频的支柱

先讲讲一款高端智能音箱的核心之一：音质。

音质对于音箱意味着什么？如同饭店的饭菜。

尽管在智能交互上折戟，但苹果HomePod的工业设计和音质表现迄今为止无人可超越。

判断音质的好坏有一套客观和主观的科学方法，有几大指标：灵敏度、频率响应、指向性以及失真度等。

1、频率响应：是给扬声器输入一个恒定的电压时，扬声器产生的声压随频率变化。

它的作用在哪？

与眼睛只能看到特定波长的光一样，人耳能听到的声音频率范围为20Hz～20KHz。

所以理想的频率响应应为20Hz~20KHz，这样就能完全呈现全部音频，但现实上几乎不可实现。一般的扬声器频率响应在100Hz-120KHz，这意味着大多数的扬声器都存在低频缺失。

2、指向性：高频指向性强，而低频指向性弱，相当于声音会向360度方向辐射。

举个例子，你也许经历过生活中，当音箱没有正对自己，对中高频声音的感知会更迟钝。

3、失真度：顾名思义，即不能完整、逼真地呈现原本的声音。失真会破坏原来高低音响度的比例，改变原声音色。

目前，低频失真是导致唤醒失败的重要原因。

发现没，衡量音质的几个核心指标都与低频有关。目前音频产品讨论最多的话题之一就是低频听感。

所以低频是一栋房子的地基，地基不好，房子修得再高也是无用功。

不夸张地说，低频决定了整个音频的基调和节奏，是支柱般的存在。

与高频相比，人脑对低频并不敏感，但生活中大多数声音都处于中低频。

目前不少智能音箱在低频上存在不同程度的问题。

要么，低频不足，声音干瘪，听起来拖泥带水，或沉重，或松软等。

要么，低频过量，渲染自己的“超重低频”，为了还原低频的震撼，刻意进行低频增强，但实际听感如地震般，让音乐被扬声器本身声音掩盖，声音会产生闷布、浑浊感。

好的低频效果应该是清晰而精准的，干净而结实的，每一个节奏都能被分辨。

如何在保证低频声波被人耳感知的背景下，不干瘪、不浑浊，清晰还原声音，是业内面临的挑战。

天猫精灵声学实验室负责人汪涛看来，干瘪的其中原因之一是腔体的容积不足。

一般而言，音箱箱体容积率越小，低频谐振频率越高，音箱下潜不深。音箱容积越大，低频下潜越深，低音谐振效果越好，低音延展性越强，即人脑感官的更好听。

但另一方面，太大容积率会强行拉大低频下潜深度，减少扬声器的中低频量感，从而使低音有气无力，变薄，此外，材料成本和运输成本也会更高。

如何理解？

前文提到，低频的声音会向360度方向辐射。一只青蛙在500ml的玻璃瓶中的叫声和在5L玻璃瓶中的叫声相比，后者的感官更好。

如何平衡且能最大程度还原极致低音的震撼之感，是天猫精灵四年来探索的问题。

天猫精灵在Sound系列中，应用了天猫精灵小体积大音腔的独家专利技术——智能一体腔，内部称之为“猫腔”。

这并非一体腔技术首次露面，智能一体腔诞生始于方糖，当初其99元的高性价比，覆盖极广的用户范围，随之而来的是极广的音乐品类，这意味方糖需要做到满足各个频段的音乐类型播放，且不损害声音，同时兼顾成本。

这是一个极具挑战性的尝试，为此天猫精灵在产品设计之初就将关乎听觉享受度、清晰度的极致低音考虑在内。

在产品设计过程中，架构设计是底座，也是重中之重。

于是，经典款方糖的结构设计上，放弃了前壳分件设计的“卡扣+螺钉”形式，创新地采用了自动化高的点胶工艺，如此既保证了音箱的低频震感，又让组装效果更和谐，并在当年一举成为业内首款无缝隙音箱。

而此次将问世的高端智能音箱，团队更是在声音体验上吹毛求疵。

以架构再生为例，声学的经典架构诸多，包含声学电子架构、声学软件架构、声学结构架构等等，为了确保每一架构的智能声学效果达最优状态，他们深入行业、了解用户需求、创新技术、研究竞对。

硬件团队在方糖一体腔的基础上，为了升级极简架构，在多系列产品中反复实验，形成智能声学发展框架。

最终他们将同体积音箱的容积率提升了29%，据悉新品的音腔容积会达2700CC，即便与同体积的传统蓝牙音箱相比，都属于“天花板”级别的超大音腔。

在天猫精灵的智能声学闭门会上，现场播放了一段检验低音的音乐。

音乐响起的瞬间，鼓点具有让人精神抖擞的质感，震撼而宽厚，中低频时，声音错落有致，张力十足，当音乐在急促与舒缓间流动时，过渡平缓自然。

曲毕，鼓声的澎湃与恢弘犹在耳边，临场感非常强。

均衡器的智慧

音乐通常由多种声音组成，各种乐器、人声等，不同声音的频率、信号强度不同。

如何让各个频率的声音都恰如其分地表达，从而达到整体和谐，就需要均衡器出马。

均衡器，简称EQ，是一种可以调节各种频率成分电信号放大量的电子设备，通过调节电信号补偿扬声器和声场的缺陷，补偿和修饰不同频段的各种声源，同时调节某个频段时不影响其他频段。

一句话总结，提高音箱系统的音质和总体性能。优秀性能的EQ调音能够巧妙地还原同一音轨中多重乐器、人声等。

均衡器的调节并不简单。

比如，超低音的多度提升会让音乐浑浊、发闷；低音提升不足时声音单薄，过度提升明亮度下降，鼻音加重；

中低音不足时，人声显得无力，被音乐覆盖，过度提升低音会变生硬，如果存在混响，声音清晰度会严重受损。

中音调节不足时声音模糊，过度提升则会产生电流声；中高音不足时声音穿透力不够，过强语言会被淹没。

高音过度提升会影响声音层次感，短笛、长笛声音突出，同时语言的齿音加重和音色发毛；极高音过度提升声音刺耳不自然。

声性能测试上，一个完美的音箱，应该在各个频段都具备饱满、平直的特点。

通常EQ调音需要专业的设备和软件，也需要专业人士，需要极强的声学、心理声学知识和经验。

如今业内非专业人士对EQ的使用，一定程度使得EQ效果参差不齐。

其中一个问题，就是过度渲染。

天猫精灵一直致力于打造不包浆的均衡器，还原音乐本质的情感表达。

但并不是一个简单的问题。

既要根据用户个人喜好对音乐风格进行定制化的智能调音，又要兼顾不同音乐、不同播放设备的声量大小。

这意味着智能EQ要在保证极致低音体验下，综合平衡音乐风格、播放设备、个性偏好等多重要素进行多重EQ调音。

这并不是堆料思维、八爪鱼逻辑能解决的问题。

首先，天猫精灵拒绝过多配置EQ模式，采取了简单的四种模式仅做适度渲染，让三频均衡，低音浑厚有力，中音温润细腻，高音清澈通透，确保精准还原音乐细节。

另外，智能EQ还秀了一把肌肉，额外提供了1040个智能动态参数，满足多元个性化需求和不同曲风偏好。

此外，根据人耳对不同频率的声音反应不同，天猫精灵的智能EQ将与AI识人等技术结合，个性化定制音量大小。

比如听书适合增强人声的频段，而对不同风格的音乐，则需对音频内容进行智能分析并利用分类算法进行学习归类，对应给出N种EQ设置的声音音效。

而这就涉及到我们下一个话题，智能交互了。

什么是最关键的智能感？

高品质声学体验，需要的不仅仅是声学，更需要智能。

在智能音箱体验层面，一直存在的语音交互技术难点大致有四：

鸡尾酒会问题：即在有多个声源背景下分离语音问题；

语音唤醒：最直接的是唤醒效果不佳；

回声消除：要和智能设备的音箱效果之间平衡，音箱与麦克风距离

噪音和混响：高灵敏度麦克风SNR降低家庭场景中的墙壁反射形成的混响

为突破这四大难题，天猫精灵为这次智能音箱新品，打造了两大智能方案：基于音乐推荐的AI识人交互分发引擎和猫耳算法。

为了千人千面的体验

音箱应用最广泛、最核心的场景是家庭。

音箱的首要功能是听歌，但目前横亘在用户听歌体验最大的障碍，是音乐APP的版权问题，用户需要下载多个APP，甚至每次听歌，需要逐个APP寻找。由此带来的体验割裂感。

天猫精灵为此推出了新一代平台聚合方案，支持QQ音乐、酷狗音乐、酷我音乐和网易云音乐，实现多平台无缝切换。

但这仅仅是体验升级的第一步。

家庭天然具有多人的特征，听歌作为一种生活方式，喜好上千人千面。

“比如老爷子们喜欢听京剧，年轻人喜欢听hip-hop，随机点歌，很可能不是自己想听的。”

天猫精灵人工智能部总经理姜飞俊表示，音乐算法的推荐能不能真正做到千人千面才是提升体验的核心。

在交互体验上，天猫精灵思考的问题是，如何让音箱对用户及不同场景和时段的喜好具备认知？

天猫精灵打造了AI识人交互分发引擎，即识人听曲功能，能够自动识别家庭中的不同用户，自动推荐用户喜欢的歌曲，听到更多意料之外的好音乐。

实现这一目标需要三个步骤：用户识别、场景识别和服务表征。

首先需要极强的语音识别技术。

确认用户首先需要进行语音辨认，从多人中确认说话人，再进行语音去人，判断语音是否由目标说话人说出。

语音技术，最大的难题是抗噪性，环境噪音和混合说话人对识别有干扰。

作为AI领域绝对头部，阿里基于全球领先的声纹识别技术，天猫精灵曾率先在音箱实现声纹支付，技术、安全能力均为金融级别，在生活场景，更是得心应手。

第二步进入场景识别。这一步考验的是大数据分析能力，后台根据用户的历史行为来推测当前用户的需求，比如用户习惯早上7点半起床后听5分钟歌，再听新闻，天猫精灵后台算法自动检测到用户的生活规律，在播放万5分钟歌曲之后，会自动提示用户，是否继续放新闻。

第三步服务表征是交互方式的延展，基于对用户和场景的综合理解，自动推荐最优服务给客户。根据用户是何种音乐平台的高级会员，自动推荐该平台的高品质音乐。

为轻松唤醒、回声消除、降噪诞生的猫耳算法

即将发布的高端智能音箱，音质好、音量大，对语音交互的要求也更高。

场景识别引擎解决了鸡尾酒会问题，猫耳算法大刀阔斧地向回声消除、声源定位和降噪进发。

何为「猫耳算法」？顾名思义，具备猫的灵敏与方向感。

第一个需要对付的，是唤醒困难。

首先，音量大也意味着扬声器功率很大，使得扬声器的非线性增加，这直接导致唤醒困难，“调大音量后，扯着嗓子喊，音箱没反应”也是绝大多数音箱存在的问题。

声源定位上，传统获取声音的方式其实是声学检测，而非人声检测，声学模式下噪声只能有一个方向。

天猫精灵意识到这个本质问题，增加了唤醒词信息，如唤醒词的边界、唤醒词上每个频点人声的比例，将语音特征与声学特征结合，提高最终的寻向准确率。

其次，每一首歌的默认音量不同，当扬声器功率大的背景下，音量的不一致会被放大，于是，上一首歌的音量，放到下一首时，音量要么突然变大，要么突然变小，用户要么随时随地调整音量设置，要么忍受大小不一的音量，听歌体验非常糟糕。

针对大声量场景，猫耳算法能让音箱即使处于最大音量播放歌曲时，用户只需要用正常音量就能够轻松唤醒。同时，天猫精灵还针对不同音量的歌曲，增加自适应环节。

再来谈谈回声消除。传统的回声消除算法，主要通过线性滤波器，去掉音箱本身的线性回声。天猫精灵在此基础上，增加了NAC模块，通过深入学习的方法，消除音箱的非线性回声，再综合利用人声和非人声之间的差异，消除非线性回声。

最后，在降噪上，天猫精灵在传统的多麦降噪方案上，增加了噪声识别模型，能够准确的区分人声和非人声，从而整体提升整个降噪的效果。

好音质为什么那么难？

8年前，一款Echo横空出世，颠覆人们对音箱的想象，让智能音箱从一个边缘产品，走到生活的中央。

几年间，中国品牌频频崛起，经历过2年激烈「百箱大战」，价格战极大刺激了消费者的尝鲜欲，初步完成了智能音箱的市场教育目标。

而后，智能音箱承载整个智能家居的想象，功能、场景不断被开发，属性也不断被叠加：玩具、工具、助手、智能管家，反而忽视了音箱的本位。

野蛮生长后，市场回归理性。

除了版权、内容资源上的欠缺，最核心的要数AI互动体验感初级，低门槛的技术服务能打开市场，但难以长久留存用户。

当初代智能音箱以「尝鲜」姿态进入人们的生活后，并不畅快的体验感，让企业和用户都开始思考智能音箱的本质：未来到底应该以何种形式存在？

是的，有相当一部分人群在渴求一款真正的高端智能音箱。

当品牌格局确立、产业链日趋成熟，高性价比的智能音箱打响市场认知，高品质的智能音箱开启用户体验。

无论何种功能、何种身份、何种使用场景，智能音箱的本质离不开两个东西：AI所代表的的智能交互，与声学所代表的音质体验。

6年前，苹果的HomePod几乎要成为高端智能音箱新的主宰。

即使拥有当时不错的室内音质表现，但过高的定价（最初售价349美元），过于智障的语音交互，以及封闭的生态，让HomePod最终成为历史。

2021年3月，在苹果正式宣告HomePod搁浅、主打更低价的HomePod Mini后，中国企业开始发力，高端智能音箱的追赶此起彼伏。

其中华为、小米的最为瞩目。一个品牌影响力强大，一个市场用户数量庞大。

首代Sound X市场反响平平，2021年7月，华为发布了2199元的新一代Sound X，帝瓦雷联合设计，新增幻彩光随声动和鸿蒙分布式操作系统，一度成为唯一值得购买的高端智能音箱。

但华为第三代Sound超2000元的定位，号称万元音响级别，但实际体验上与同价位段的哈曼卡顿琉璃3，后者在低频下潜上极其优秀，对比之下Sound X稍显逊色。2199元的定价也存在一定的品牌溢价。

紧接着8月，小米以「小米首款高端高保真智能音箱」产品描述拉足悬念和预期，结合当时的市场语境，在用户视角，这将是一款对标苹果的 HomePod、华为 Sound 系列的高端智能音箱，但最终定位为高端旗舰型的小米Sound售价499元，主打小巧外形和高音质，支持UWB一指连技术。

小米以499元的价格，开了一个好头，但并不完美，尽管音质上有一定提升，为了平衡高端和价格，不可避免会出现为了节省成本，在音质上有所牺牲，只能是入门级的高端智能音箱。

在华为、小米以联名海外品牌发新之后，国内一度没有再次进攻高端智能音箱的企业。

不夸张地说，目前为止还没有一款高端智能音箱能完全满足中国用户在交互、音质和价格的多维需求。

高端智能音箱，不仅仅是堆料，背后是智能与音质的高度融合，音质要回归音箱的本质，而AI需要在基础设施层、技术研发层和基础应用层进行不断的深入、优化才能逐渐走向完美。

一年之后，为什么天猫精灵更明确提出自有的「智能声学」体系？

查了天猫精灵智能声学专家们的背景，天猫精灵声学实验室卧虎藏龙，团队声学成员平均有13年声学设计经验，来自哈曼、楼氏、AAC、飞利浦等全球知名公司。

以实验室负责人汪涛为例，13年声学行业从业经历，曾在哈曼、Tymphany、先歌国际等一线音频公司任职，参与过Harman/Kardon、JBL等口碑爆款音箱的声学设计工作。

一个行业热知识，哈曼“金耳朵”认证测试100%正确率通过level14，而全球范围内通过人数屈指可数。

进入天猫精灵声学实验室的一项硬指标，所有人都需要经过金耳朵认证。

这个已建设4年的实验室，在全球范围内有20多个声学实验场地，拥有数十项智能声学相关专利。其实，这并非他们的技艺首次亮相，据悉，该团队已支撑了200多个AIoT品类，近千款产品的声学设计，这其中也包括了天猫精灵智能音箱，车载精灵、机器狗、眼部按摩仪等等。

波士顿自不必多说，全球顶级声学机构，在声学领域纵横40余年，是北美高端家庭音箱领域的王者。

经典架构上，有波士顿声学40年的扬声器设计、腔体设计经验，HIFI声学的调试上深厚积累。据悉，这次其在中国境内首次与企业基于智能音箱产品进行深度联合调音合作。

双方的合作并不限于某个发声单元的采购，也不是单纯的品牌授权，而是在最根本的基础声学表现上，融合经典音箱架构，并加入到智能声学的研发过程中。

为确保音效体验，智能音箱面世前，想必会经过过双方软硬件团队测试、金耳朵测试、多轮用户内测的反复、多维测试，时刻关注用户反馈并实时改进。

智能声学时代

其实拆开高端智能音箱最终为人服务这一母题，天猫精灵专家还与我们分享了，全球智能声学未来的四个方向：

1、经典架构再生。智能音箱回归听感本质，好看之外，更要好用。

2、专精特定音乐类型，电子音乐(Elektroncore)、情绪摇滚（EMO）、重金属（Djent）等成为新一代年轻人的心头好，围绕新音乐类型进行定制化调音。

3、环境感知的自适应能力。近耳、定向、空间检测等技术持续提升，以近耳技术为例，目前TWS耳机降噪成为标配功能，但部分人佩戴时间过长会产生不适，通过局域声场控制等方式在不佩戴耳机做降噪成为未来探索方向。

4、创新发声单元材料，探索极薄的发声器件、柔性器件、传感器等新的材料。

说白了，就是从声学架构、音乐音质、智能技术、创新材料各方面，打造极致的声音体验。

正如我们此前体验的专利点，从音腔硬体到EQ算法，整个音频链路上，都需要通过智能声学标准，达成更优的选择。

天猫精灵Sound系列最终在618期间发售仅仅1299、699的价格，似乎也让人更加认同，持续专注技术沉淀的价值。

END